Können große Sprachmodelle schlussfolgern?丨AI That Guy

Können große Sprachmodelle schlussfolgern?丨AI That Guy

Große Sprachmodelle sind nützlich, können aber grundlegende Probleme der KI, einschließlich des logischen Denkens, nicht lösen.

Geschrieben von Wang Pei (Department für Informatik, Temple University, USA)

Seit der Veröffentlichung von ChatGPT vor zwei Jahren haben verschiedene große Sprachmodelle das menschliche Bewusstsein immer wieder auf den neuesten Stand gebracht, sodass selbst die Aussage „Die allgemeine künstliche Intelligenz kommt“ sich von der Raserei eines Verrückten zu einem Klischee gewandelt hat und nicht länger als „schockierender“ Titel verwendet werden kann. Selbst wer an die sich ständig verändernde Welt hier gewöhnt ist, kann sich des Gefühls nicht erwehren, in einer anderen Welt zu sein. Der diesjährige Nobelpreis wurde gleich zweimal für die dahinterstehende künstliche neuronale Netzwerktechnologie verliehen, die man als „loderndes Feuer und Blumenbrokat“ bezeichnen kann.

Doch gleichzeitig werden die kritischen Stimmen, die es in der Wissenschaft schon immer gab, immer lauter. Im jüngsten Titelartikel des Artificial Intelligence Magazine (einer Mitgliedszeitschrift der AAAI, der weltweit größten wissenschaftlichen Organisation für künstliche Intelligenz) wurde unverblümt festgestellt, dass die Forschung zur „erklärbaren künstlichen Intelligenz“ in einem Sumpf steckengeblieben sei**[1] und dass gerade die „Schwierigkeit der Erklärung“ einer der Kritikpunkte an tiefen neuronalen Netzwerken sei. In einem aktuellen Forschungsbericht von Apple-Forschern wurde sogar behauptet, dass große Sprachmodelle nicht zu logischem Denken fähig seien [2]**, was für Aufsehen sorgte.

Argumente von beiden Seiten

Seit mehreren Jahren wird darüber diskutiert, ob tiefe neuronale Netzwerke schlussfolgern können. Ein Artikel von Apple Research**[2] bewertete die Argumentationsfähigkeit großer Sprachmodelle im Bereich der Mathematik. Bei dem Material handelte es sich um eine Gruppe von „mathematischen Textaufgaben“, die „fein abgestimmt“ waren und bereits durch große Sprachmodelle gut gelöst werden konnten. Am Beispiel von Fragen, die wir aus der Grundschule kennen, umfassen die Modifikationen (1) das Ersetzen der Eigennamen (z. B. eine Frage zu „Xiao Hong“ in eine zu „Xiao Ming“), (2) das Ändern der Zahlen (z. B. „3,5 Stunden“ in der Frage zu „2,8 Stunden“) und (3) das Hinzufügen irrelevanter Informationen (z. B. eine Beschreibung von „Xiao Ming beim Angeln“ in einer Frage zu „Xiao Hong beim Bergsteigen“). Obwohl diese Modifikation die logische Struktur dieser mathematischen Aufgaben nicht beeinflusste, führte sie zu einem deutlichen Rückgang der Genauigkeit der Antworten. Die Schlussfolgerung des Artikels ist, dass große Sprachmodelle weder die mathematischen Konzepte dieser Aufgaben verstehen noch logisches Denken durchführen können. Stattdessen vergleichen sie lediglich die Aufgaben, mit denen sie konfrontiert sind, mit den Aufgaben in den Trainingsdaten. Daher spiegeln selbst die richtigen Antworten nur das Gedächtnis und die Zuordnungsfähigkeit des Systems wider, nicht seine Fähigkeit zum logischen Denken. Als ich ChatGPT letztes Jahr [3]** rezensierte , sagte ich, dass es kein logisches Denken durchführt, da die Qualität seiner Schlussfolgerungen von der Menge an relevanten Trainingsdaten, sodass es nur als Zusammenfassung des umfangreichen Denkprozesses des Menschen betrachtet werden kann – „nichts Besonderes, nur Übung macht den Meister.“ Dies wird auch durch die Evaluationsergebnisse in [2] unterstützt.

Dieses Evaluierungsergebnis reicht jedoch nicht aus, um die Debatte beizulegen. Die Argumentation derjenigen, die meinen, große Sprachmodelle könnten zu diesem Thema schlussfolgern, lautet in etwa wie folgt: „Manche Probleme werden von Menschen durch logisches Denken gelöst, ihre Lösung erfordert also logisches Denken. Große Sprachmodelle lösen diese Probleme nun, also können sie schlussfolgern.“ Dieser Ansicht zufolge haben große Sprachmodelle bei vielen Problemen weitaus bessere Denkfähigkeiten gezeigt als normale Menschen. Wenn wir zu diesem Zeitpunkt immer noch behaupten, dass dies aufgrund einiger falscher Schlussfolgerungen nicht möglich sei, geraten wir unweigerlich in den Verdacht der „Verallgemeinerung“ und „Kleinigkeitskrampfhaftigkeit“. Angesichts der rasanten Entwicklung der entsprechenden Technologien stellt sich die Frage, ob die nächste Version diese Lücken nicht schließen kann. Hat OpenAI nicht bereits „Argumentation“ als seinen aktuellen Schwerpunkt aufgeführt?

In der bisherigen Debatte besteht das wichtigste Beweismittel für beide Seiten darin, verschiedene Fälle des Erfolgs oder Misserfolgs großer Sprachmodelle beim Schlussfolgern zu finden. Der Vorteil dieses Ansatzes besteht darin, dass die Beweise spezifisch und überprüfbar sind, Sie erhalten jedoch immer nur ein begrenztes Verständnis des Gesamtbildes. Inwieweit offenbaren diese Erfolge und Misserfolge die allgemeinen Denkfähigkeiten des Systems und wie viele der aktuellen Mängel können durch weitere Forschung und Entwicklung behoben werden?

Was ist „Argumentation“?

Jemand hat einmal gesagt, dass viele Argumente eigentlich auf unterschiedlichen Auffassungen grundlegender Konzepte beruhen. Und genau aus diesem Grund begannen viele meiner früheren Artikel mit einer Konzeptanalyse – nicht, weil ich gern kleinlich bin, sondern weil es ohne diese Analyse unmöglich ist, zum Kern des Arguments vorzudringen.

„Argumentation“ wird üblicherweise als „der Prozess des Ableitens neuer Urteile (Schlussfolgerungen) aus bekannten Urteilen (Prämissen)“ beschrieben, aber wenn „Ableiten“ nicht weiter eingeschränkt wird, ist es offensichtlich zu weit gefasst. Das umgekehrte Lesen der Prämisse gilt sicherlich nicht als Schlussfolgerung. Mit „Start“ ist hier natürlich „richtiger Start“ gemeint, aber genau hier liegt das Problem: Nach welchen Kriterien lässt sich bestimmen, ob es „richtig“ ist oder nicht?

In der Erforschung des logischen Denkens gibt es zwei unterschiedliche wissenschaftliche Traditionen.

Logik und Mathematik untersuchen normative Theorien und Modelle des Denkens mit dem Ziel, die Richtigkeit (auch „Gültigkeit“ genannt) des Denkens auf einem universellen Rationalitätsstandard zu begründen. Der traditionelle Maßstab für die Gültigkeit einer Argumentation ist die „Treue“, das heißt, es muss sichergestellt werden, dass aus wahren Prämissen wahre Schlussfolgerungen gezogen werden. Ein logisches System besteht aus Argumentationsregeln, die diesem Maßstab entsprechen. Diese Regeln sind abstrakt und betreffen nur die Form der Prämissen und Schlussfolgerungen, nicht deren Inhalt. Wie beispielsweise in [3] erwähnt, hängt die Richtigkeit der Schlussfolgerung „A ist C“, die aus den Prämissen „A ist B“ und „B ist C“ gezogen wird, nicht davon ab, was die Buchstaben darstellen.

Die Psychologie untersucht beschreibende Theorien und Modelle des Denkens mit dem Ziel, die Gesetze zusammenzufassen, denen menschliche Denkprozesse tatsächlich folgen. Insofern ist die „Richtigkeit“ hier vergleichbar mit der anderer empirischer Wissenschaften, das heißt, dass „theoretische Vorhersagen mit tatsächlichen Beobachtungen übereinstimmen“.

Obwohl die beiden Theorietypen zu einigen ähnlichen Schlussfolgerungen kommen (es wäre problematisch, wenn sie völlig unterschiedlich wären), sind die Unterschiede zwischen ihnen seit langem bekannt. Ein typisches Beispiel ist die „Watson-Auswahlaufgabe“, die ich in [4] eingeführt habe und die ich hier nicht wiederholen werde.

Beide Traditionen spiegeln sich in der Forschung zur künstlichen Intelligenz wider. Die Forschung zum folgerichtigen Denken im Bereich der künstlichen Intelligenz basierte von Anfang an auf normativen Theorien, die durch die mathematische Logik repräsentiert werden. Es wurden jedoch verschiedene „Korrekturen“ versucht, um dem realen menschlichen Denken näher zu kommen, und dabei wurden einige Erfolge erzielt. Allerdings ist es im Allgemeinen noch zu idealistisch und unzureichend, um verschiedene komplexe praktische Probleme zu lösen.

Im Gegensatz dazu kann man sagen, dass das Denken im Deep Learning (einschließlich großer Sprachmodelle) bis zu einem gewissen Grad den Geist der beschreibenden Theorie übernommen hat, d. h. das Verhalten des Modells wird auf der Grundlage der Denkpraxis der Menschen (und nicht auf der Grundlage abstrakter rationaler Prinzipien) bestimmt. Dennoch unterscheiden sich die spezifischen Praktiken völlig von der Psychologie. Die Psychologie betrachtet, wie die Logik, einen Denkprozess als eine Reihe von Denkschritten bestehend, von denen jeder seinen eigenen erkennbaren und erforschbaren Gesetzen folgt. Es ist nur so, dass sich diese Regelmäßigkeit im tatsächlichen Verhalten der Menschen widerspiegelt und nicht einheitlich durch bestimmte abstrakte Prinzipien (wie etwa „Treue“) erklärt werden kann. Da das Denkverhalten im neuronalen Netzwerkmodell durchgängig trainiert und generiert wird, indem die Prämissen und Schlussfolgerungen verwendet werden, die Menschen beim Lösen praktischer Probleme verwenden (oftmals als Satzreihenfolge in großen Sprachmodellen widergespiegelt), werden die Zwischenschritte übersprungen und der Maßstab für die Richtigkeit ist, „ob Menschen aus gegebenen Prämissen dieselben Schlussfolgerungen ziehen“, und es spielt keine große Rolle, wie diese Schlussfolgerungen Schritt für Schritt generiert werden. Unterstützt durch die leistungsstarken Informationsverarbeitungsfunktionen von Computern und die enorme Menge an Trainingsdaten hat dieses Denkmodell bemerkenswerte Erfolge erzielt, weist aber auch mehrere Mängel auf:

Bei einem End-to-End-Training verliert man die Kontrolle über die Zwischenschritte, was den Prozess und die Ergebnisse schwer verständlich macht.

Die Abhängigkeit von Trainingsdaten führt zu Problemen wie „Verzerrung“ und „Überanpassung“ bei verallgemeinernden Schlussfolgerungen.

Wenn nicht genügend Trainingsdaten vorhanden sind, ist es schwierig, die Genauigkeit der Antwort zu garantieren, indem man die Antwort auf der Grundlage der statistischen Ähnlichkeit mit den Stichproben errät.

Da diese Probleme durch die „Natur“ des neuronalen Netzwerkmodells bedingt sind, können sie mit technischen Mitteln nicht vollständig gelöst werden. Beispielsweise spiegelt die neuerdings populäre „Denkkette“ den Aufwand wider, die Zwischenschritte einzufügen. Die meisten „Glieder“ in dieser „Kette“ sind jedoch immer noch Denkprozesse, die weiter zerlegt werden können, und keine grundlegenden Denkschritte. Ihr Korrektheitsstandard wird immer noch durch Trainingsdaten festgelegt und ist daher nicht universell (domänenunabhängig). Dieses Mal musste dieses deskriptive Modell für die Bewertung von Apple Research Denkprobleme in der normativen Theorie (Mathematik) lösen, daher ist es nicht überraschend, dass es schlecht abschnitt.

Natur und Erziehung

Hinter den verschiedenen oberflächlichen Unterschieden zwischen normativen und deskriptiven Denkmodellen verbergen sich unterschiedliche Ansichten über die angeborenen und erworbenen Faktoren der Intelligenz (oder „Erkenntnis“, „Denken“ usw.). Obwohl allgemein Einigkeit darüber besteht, dass beide unverzichtbar sind, gibt es dennoch unterschiedliche Ansichten über ihre jeweiligen Rollen. Die Denkregeln im normativen Modell werden grundsätzlich a priori festgelegt (obwohl die verwendeten Denkprämissen a posteriori erworben werden können), während die Denkregeln im deskriptiven Modell aus erworbenem Training stammen können (obwohl der vom Training verfolgte Algorithmus a priori gegeben ist). Bei neuronalen Netzwerkmodellen wird „Schlussfolgerung“ als die Beziehung zwischen dem „Wissen“ und der „Schlussfolgerung“ eines Problems betrachtet und nicht auf den Generierungsprozess vom Wissen bis zur Schlussfolgerung beschränkt. Dieser Ansatz vereinfacht den Konstruktions- und Anwendungsprozess dieses Modells erheblich (es müssen lediglich Trainingsdaten bereitgestellt werden, ohne dass die Lösung des Problems erläutert wird), was ein wichtiger Grund für seinen Erfolg ist, aber auch die Grundursache der oben genannten Probleme darstellt.

Diese unterschiedliche Behandlung angeborener und erworbener Faktoren kommt nicht nur in Denkmodellen, sondern auch in Sprachmodellen vor. In der Erforschung des natürlichen Sprachverständnisses war die zunächst dominierende „Regelschule“ (Chomsky-Schule) davon überzeugt, dass die Sprachfähigkeit (insbesondere die grammatikalische Struktur) grundsätzlich angeboren sei und erworbenes Wissen lediglich die Rolle eines „stimulierenden Potenzials“ spiele. Die derzeit vorherrschende „statistische Schule“ (mit neuronalen Netzwerkmodellen als Hauptimplementierungsmethode) glaubt, dass „alles gelernt werden kann“ und die einzige erforderliche angeborene Komponente die Fähigkeit ist, die Trainingsdaten zu verallgemeinern (was sich im Lernalgorithmus widerspiegelt).

Wenn wir den Wurzeln weiter nachgehen, lässt sich sagen, dass diese Betonung angeborener und erworbener Faktoren in verschiedenen Bereichen (nicht beschränkt auf das oben erwähnte Denken und die Sprache) den Rationalismus bzw. Empirismus in der Philosophie widerspiegelt. Die Beziehung zwischen den beiden ist nicht so einfach wie die Frage, wer Recht und wer Unrecht hat, und lässt sich auch nicht durch „organische Einheit“ täuschen. Die wichtigsten Entscheidungen für die Entwickler von KI-Systemen bestehen darin, zu unterscheiden, welche Mechanismen und Inhalte im Voraus entwickelt werden sollten und welche der Schulung und Ausbildung überlassen werden sollten. Systeme, die rein rationalistisch vorgehen, sind oft zu starr und nicht in der Lage, mit der Komplexität der Umwelt umzugehen, während Systeme, die rein empirisch vorgehen, sich oft auf Fragmente vergangener Erfahrungen beschränken und die Universalität ihrer Urteile nicht garantieren können. Um die Inferenzregeln als Analogie zu verwenden: Ersteres ist so, als würde man Probleme lösen, indem man sich ausschließlich auf deduktives Denken verlässt, das den Vorteil der Genauigkeit und Zuverlässigkeit („Treue“) hat, aber hilflos ist, wenn es über den Rahmen der vorgegebenen Prämisse hinausgeht. Letzteres ist so, als würde man Probleme lösen, indem man sich ausschließlich auf analoges Denken verlässt. Dies hat den Vorteil der Flexibilität (alles ist vergleichbar, wenn man nichts dagegen hat, Dinge zu erzwingen), gerät aber oft in widersprüchliche Situationen.

Ich bin der Meinung, dass das (angeborene) Design künstlicher Intelligenzsysteme im Vergleich zur menschlichen Intelligenz rationalen Prinzipien folgen sollte, die denen des Menschen nahe kommen. Ihr spezifisches Verhalten sollte jedoch auf ihren eigenen (erworbenen) Erfahrungen basieren und nicht auf dem Versuch, menschliches Verhalten vollständig zu replizieren. Was das von mir entworfene Denkmodell „Nass“ betrifft (siehe meine vorherige Kolumne), so spiegelt der Entwurf die Denkregeln wider, die aus dem menschlichen Denkverhalten abstrahiert wurden, statt zu erwarten, dass das System sie selbst lernt. Andererseits beruhen die Überzeugungen, Wünsche und Konzepte des Systems ausschließlich auf den eigenen Erfahrungen des Systems (einschließlich der sensorischen und motorischen Erfahrung sowie der Erfahrung mit verbaler Kommunikation) und nicht auf vorab eingepflanzten „Wahrheiten“ oder „Fakten“. Einfach ausgedrückt ist das Design von Nass ein Versuch, Intelligenz zu erreichen, indem man als Meta-Logik eine Reihe von Denkregeln verwendet, die der angeborenen Logik des Menschen ähneln. Ich sage nicht, dass es im menschlichen Gehirn eine Reihe symbolischer Denkregeln gibt, sondern dass unser natürlicher Denkprozess bestimmten Regeln folgt und diese Regeln in symbolische Denkregeln organisiert werden können, ohne ihre grundlegenden Eigenschaften zu verlieren. Dabei muss zwischen „Logik“ im allgemeinen Sinne und dem spezifischen „logischen System“ unterschieden werden. Die Logik ist seit ihrer Entstehung die Lehre von allgemeingültigen Denk- und Argumentationsnormen, und das ist auch das, was wir meinen, wenn wir beurteilen, ob eine Aussage „logisch“ ist. Die Definition der „Gültigkeit des Denkens“ als „Treue“ und ihre spezifische Beschreibung als Regelsystem unter Verwendung einer symbolischen Sprache stellt ein spezifisches Verständnis der Denknormen dar. Selbst wenn alle bestehenden logischen Systeme unbefriedigend sind, ist die Schlussfolgerung „Für das menschliche Denken gibt es keine Regeln“ keine zwangsläufige Schlussfolgerung. Wenn dies zutrifft, warum ist es uns dann immer noch möglich, viele der Denkprozesse und Ergebnisse anderer (einschließlich der Menschen im Altertum und von Ausländern) bis zu einem gewissen Grad zu verstehen und sogar zu akzeptieren?

Nashs Denkmechanismus basiert auf der Überzeugung, dass „das Denken intelligenter Systeme universellen Regeln folgt“. Er ist als normatives Modell konzipiert, und die Richtigkeit seiner Schlussfolgerungen wird anhand der rationalen Prinzipien bestimmt, auf die sich Nash stützt, und nicht anhand allgemeiner menschlicher Meinungen als Maßstab für Richtig und Falsch. Im Gegensatz zum traditionellen normativen Modell geht Nass jedoch davon aus, dass sich das System unter Bedingungen relativ unzureichenden Wissens und unzureichender Ressourcen an die Umgebung anpassen muss. Die Grundlage für die Beurteilung der Richtigkeit einer bestimmten Schlussfolgerung bilden daher die Erfahrungen des Systems aus der Vergangenheit und nicht objektive Fakten oder künftige Erfahrungen. Auf diese Weise ist Nashs Modell auch hinsichtlich des Wissensgehalts ein beschreibendes Modell, es fasst jedoch eher seine eigenen Erfahrungen als die menschliche Erfahrung zusammen. Das Ergebnis ist, dass Nash Ähnlichkeiten mit verschiedenen traditionellen Denkmodellen aufweist, aber auch grundlegende Unterschiede.

Im Vergleich zu großen Sprachmodellen werden die Argumentationsregeln von Nass während des Entwurfsprozesses festgelegt und haben nichts mit Systemerfahrung oder Anwendungsbereichen zu tun. Da diese Regeln aus der Notwendigkeit resultieren, sich „an die Umgebung unter Bedingungen relativen Mangels an Wissen und Ressourcen anzupassen“, und sich menschliche Denkmechanismen entwickelt haben, um diesem Bedürfnis gerecht zu werden, weisen Nashs Denkprozess und Ergebnisse viele Ähnlichkeiten mit denen des Menschen auf, sodass sie im Prinzip erklärbar sind (obwohl dies bei komplexen Problemen nicht einfach sein wird). Da Nashs Schlussfolgerungen auf systematischer Erfahrung beruhen, werden seine erfahrungsbedingten Einschränkungen sicherlich zu Voreingenommenheit und Fehleinschätzungen führen, doch dieser Mangel an Wissensinhalt bedeutet nicht, dass er auch nicht zu systematischer Denkfähigkeit fähig ist.

Da sich die von Nash verfolgte „angeborene Logik“ (genannt „nicht-axiomatische Logik“, siehe [5]) von der mathematischen Logik unterscheidet und keine Mathematik einschließt, muss das System diese Theorien dennoch durch Lernen beherrschen. Dieses Lernen erfolgt mithilfe der angeborenen Logik, was sich völlig vom Training künstlicher neuronaler Netzwerke unterscheidet. Wenn Nass nach dem Lernen der entsprechenden Kurse aufgefordert wird, mathematische Textaufgaben zu lösen, kann es auch verschiedene Fehler machen, aber diese Fehler ähneln eher denen von Grundschülern als denen von großen Sprachmodellen. Da Nass‘ Forschung und Entwicklung noch nicht das Niveau erreicht haben, auf dem dies getestet werden kann, kann dies als eine Prophezeiung angesehen werden, die noch getestet werden muss.

Die Quelle der Denkfähigkeit

Basierend auf der obigen Analyse können große Sprachmodelle als spezielle beschreibende Denkmodelle betrachtet werden, die bestimmte Denkaufgaben durch Zusammenfassung entsprechender menschlicher Verhaltensweisen erledigen. Es ist nicht ganz falsch, diese Fähigkeit als „schlussfolgerndes Denken“ zu bezeichnen. Genauer ist jedoch die Aussage, dass sie „nicht schlussfolgern, sondern nur Muster erkennen können“, da sie eine Aufgabe, die Menschen durch schrittweises Schlussfolgerungsvermögen erledigen müssen, als eine End-to-End-Zuordnung (eine Funktion von der Eingabe zur Ausgabe) betrachten und die Aufgabe durch Abgleichen mit bekannten Zuordnungsbeziehungen erledigen. Obwohl es hinsichtlich des Umfangs der von ihnen gelösten Probleme große Überschneidungen zwischen den beiden Verfahren gibt, sollten die Unterschiede zwischen ihnen nicht ignoriert werden. Wenn wir darauf bestehen, den Anwendungsbereich des Wortes „Argumentation“ zu erweitern, sollten wir auch sagen, dass große Sprachmodelle „ zwar schlussfolgern können, aber keiner Logik folgen“. Manche Menschen glauben, dass künstliche Intelligenz eine andere Logik als der Mensch hat. Um dies zu beweisen, müsste man ihre Denkregeln jedoch auf grundlegendere rationale Prinzipien stützen (wie etwa „Treue“ und „Anpassung“). Ein solches Argument habe ich bisher noch nicht gehört.

Nicht alle Problemlösungsprozesse können als „Argumentation“ bezeichnet werden. Intuitiv gesprochen müssen wir Schritt für Schritt „drücken“, und jeder Schritt muss einen „Grund“ haben. Natürlich handelt es sich bei dieser „wörtlichen Bedeutung“ nicht um eine Definition, aber die Lösung eines Problems durch bloßes Aufsagen oder Nachschlagen der Antworten kann sicherlich nicht als logisches Denken betrachtet werden, auch wenn diese Antworten möglicherweise von früheren Generationen durch logisches Denken gewonnen wurden. Große Sprachmodelle sind sicherlich nicht so einfach wie Rezitation oder Abfrage, aber sie sind noch weiter entfernt vom traditionellen Verständnis von „Argumentation“, das darin besteht, „schrittweise Antworten aus bekannten Informationen gemäß vernünftigen Regeln oder Mustern zu generieren“. Aus diesem Grund sind sie schwer zu erklären oder „es ist keine Schlussfolgerung möglich, sondern nur ein Mustervergleich.“ Für praktische Anwendungen sind ihre „Argumentationsfähigkeiten“ für einige Anforderungen ausreichend, für andere jedoch völlig unzureichend. Insbesondere können wir nicht davon ausgehen, dass damit die Funktion des „logischen Denkens“ des intelligenten Systems realisiert wurde. Selbst das Studium des logischen Denkens in der Psychologie kann nicht vollständig nach dem großen Sprachmodell erfolgen, ganz zu schweigen von Logik und Mathematik. Große Sprachmodelle sind in diesen Disziplinen immer noch nützlich, allerdings für andere Zwecke (z. B. zum Zusammenfassen vorhandener Forschungsergebnisse).

Das heißt nicht, dass große Sprachmodelle keine Logik und Mathematik lernen können. Das „Wissen“ in einem Informationssystem existiert normalerweise auf zwei Ebenen, die allgemein als „Wissen auf Objektebene“ und „Wissen auf Metaebene“ bezeichnet werden. Genauer gesagt gehört im traditionellen Argumentationssystem das Wissen, das als Prämisse und Schlussfolgerung der Argumentation dient, zu ersterem, das normalerweise in Form von Aussagen vorliegt und während des Betriebs des Systems hinzugefügt, gelöscht und geändert werden kann, während das in den Argumentationsregeln verkörperte Wissen zu letzterem gehört, das normalerweise in Form von Programmen vorliegt und während des Betriebs des Systems unverändert bleibt. In einem großen Sprachmodell entsprechen die Parameter, die während des Trainings angepasst werden können, dem Objektwissen, und der Algorithmus, der diese Anpassung vornimmt, entspricht dem Metawissen. Im Zusammenhang mit der vorangegangenen Diskussion lässt sich sagen, dass Metawissen grundsätzlich angeboren ist, während Objektwissen erworben wird.

Diese beiden Wissensarten können sich gegenseitig beeinflussen und bis zu einem gewissen Grad ersetzen oder transformieren. Wir können eine Logik erlernen und danach schlussfolgern, aber diese erworbene Logik kann unsere angeborene „Metalogik“, also die Gesetze, denen der Mensch bei seinen Denkaktivitäten von Natur aus folgt, nicht vollständig ersetzen. Selbst bei Menschen, die nie eine Ausbildung in Logik erhalten haben, entsprechen ihre Denkaktivitäten im Allgemeinen dieser Logik. Andererseits ist es sogar für Logiker und Mathematiker unmöglich, ihr theoretisches Wissen (wie etwa Prädikatenlogik erster Stufe oder Wahrscheinlichkeitstheorie) zu nutzen, um ihre Denkaktivitäten im täglichen Leben vollständig zu regulieren. Wir können dem großen Sprachmodell sicherlich jede beliebige Logik beibringen, einschließlich der von Nath verfolgten, aber dies ist lediglich „Objektwissen“ für das große Sprachmodell. Es kann auf dieser Grundlage zwar Fragen beantworten, seine Denkaktivitäten jedoch nicht vollständig darauf regulieren, genauso wie Menschen zwar eine Theorie auswendig aufsagen können, sich aber nicht immer davon leiten lassen können.

Unsere Erfahrungen können unsere Denktätigkeit beeinflussen, sie können jedoch nicht alle beteiligten Prozesse bestimmen. Der Hauptgrund besteht darin, dass die Kontrolle des „Metawissens“ nicht das gleiche Niveau erreichen kann wie die des „Objektwissens“. In ähnlicher Weise können wir einem großen Sprachmodell durch Training einen anderen Satz von Lernalgorithmen beibringen, aber wir können seinen inhärenten Lernalgorithmus nicht ersetzen.

Selbst wenn wir die Gesetze unseres eigenen Denkens nicht manipulieren können, warum können wir die Unterscheidung zwischen „Objektwissen“ und „Metawissen“ in den von uns entwickelten Computersystemen nicht aufheben? Ist es möglich, einer Art künstlichem neuronalen Netzwerk zu erlauben, seinen eigenen Lernalgorithmus anzupassen, oder Nass zu erlauben, seine eigenen Denkregeln auf der Grundlage von Erfahrungen anzupassen? Dies ist zwar bis zu einem gewissen Grad möglich, ist aber möglicherweise keine gute Idee (da dadurch beispielsweise die Konsistenz des Systems selbst zerstört wird) und kann auch nicht vollständig erreicht werden (um beispielsweise „Metawissen“ zu ändern, ist „Metawissen“ erforderlich). Da dieses Thema nicht im Fokus dieses Artikels steht, wird nicht weiter darauf eingegangen.

Wenn die „innere Logik“ eines intelligenten Systems nicht aus seiner eigenen Erfahrung zusammengefasst werden kann, woher kommt dann dieses Metawissen des Menschen? Obwohl ich glaube, dass intelligente Systeme entworfen werden können, bedeutet das nicht, dass ich glaube, dass die menschliche Intelligenz auch das Ergebnis irgendeiner Art von Design ist. Im Gegenteil, die von Nash verkörperte „Argumentationsansicht“ (Argumentation ist Konzeptsubstitution, und Konzepte sind Abstraktionen von Erfahrungsfragmenten, sodass das adaptive System vergangene Erfahrungen anwenden kann, um Probleme in der aktuellen Situation durch Schlussfolgerung zu lösen) findet sich im Prototyp der tierischen Intelligenz wieder. Daher kann das Metawissen intelligenter Systeme entweder durch Design oder Evolution entstehen, ich glaube jedoch nicht, dass es praktikabler ist, künstliche Intelligenz durch Evolution zu erlangen, als sie zu entwickeln (obwohl es als ergänzendes Mittel eine Überlegung wert ist). Dieses Thema wird in [6] diskutiert und hier nicht näher erläutert.

Zusammenfassend bleibt meine grundsätzliche Einschätzung großer Sprachmodelle die gleiche wie in [3]: Sie sind nützlich, können aber grundlegende Probleme der künstlichen Intelligenz, einschließlich des logischen Denkens, nicht lösen.

Verweise

[1] XAI ist in Schwierigkeiten, Rosina O Weber et al., AI Magazine, 45:300-316, Herbst 2024

[2] GSM-Symbolic: Die Grenzen des mathematischen Denkens in großen Sprachmodellen verstehen, Iman Mirzadeh et al., arXiv:2410.05229v1, Okt. 2024

[3] Tiefenanalyse: Werden ChatGPT und seine Nachfolger zur allgemeinen künstlichen Intelligenz? Wang Pei, „Rückkehr zur Einfachheit“, 15. März 2023

[4] Stimmt es, dass KI rational und Menschen irrational sind? Wang Pei, Rückkehr zur Einfachheit, 14. Juli 2021

[5] Was ist das für eine Logik? Wang Pei, Science and Technology Review, 10. August 2016

[6] Outline of Intelligence Theory, Wang Pei, Shanghai Science and Technology Education Press, September 2022

Besondere Tipps

1. Gehen Sie zur „Featured Column“ unten im Menü des öffentlichen WeChat-Kontos „Fanpu“, um eine Reihe populärwissenschaftlicher Artikel zu verschiedenen Themen zu lesen.

2. „Fanpu“ bietet die Funktion, Artikel nach Monat zu suchen. Folgen Sie dem offiziellen Account und antworten Sie mit der vierstelligen Jahreszahl + Monat, also etwa „1903“, um den Artikelindex für März 2019 zu erhalten, usw.

Copyright-Erklärung: Einzelpersonen können diesen Artikel gerne weiterleiten, es ist jedoch keinem Medium und keiner Organisation gestattet, ihn ohne Genehmigung nachzudrucken oder Auszüge daraus zu verwenden. Für eine Nachdruckgenehmigung wenden Sie sich bitte an den Backstage-Bereich des öffentlichen WeChat-Kontos „Fanpu“.

<<:  Finanzbericht von eLong: Im ersten Quartal 2012 betrug die Zahl der über eLong gebuchten Hotelübernachtungen etwa 2,8 Millionen.

>>:  Woher kommen Hausziegen? Die Antwort liegt in seinem Tianshan-„Bruder“!

Artikel empfehlen

Warum bekomme ich beim Laufen Muskelkater an der Vorderseite meiner Waden?

Wenn Sie fragen würden, welcher Sport im Leben de...

Joghurt hilft wirklich bei der Verdauung! Aber es ist nicht das, was Sie denken ...

Haben Sie kürzlich die Nachrichten darüber gesehe...

Sollte Windows 10 wirklich für immer kostenlos sein?

Vor einigen Tagen endete Microsofts kostenlose Upg...