Welches ist größer, 9.11 oder 9.9? Diese Frage, die sogar Kindergartenkinder beantworten können, stellt viele große Sprachmodelle (LLMs) einst vor Rätsel (und tut dies immer noch). Um jedoch das Niveau allgemeiner künstlicher Intelligenz (AGI) zu erreichen, muss LLM nicht nur einfache logische Schlussfolgerungen wie „Größenvergleiche“ durchführen, sondern auch schwierigere Schlussfolgerungen wie „Verstehen und Ausführen komplexer Regeln und mehrstufiger Planung“ durchführen , was die Kernkompetenz von LLM-Agenten und Entscheidungssystemen darstellt. Daher ist es von entscheidender Bedeutung, die Rolle des LLM als regelbasierter Implementierer und Planer effektiv zu bewerten. Allerdings gibt es in diesem Bereich in der Wissenschaft und Industrie nur wenig Forschung. Ein Forschungsteam der Tsinghua-Universität und Zhipu hat mit LogicGame einen neuen Benchmarktest gestartet, der die Fähigkeiten von LLM hinsichtlich Regelverständnis, -ausführung und -planung umfassend bewerten soll. Erster Blick auf die Auswertungsergebnisse: Abbildung|Auswertungsergebnisse und Beispielanzeige von LogicGame. Die obige Abbildung zeigt die Leistung verschiedener Modelle in den Kategorien Ausführung und Planung. Die folgenden Abbildungen (links und rechts) sind zwei Fallstudien in den Kategorien Ausführung und Planung. Wir sehen nicht nur, dass o1-preview und o-mini weit vorne liegen, sondern auch , dass mehr als die Hälfte der Modelle weniger als 10 % erreichen , wie im roten Bereich in der Abbildung oben gezeigt. Dieses Auswertungsergebnis offenbart eine Tatsache, die nicht ignoriert werden kann: Die meisten LLMs weisen offensichtliche Mängel im regelbasierten logischen Denken auf . Das zugehörige Forschungspapier mit dem Titel „LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models“ wurde auf der Preprint-Website arXiv veröffentlicht. Im Gegensatz zu herkömmlichen Benchmarks enthält LogicGame eine vielfältige Reihe von Spielen, jedes mit einem Satz von Anfangszustandsregeln, was erfordert, dass das Modell diese vordefinierten Regeln nicht nur versteht, sondern sie auch anwendet, um das Problem zu lösen . Darüber hinaus berücksichtigt LogicGame sowohl das Endergebnis als auch die Zwischenschritte, um die Modellleistung umfassend zu bewerten. Die Forschungsergebnisse zeigen, dass LogicGame durch die Festlegung von Spielszenarien mit unterschiedlichen Schwierigkeitsgraden die Leistung des Modells beim Regelverständnis sowie bei mehrstufigen Ausführungs- und Planungsaufgaben genau messen kann . LogicGame: Spielszenario mit dem Schwierigkeitsgrad „Level 4“ Die Kombination aus Regelbefolgung und logischem Denken ist der Schlüssel zur Bewältigung vieler Aufgaben in der realen Welt. Allerdings können bestehende Benchmarks dies oft nicht ausreichend erfassen. Um diese Lücke zu schließen, entwickelte das Forschungsteam durch umfangreiche Recherchen und Crowdsourcing einen neuen Fragenkatalog. Sie stellten fest, dass diese Aufgaben bestimmten Spielmechanismen ähnelten, da Aufgaben in der realen Welt oft Merkmale mit Spielen gemeinsam haben, beispielsweise die Anforderung, bestimmte Regeln zu befolgen und Entscheidungen zu treffen. Daher wählten sie einen Gamification-Ansatz, der eine detaillierte Bewertung der Fähigkeit des Modells ermöglichte, über Regeln zu schlussfolgern . Darunter umfasst die Datenkonstruktion von LogicGame die folgenden vier Teile : Entwerfen Sie Regelbegründungsprobleme, die von realen Szenarien inspiriert sind. Da Aufgaben in der realen Welt oft Spielcharakter haben, wie etwa die Notwendigkeit, bestimmte Regeln zu befolgen und Entscheidungen zu treffen, verfolgt LogicGame einen Gamification-Ansatz, um die Fähigkeiten des Modells zum Befolgen von Regeln und zum logischen Denken zu bewerten. Entwickeln Sie Ausgabebeschränkungen, um sicherzustellen, dass die Modellausgabe einem Standardformat entspricht. Um eine genaue Auswertung zu ermöglichen und den Abgleichschritt zu vereinfachen, müssen die Modellantworten einem strukturierten JSON-Ausgabeformat folgen. Bei einstufigen Problemen (Stufe 0) muss das Modell nur die endgültige Antwort ausgeben und die Bewertung basiert nur auf der Richtigkeit der Antwort. Bei Fragen, die mehrere Schritte oder komplexere Denkprozesse erfordern (Level 1, 2, 3 und einige Level 0-Fragen), werden sowohl die Antwort als auch die Schritte ausgewertet. Implementiert verschiedene Schwierigkeitsstufen und enthält Beispielfragen. Es gibt vier Schwierigkeitsstufen, die die Bandbreite der Fähigkeiten zum Modellschlussfolgern bewerten, von der einfachen Regelanwendung bis hin zu komplexen Schlussfolgerungsketten. Der Schwierigkeitsgradient wird durch die Komplexität der jeweiligen Regeln und die Anzahl der Denkschritte bestimmt, die erforderlich sind, um zu einer Lösung zu gelangen. Um Fairness und eine breitere Anwendbarkeit zu gewährleisten, enthält LogicGame sowohl Benchmarks in der chinesischen als auch in der englischen Version. Wie in der folgenden Abbildung dargestellt, erhält jedes Modell einen Satz problemspezifischer Regeln als Eingabeaufforderung sowie eine entsprechende Frage und eine Ausgabebeschränkung im JSON-Format, einschließlich der Antwort und der Schritte. Abbildung|Beschreibung der Klassifizierungs- und Bewertungsmethoden in LogicGame. In der Abbildung der Klassifizierung sind die Kategorien mit Mathematik violett hervorgehoben. Die Bewertungsmethode von LogicGame verwendet einen automatisierten Ansatz , um nicht nur die Richtigkeit der Antwort, sondern auch die Richtigkeit der Schritte zu bewerten, die zur Antwort führen . Insbesondere werden die Antwortgenauigkeit (A-Acc), die Schrittgenauigkeit (P-Acc) und die Antwort-Schritt-Genauigkeit (AP-Acc) des Modells bewertet. Die Punktzahl für jede Frageantwort wird durch Vergleich der Antwort des Modells mit der Referenzantwort ermittelt. Ebenso erfolgt die Bewertung jedes Problemschritts durch Auswertung, wie gut der Modellschritt mit dem Referenzschritt übereinstimmt, wie durch die JSON-Formatbeschränkungen definiert. A-Acc : Diese Metrik wird verwendet, um die Richtigkeit aller Antworten auf eine bestimmte Frage zu bewerten. Sie liefert für jede Antwort eine binäre Bewertung (0/1), die angibt, ob sie richtig ist oder nicht. P-Acc : Diese Metrik bewertet die Richtigkeit eines Schritts und misst den Prozentsatz der Übereinstimmungen basierend auf der Ähnlichkeit auf Zeichenebene zwischen dem bereitgestellten Schritt und dem erwarteten Schritt. In dem seltenen Fall, dass es sich bei einer Frage der Stufe 0 um eine einstufige Argumentation handelt, bei der keine Schritte zur Bewertung angegeben sind, wird die Genauigkeit der Schritte bei der Benotung genauso berücksichtigt wie die Genauigkeit der Antwort. AP-Acc : Diese zusammengesetzte Metrik bewertet die Gesamtgenauigkeit der Antworten und Schritte. Die Berechnung erfolgt durch Kombination der Antwortgenauigkeit und der Schrittgenauigkeit mit einer logischen UND-Operation, um eine Gesamtpunktzahl zu ermitteln. Diese Bewertungsmethode stellt sicher, dass das Modell den Regeln für das Denken folgt, und bewertet die Denkfähigkeit des Modells umfassend. Wie ist die Leistung? OpenAI o1 ist weit voraus Wie in der folgenden Abbildung gezeigt, liegen o1-preview und o1-mini auf dem höchsten Schwierigkeitsgrad 3 in der Ausführungskategorie weit vorn in der Punktzahl der 14 bewerteten Modelle, unabhängig von der chinesischen oder englischen Version, und die Punktzahl der inländischen Modelle brach nicht die 10 und erreichte sogar mehrere 0 Punkte . Auch beim höchsten Schwierigkeitsgrad 3 in der Planungskategorie ist der führende Vorteil von OpenAI o1 derselbe. Abbildung | AP-Acc%-Leistung von 14 Modellen in der chinesischen Version von LogicGame. Abbildung | AP-Acc%-Leistung von 14 Modellen in der englischen Version von LogicGame. In der Kategorie Ausführung verbessert sich die Genauigkeit des Modells erheblich, wenn die Anzahl der Schüsse zunimmt . Insbesondere erzielen leistungsstärkere Modelle wie GPT-4o größere Verbesserungen bei den AP-Acc-Werten beim Wechsel von 0-Shot zu 1-Shot und 2-Shot. Dies deutet darauf hin, dass sie zusätzliche Kontextinformationen besser nutzen können, um die Ausführungsgenauigkeit zu verbessern. Abbildung|Wenige beispielhafte Unterschiede der chinesischen Version von LogicGame in den Kategorien Ausführung und Planung. Wir stellen außerdem fest, dass das Hinzufügen von Beispielen bei den Ausführungsaufgaben im Allgemeinen die Leistung des Modells bei den Ausführungsaufgaben verbessert , insbesondere bei den einfachen Aufgaben (Stufe 0). Abbildung|Die Schussdifferenzeinstellungen der chinesischen Version von LogicGame auf verschiedenen Schwierigkeitsstufen ähneln der obigen Abbildung. Allerdings haben die 1-Schuss- und 2-Schuss-Einstellungen bei unterschiedlichen Schwierigkeitsgraden unterschiedliche Auswirkungen auf das Modell. Das Modell profitiert am meisten von Beispielen auf Stufe 0, aber die Wirkung der Beispiele lässt mit zunehmendem Schwierigkeitsgrad nach. Bei Planungsaufgaben hat das Hinzufügen von Beispielen eine komplexere Auswirkung auf die Leistung des Modells bei Planungsaufgaben . Die Leistung einiger Modelle sinkt beim Wechsel von 0-Shot- zu 1-Shot- oder 2-Shot-Einstellungen. Dies deutet darauf hin, dass zusätzliche Kontextinformationen zu Rauschen führen und das Verständnis des Modells für wichtige Informationen beeinträchtigen können. Im Allgemeinen hat 1-Schuss die deutlichste Auswirkung auf das Modell, sein Einfluss nimmt jedoch mit zunehmendem Schwierigkeitsgrad allmählich ab, während 2-Schuss instabiler ist und kein offensichtliches Muster aufweist. In einer Fallstudie war die Leistung von LLM im Spiel Reversi fast „schrecklich“. Mit Ausnahme von OpenAI o1 lagen die Werte anderer Modelle bei fast 0 , was auch zeigt, dass LLM immer noch Schwierigkeiten mit der Handhabung komplexer Regeln und der Durchführung mehrstufiger Schlussfolgerungen hat. Abbildung | Durchschnittliche AP-Acc%-Werte für die fünf Kategorien mit der schlechtesten Leistung. Die Heatmap zeigt die durchschnittliche AP-ACC%-Punktzahl für jede Kategorie. Sowohl in Ausführungs- als auch in Planungsszenarien schneiden die Modelle schlecht ab, insbesondere bei „Reversi“, wo viele Modelle eine Punktzahl nahe Null erreichen. Abbildung | Ein Beispiel für ein Reversi-Spiel mit Modellausgabe, einschließlich Antwort und Schritten. Das Forschungsteam analysierte diesen Fehler und fand die folgenden drei Gründe: Unzureichende Verarbeitung von Details : Beispielsweise war das Claud 3.5 Sonnet-Modell nicht in der Lage, Details wie das Platzieren oder Umdrehen einiger Teile richtig zu verarbeiten, was darauf hindeutet, dass die Regeln nicht ausreichend verstanden wurden. Mangelndes Verständnis der Ausführungs-/Planungsregeln : Die Modelle waren nicht in der Lage, Aktionen im Spiel richtig auszuführen oder zu planen, was darauf hindeutet, dass ihr Verständnis der Spielmechanik (wie etwa des Umdrehens) mangelhaft war. Übermäßige Änderungen : Die Modelle „llama-3-8b-chat“ haben übermäßige Änderungen am Spielbrettzustand vorgenommen, was auf eine klare Voreingenommenheit in ihrem Verständnis der Spielregeln hindeutet. Die Argumentationsfähigkeit von LLM muss noch verbessert werden In diesem Artikel schlug das Forschungsteam einen neuen Benchmark, LogicGame, vor, um die regelbasierte Denkfähigkeit von LLM zu bewerten. Dieser Benchmark umfasst mehrere Schwierigkeitsstufen und konzentriert sich auf die Bewertung des Regelverständnisses des Modells, der auf diesen Regeln basierenden Ausführung und der Planungsfähigkeiten. Gleichzeitig entwickelten sie auch Methoden zur Auswertung der Ergebnisse und des Denkprozesses, um sicherzustellen, dass das Modell den vorgegebenen Regeln genau folgt und die Antwort nicht nur errät. Umfangreiche Experimente zeigen, dass aktuelle große Modelle bei regelbasierten Denkaufgaben noch erhebliche Defizite aufweisen. In dieser Hinsicht ist das Forschungsteam der Ansicht, dass die Denkfähigkeit von LLM noch verbessert werden muss, insbesondere beim Verstehen komplexer Regeln, beim Durchführen mehrstufiger Denkprozesse und beim Erlernen und Anwenden neuer Regeln. Damit LLMs Regeln besser verstehen und anwenden können, müssen ihre Denkfähigkeiten weiter verbessert werden, beispielsweise durch effektivere Trainingsmethoden oder die Einführung neuer Denkmechanismen . Um die Denkfähigkeit von LLMs umfassender beurteilen zu können, müssen außerdem wirksamere Bewertungsmethoden entwickelt werden . Zum Beispiel durch die Einführung komplexerer Regeln und schwierigerer Denkaufgaben. Lasst uns gemeinsam kämpfen! Möchten Sie beweisen, wie gut Ihre Fähigkeit zum logischen Denken anhand großer Modelle ist? Vielleicht möchten Sie an der LogicGame-Rezension teilnehmen und gegen viele große Modelle aus dem In- und Ausland antreten. Das Forschungsteam pflegt ein Leaderboard auf GitHub, um die Leistung des Modells in der englischen und chinesischen Version von LogicGame anzuzeigen. Die Rangfolge basiert auf AP-Acc%. Zu den wichtigsten Bewertungsindikatoren zählen: AP-Acc% (Antwort- und Schrittgenauigkeit) A-Acc% (Prozentsatz der richtigen Antworten) P-Acc% (Korrektheit der Schritte) IFError% (Fehlerrate bei der Befehlsbefolgung) JSError% (Fehlerrate der Ausgabe im JSON-Format) Abbildung | Leistung von 14 großen Modellen in der chinesischen Version von LogicGame Abbildung | Leistung von 14 großen Modellen in der englischen Version von LogicGame Wie bringen Sie Ihr Modell dazu, in der englischen und chinesischen Version von LogicGame zu funktionieren? Das Forschungsteam speicherte Entwicklungsdaten zur Anzeige auf GitHub und stellte die erforderlichen Eingabedaten für die Übermittlung an Codabench bereit (eine Plattform zur Modellbewertung, die eine effiziente, faire und einheitliche Bewertungsumgebung bietet). Sie können die Dateien zh_all und en_all (die den vollständigen Satz chinesischer bzw. englischer Daten darstellen) herunterladen , sie in Ihr Modell eingeben, um die Modellantwort zu erhalten , und diese Antwort als Eingabedaten verwenden, wenn Sie Codabench übermitteln, um das Feedback zum Bewertungsergebnis zu erhalten. |
<<: Moxie: 62 % der Nutzer müssen beim mobilen Einkaufen Online-Chat-Dienste nutzen
>>: Warum bewegen sich Ameisen?
Laufen ist sehr gesundheitsfördernd. So kann es b...
Wenn Sie eine schöne Haut wie Tofu haben möchten,...
US-Präsident Donald Trump hat angekündigt, ab dem...
Jeder träumt davon, einen gesunden Körper zu habe...
Es gibt viele Arten von Aerobic-Fitnessübungen. H...
Es gab einmal einen Bericht, wonach eine Umfrage ...
Im Bereich der intelligenten Hardware können Drohn...
Das Konzeptfahrzeug BMW X2 wurde im September auf...
Der Name des Mobiltelefons „Momoda“ weckt bei viel...
Mit dem Aufkommen von Leihfahrrädern taucht der B...
Laut Angaben des National Climate Center vom 22. ...
1. Das Denken der „New Economy“ bestimmt die Prax...
Produziert von: Science Popularization China Auto...
Alle Männer wünschen sich dickere Arme, besonders...
Am späten Abend des 13. August (Pekinger Zeit) ga...