Besser als GPT-4 löst das 2-Milliarden-Parameter-Modell Rechenaufgaben mit nahezu 100%iger Genauigkeit

Derzeit haben Large Language Models (LLMs) hervorragende Fähigkeiten bei der Bewältigung verschiedener nachgelagerter Aufgaben im Bereich NLP bewiesen. Insbesondere bahnbrechende Modelle wie GPT-4 und ChatGPT wurden anhand großer Mengen von Textdaten trainiert, was ihnen ein starkes Textverständnis und starke Textgenerierungsfähigkeiten verleiht, sie in die Lage versetzt, kohärente und kontextrelevante Antworten zu generieren und sie in verschiedenen NLP-Aufgaben äußerst vielseitig einzusetzen.

Allerdings sind die Leistungen des LLM im Bereich des mathematischen Denkens nicht zufriedenstellend. LLM hat Schwierigkeiten, komplexe Rechenoperationen genau auszuführen, insbesondere Operationen mit der Multiplikation von Zahlen mit mehr als 8 Ziffern sowie Operationen mit Dezimalzahlen und Brüchen.

Auf dieser Grundlage haben Forscher der Tsinghua-Universität, des TAL AI Lab und von Zhipu AI gemeinsam ein neues Modell vorgeschlagen – MathGLM, das komplexe Rechenoperationen perfekt durchführen kann.

Die Studie zeigt, dass ein Sprachmodell mit 2 Milliarden Parametern bei ausreichend Trainingsdaten mehrstellige Rechenoperationen mit einer Genauigkeit von nahezu 100 % und ohne Datenverlust durchführen kann. Dieses Ergebnis übertrifft GPT-4 bei weitem (dessen Genauigkeit bei der Multiplikation mehrstelliger Zahlen nur 4,3 % beträgt).

Methodeneinführung

In diesem Artikel wird ein Modell namens MathGLM vorgeschlagen, um die Effizienz von LLM beim mathematischen Denken zu untersuchen.

Die im MathGLM-Modell zu erledigenden Rechenaufgaben lassen sich grob in zwei Kategorien unterteilen: Grundrechenarten und komplexe Mischrechenarten. Zu den Grundrechenarten zählen grundlegende mathematische Aufgaben, bei denen es um einfache Berechnungen zwischen zwei Zahlen geht. Bei komplexen gemischten Operationen handelt es sich um eine Kombination verschiedener Rechenoperationen und Zahlenformate (wie Ganzzahlen, Dezimalzahlen, Brüche usw.). Tabelle 1 zeigt die Klassifizierung der MathGLM-Aufgaben.

Um die Rechenfähigkeiten von MathGLM zu verbessern, verwenden wir eine Transformer-basierte reine Decoder-Architektur und trainieren sie von Grund auf anhand eines generierten Rechendatensatzes unter Verwendung eines autoregressiven Ziels.

Rechenaufgaben lernen

Der arithmetische Trainingsdatensatz ist sorgfältig gestaltet, um verschiedene Operationen wie Addition, Subtraktion, Multiplikation, Division und Potenzierung einzuschließen. Darüber hinaus umfasst es mehrere Zahlenformate wie Ganzzahlen, Dezimalzahlen, Prozentsätze, Brüche und negative Zahlen. Die Größe der Datensätze variiert zwischen 1 Million und 50 Millionen Datensätzen.

In jedem Datensatz besteht ein einzelner arithmetischer Ausdruck aus 2 bis 10 Rechenschritten und deckt eine Reihe mathematischer Operationen ab, wie etwa Addition (+), Subtraktion (-), Multiplikation (×), Division (/) und Potenzierung (^). Abbildung 3 zeigt einige Trainingsbeispiele, die aus dem arithmetischen Datensatz extrahiert wurden:

Tabelle 2 fasst die verschiedenen Größen von MathGLM-Modellen zusammen, darunter vier verschiedene Modelltypen mit jeweils unterschiedlichen Parametergrößen. Das größte Modell hat 2B-Parameter und die stärkste Kapazität; Die restlichen Modelle haben 500 Millionen Parameter, 100 Millionen Parameter und das kleinste Modell hat 10 Millionen Parameter.

Studium angewandter mathematischer Probleme

Zusätzlich zu arithmetischen Aufgaben wurde in diesem Dokument auch eine Reihe von Transformer-basierten Sprachmodellen trainiert (fein abgestimmt), das sogenannte General Language Model (GLM) und seine Chat-Version, um mathematische Anwendungsprobleme zu lösen. Für den Trainingsprozess wurde der öffentliche chinesische Datensatz Ape210K verwendet, der 210.000 chinesische Mathematikaufgaben für die Grundschule enthält. Die Antwort auf jede Aufgabe wird direkt berechnet.

Um die Leistung von MathGLM bei mathematischen Textaufgaben zu verbessern, verwendet dieses Dokument eine schrittweise Strategie, um den Ape210K-Datensatz zu rekonstruieren und in eine Version umzuwandeln, die die Antwort auf jedes mathematische Problem Schritt für Schritt berechnet. Abbildung 4 zeigt den Vergleich zwischen dem ursprünglichen Ape210K-Datensatz und der rekonstruierten Version in diesem Dokument.

Wir verwenden verschiedene Varianten von GLM als Rückgrat zum Trainieren von MathGLM, darunter GLM-large, GLM-6B, GLM2-6B und GLM-10B mit 335 Millionen Parametern. Darüber hinaus werden in diesem Dokument auch die Backbone-Netzwerke ChatGLM-6B und ChatGLM2-6B zum Trainieren von MathGLM verwendet. Diese Backbone-Modelle statten MathGLM mit grundlegenden Sprachverständnisfähigkeiten aus und ermöglichen es ihm, die in mathematischen Textaufgaben enthaltenen Sprachinformationen effektiv zu verstehen.

Experiment

In dieser Arbeit wurden zwei verschiedene Arten von Experimenten entworfen, darunter Rechenaufgaben und mathematische Textaufgaben.

Für arithmetische Aufgaben trainieren wir ein Transformer-basiertes MathGLM-Modell mit 500 Millionen Parametern vor und vergleichen seine Leistung mit führenden großen Sprachmodellen (LLMs) wie GPT-4 und ChatGPT. Die Ergebnisse sind in Tabelle 3 dargestellt. MathGLM übertrifft alle anderen Modelle, was darauf hindeutet, dass MathGLM bei der Verarbeitung arithmetischer Aufgaben eine hervorragende Leistung aufweist.

Sogar mit MathGLM-10M, das nur 10 Millionen Parameter hat, sind die Ergebnisse erstaunlich. MathGLM-10M übertrifft GPT-4 und ChatGPT bei einer Reihe umfassender Rechenaufgaben.

Darüber hinaus stellen wir beim Vergleich von MathGLMs mit unterschiedlichen Parametergrößen fest, dass die Rechenleistung von MathGLM in direktem Zusammenhang mit der Zunahme der Parameteranzahl steht. Dieses Ergebnis lässt darauf schließen, dass sich die Leistung der Modelle mit zunehmender Größe entsprechend verbessert.

Zusammenfassend zeigen die Auswertungsergebnisse der Forscher bei komplexen Rechenaufgaben, dass MathGLM eine hervorragende Leistung aufweist. Durch die Zerlegung der Rechenaufgabe übertreffen diese Modelle GPT-4 und ChatGPT deutlich.

Darüber hinaus vergleicht dieses Dokument auch GPT-4, ChatGPT, text-davinci-003, code-davinci-002, Galacica, LLaMA, OPT, BLOOM und GLM. In diesem Dokument wird aus dem zuvor besprochenen großen Datensatz nach dem Zufallsprinzip ein kompakter arithmetischer Datensatz mit 100 Testfällen extrahiert. Die Ergebnisse sind in Tabelle 4 dargestellt.

Aus den obigen Analyseergebnissen können wir ersehen, dass MathGLM mit 2 Milliarden Parametern eine Genauigkeit von 93,03 % erreicht und damit alle anderen LLMs übertrifft.

Für mathematische Anwendungsprobleme wurden in diesem Artikel Experimente mit dem Ape210K-Datensatz durchgeführt. Tabelle 8 zeigt die Ergebnisse einschließlich MathGLM-Varianten, GPT-4, ChatGPT usw.

Die Ergebnisse zeigen, dass MathGLM bei Verwendung mit GLM-10B hinsichtlich der Antwortgenauigkeit vergleichbare Leistungsniveaus wie das hochmoderne GPT-4-Modell erreicht.

Darüber hinaus zeichnete sich beim Vergleich der Leistung von MathGLM mit GLM-Large, GLM-6B und GLM-10B ein klarer Trend ab: MathGLM zeigte sowohl bei der Rechengenauigkeit als auch bei der Antwortgenauigkeit erhebliche Verbesserungen.

Um die Fähigkeit des Modells zur Lösung mathematischer Probleme auf verschiedenen Niveaus zu beurteilen, testete und bewertete die Studie die Leistung mehrerer Modelle auf dem K6-Datensatz, darunter: GPT-4, ChatGPT, Chinese-Alpaca-13B, MOSS-16B, Ziya-LLaMA-13B, Baichuan-7B, ChatGLM-6B, ChatGLM2-6B und MathGLM-GLM-10B. Die Ergebnisse sind in Abbildung 8 unten dargestellt.

Adresse des Artikels: https://arxiv.org/pdf/2309.03241v2.pdf

Projektadresse: https://github.com/THUDM/MathGLM#arithmetic-tasks

<<: Was passiert, wenn Sie nachts das Licht nicht ausschalten? Es könnte kleine Tiere töten ...

>>: Wie ist das Universum? Hier ist die Antwort, die Sie wollen

Xiaomi-Bewertungsthema: Bitte lernen Sie von Lei Jun, wie man Öffentlichkeitsarbeit macht

Artikel

Es wird schlimmer. Können Ameisen auch einer Amputation unterzogen werden?丨Natural Trumpet

Artikel

Drei Generationen der F-15-Familie versammelten sich auf dem Luftwaffenstützpunkt Nellis, um F-15EX-Kampftestmissionen durchzuführen.

Artikel

Der Grund für den „Stimmverlust“ liegt möglicherweise nicht bei der Klimaanlage, sondern es steckt möglicherweise ein ernstes Problem dahinter!

Artikel

Können Frauen jeden Tag Kniebeugen machen?

Wenn ein großer Planet plötzlich in das Sonnensystem eintritt und das gesamte Sonnenlicht auf der Erde blockiert, wird dann das Leben aussterben?

Dieser Artikel basiert auf der Beantwortung einer...

Jungen, die nach dem Jahr 2000 geboren wurden, trinken seit langem Cola als Wasser, was bei ihnen zu Karies geführt hat. Haben Sie „Cola-Zähne“?

Science Fiction Network berichtete am 15. Februar...

Was soll ich tun, wenn ich nach dem Training meine Muskeln überanstrenge?

Muskelzerrungen kommen im Alltag häufig vor, werd...

Besser als GPT-4 löst das 2-Milliarden-Parameter-Modell Rechenaufgaben mit nahezu 100%iger Genauigkeit

Xiaomi-Bewertungsthema: Bitte lernen Sie von Lei Jun, wie man Öffentlichkeitsarbeit macht

Es wird schlimmer. Können Ameisen auch einer Amputation unterzogen werden?丨Natural Trumpet

Drei Generationen der F-15-Familie versammelten sich auf dem Luftwaffenstützpunkt Nellis, um F-15EX-Kampftestmissionen durchzuführen.

Der Grund für den „Stimmverlust“ liegt möglicherweise nicht bei der Klimaanlage, sondern es steckt möglicherweise ein ernstes Problem dahinter!

Können Frauen jeden Tag Kniebeugen machen?

Volkswagen und Mobileye unterzeichnen Kooperationsvereinbarung zur Entwicklung autonomen Fahrens

Ist die Wassermelone durch den Süßstoff zu süß? Die Gerüchteliste für Juli ist frisch veröffentlicht

Kann Laufen dabei helfen, größer zu werden?

Warum haben Sie nach einem „Überhunger“ keinen Hunger mehr?

Welche Vorteile hat es, nach dem Essen Sport zu treiben?

Artikel empfehlen

Kann Yoga dabei helfen, schwanger zu werden?

Auf welche Arbeitsszenarien zielt die neue Google Glass ab?

In diesem Park pflanzen wir keine Bäume, wir überlassen es der Natur, sie zu pflanzen.

Wenn ein großer Planet plötzlich in das Sonnensystem eintritt und das gesamte Sonnenlicht auf der Erde blockiert, wird dann das Leben aussterben?

SOTI: Verbrauchernachfrage nach digitaler Transformation im Einzelhandel

Der Winter der Handyspiele ist nur etwas für Spekulanten

Sind Sie bereit für den „Kampf“ um die Bürosicherheit?

KI! Das ist eine gute Sache, denn es kann Astronomen helfen, Gravitationswellen zu finden

Wie bauen Anfänger Muskeln auf?

Ein Komet, der die Erde alle zehntausend Jahre einmal besucht, wurde mit dieser „Waffe“ entdeckt!

Der Boden unter unseren Füßen ist mehr als nur „rustikal“!

Wie viele Schritte sind nötig, um ein Raumschiff im Universum „weder heiß noch kalt“ zu halten?

Wie lange sollte ich morgens laufen, um abzunehmen?

Jungen, die nach dem Jahr 2000 geboren wurden, trinken seit langem Cola als Wasser, was bei ihnen zu Karies geführt hat. Haben Sie „Cola-Zähne“?

Was soll ich tun, wenn ich nach dem Training meine Muskeln überanstrenge?