Besser als GPT-4 löst das 2-Milliarden-Parameter-Modell Rechenaufgaben mit nahezu 100%iger Genauigkeit

Besser als GPT-4 löst das 2-Milliarden-Parameter-Modell Rechenaufgaben mit nahezu 100%iger Genauigkeit

Derzeit haben Large Language Models (LLMs) hervorragende Fähigkeiten bei der Bewältigung verschiedener nachgelagerter Aufgaben im Bereich NLP bewiesen. Insbesondere bahnbrechende Modelle wie GPT-4 und ChatGPT wurden anhand großer Mengen von Textdaten trainiert, was ihnen ein starkes Textverständnis und starke Textgenerierungsfähigkeiten verleiht, sie in die Lage versetzt, kohärente und kontextrelevante Antworten zu generieren und sie in verschiedenen NLP-Aufgaben äußerst vielseitig einzusetzen.

Allerdings sind die Leistungen des LLM im Bereich des mathematischen Denkens nicht zufriedenstellend. LLM hat Schwierigkeiten, komplexe Rechenoperationen genau auszuführen, insbesondere Operationen mit der Multiplikation von Zahlen mit mehr als 8 Ziffern sowie Operationen mit Dezimalzahlen und Brüchen.

Auf dieser Grundlage haben Forscher der Tsinghua-Universität, des TAL AI Lab und von Zhipu AI gemeinsam ein neues Modell vorgeschlagen – MathGLM, das komplexe Rechenoperationen perfekt durchführen kann.

Die Studie zeigt, dass ein Sprachmodell mit 2 Milliarden Parametern bei ausreichend Trainingsdaten mehrstellige Rechenoperationen mit einer Genauigkeit von nahezu 100 % und ohne Datenverlust durchführen kann. Dieses Ergebnis übertrifft GPT-4 bei weitem (dessen Genauigkeit bei der Multiplikation mehrstelliger Zahlen nur 4,3 % beträgt).

Methodeneinführung

In diesem Artikel wird ein Modell namens MathGLM vorgeschlagen, um die Effizienz von LLM beim mathematischen Denken zu untersuchen.

Die im MathGLM-Modell zu erledigenden Rechenaufgaben lassen sich grob in zwei Kategorien unterteilen: Grundrechenarten und komplexe Mischrechenarten. Zu den Grundrechenarten zählen grundlegende mathematische Aufgaben, bei denen es um einfache Berechnungen zwischen zwei Zahlen geht. Bei komplexen gemischten Operationen handelt es sich um eine Kombination verschiedener Rechenoperationen und Zahlenformate (wie Ganzzahlen, Dezimalzahlen, Brüche usw.). Tabelle 1 zeigt die Klassifizierung der MathGLM-Aufgaben.

Um die Rechenfähigkeiten von MathGLM zu verbessern, verwenden wir eine Transformer-basierte reine Decoder-Architektur und trainieren sie von Grund auf anhand eines generierten Rechendatensatzes unter Verwendung eines autoregressiven Ziels.

Rechenaufgaben lernen

Der arithmetische Trainingsdatensatz ist sorgfältig gestaltet, um verschiedene Operationen wie Addition, Subtraktion, Multiplikation, Division und Potenzierung einzuschließen. Darüber hinaus umfasst es mehrere Zahlenformate wie Ganzzahlen, Dezimalzahlen, Prozentsätze, Brüche und negative Zahlen. Die Größe der Datensätze variiert zwischen 1 Million und 50 Millionen Datensätzen.

In jedem Datensatz besteht ein einzelner arithmetischer Ausdruck aus 2 bis 10 Rechenschritten und deckt eine Reihe mathematischer Operationen ab, wie etwa Addition (+), Subtraktion (-), Multiplikation (×), Division (/) und Potenzierung (^). Abbildung 3 zeigt einige Trainingsbeispiele, die aus dem arithmetischen Datensatz extrahiert wurden:

Tabelle 2 fasst die verschiedenen Größen von MathGLM-Modellen zusammen, darunter vier verschiedene Modelltypen mit jeweils unterschiedlichen Parametergrößen. Das größte Modell hat 2B-Parameter und die stärkste Kapazität; Die restlichen Modelle haben 500 Millionen Parameter, 100 Millionen Parameter und das kleinste Modell hat 10 Millionen Parameter.

Studium angewandter mathematischer Probleme

Zusätzlich zu arithmetischen Aufgaben wurde in diesem Dokument auch eine Reihe von Transformer-basierten Sprachmodellen trainiert (fein abgestimmt), das sogenannte General Language Model (GLM) und seine Chat-Version, um mathematische Anwendungsprobleme zu lösen. Für den Trainingsprozess wurde der öffentliche chinesische Datensatz Ape210K verwendet, der 210.000 chinesische Mathematikaufgaben für die Grundschule enthält. Die Antwort auf jede Aufgabe wird direkt berechnet.

Um die Leistung von MathGLM bei mathematischen Textaufgaben zu verbessern, verwendet dieses Dokument eine schrittweise Strategie, um den Ape210K-Datensatz zu rekonstruieren und in eine Version umzuwandeln, die die Antwort auf jedes mathematische Problem Schritt für Schritt berechnet. Abbildung 4 zeigt den Vergleich zwischen dem ursprünglichen Ape210K-Datensatz und der rekonstruierten Version in diesem Dokument.

Wir verwenden verschiedene Varianten von GLM als Rückgrat zum Trainieren von MathGLM, darunter GLM-large, GLM-6B, GLM2-6B und GLM-10B mit 335 Millionen Parametern. Darüber hinaus werden in diesem Dokument auch die Backbone-Netzwerke ChatGLM-6B und ChatGLM2-6B zum Trainieren von MathGLM verwendet. Diese Backbone-Modelle statten MathGLM mit grundlegenden Sprachverständnisfähigkeiten aus und ermöglichen es ihm, die in mathematischen Textaufgaben enthaltenen Sprachinformationen effektiv zu verstehen.

Experiment

In dieser Arbeit wurden zwei verschiedene Arten von Experimenten entworfen, darunter Rechenaufgaben und mathematische Textaufgaben.

Für arithmetische Aufgaben trainieren wir ein Transformer-basiertes MathGLM-Modell mit 500 Millionen Parametern vor und vergleichen seine Leistung mit führenden großen Sprachmodellen (LLMs) wie GPT-4 und ChatGPT. Die Ergebnisse sind in Tabelle 3 dargestellt. MathGLM übertrifft alle anderen Modelle, was darauf hindeutet, dass MathGLM bei der Verarbeitung arithmetischer Aufgaben eine hervorragende Leistung aufweist.

Sogar mit MathGLM-10M, das nur 10 Millionen Parameter hat, sind die Ergebnisse erstaunlich. MathGLM-10M übertrifft GPT-4 und ChatGPT bei einer Reihe umfassender Rechenaufgaben.

Darüber hinaus stellen wir beim Vergleich von MathGLMs mit unterschiedlichen Parametergrößen fest, dass die Rechenleistung von MathGLM in direktem Zusammenhang mit der Zunahme der Parameteranzahl steht. Dieses Ergebnis lässt darauf schließen, dass sich die Leistung der Modelle mit zunehmender Größe entsprechend verbessert.

Zusammenfassend zeigen die Auswertungsergebnisse der Forscher bei komplexen Rechenaufgaben, dass MathGLM eine hervorragende Leistung aufweist. Durch die Zerlegung der Rechenaufgabe übertreffen diese Modelle GPT-4 und ChatGPT deutlich.

Darüber hinaus vergleicht dieses Dokument auch GPT-4, ChatGPT, text-davinci-003, code-davinci-002, Galacica, LLaMA, OPT, BLOOM und GLM. In diesem Dokument wird aus dem zuvor besprochenen großen Datensatz nach dem Zufallsprinzip ein kompakter arithmetischer Datensatz mit 100 Testfällen extrahiert. Die Ergebnisse sind in Tabelle 4 dargestellt.

Aus den obigen Analyseergebnissen können wir ersehen, dass MathGLM mit 2 Milliarden Parametern eine Genauigkeit von 93,03 % erreicht und damit alle anderen LLMs übertrifft.

Für mathematische Anwendungsprobleme wurden in diesem Artikel Experimente mit dem Ape210K-Datensatz durchgeführt. Tabelle 8 zeigt die Ergebnisse einschließlich MathGLM-Varianten, GPT-4, ChatGPT usw.

Die Ergebnisse zeigen, dass MathGLM bei Verwendung mit GLM-10B hinsichtlich der Antwortgenauigkeit vergleichbare Leistungsniveaus wie das hochmoderne GPT-4-Modell erreicht.

Darüber hinaus zeichnete sich beim Vergleich der Leistung von MathGLM mit GLM-Large, GLM-6B und GLM-10B ein klarer Trend ab: MathGLM zeigte sowohl bei der Rechengenauigkeit als auch bei der Antwortgenauigkeit erhebliche Verbesserungen.

Um die Fähigkeit des Modells zur Lösung mathematischer Probleme auf verschiedenen Niveaus zu beurteilen, testete und bewertete die Studie die Leistung mehrerer Modelle auf dem K6-Datensatz, darunter: GPT-4, ChatGPT, Chinese-Alpaca-13B, MOSS-16B, Ziya-LLaMA-13B, Baichuan-7B, ChatGLM-6B, ChatGLM2-6B und MathGLM-GLM-10B. Die Ergebnisse sind in Abbildung 8 unten dargestellt.

Adresse des Artikels: https://arxiv.org/pdf/2309.03241v2.pdf

Projektadresse: https://github.com/THUDM/MathGLM#arithmetic-tasks

<<:  Was passiert, wenn Sie nachts das Licht nicht ausschalten? Es könnte kleine Tiere töten ...

>>:  Wie ist das Universum? Hier ist die Antwort, die Sie wollen

Artikel empfehlen

Kann Laufen Akne verursachen?

Jeder weiß, wie wichtig Bewegung ist. Verschieden...

Es ist wieder die Niessaison. Warum muss ich ununterbrochen niesen?

Der Frühling soll eine schöne Jahreszeit voller H...

Wie verwendet man einen Yogaball zum Abnehmen?

Der Yogaball ist ein sehr gutes Hilfsmittel zum A...

Wie trainiert man die Unterarme am besten mit Hanteln?

Im Sommer trägt jeder gerne coole Kurzarmhemden, ...

Inländischer CPU-Krieg: Was ist schneller, Loongson oder Feiteng?

In den letzten Jahren haben sich Desktop-Computer ...

Mit dem MTK-Preis von 1799 Yuan wird Meizu nicht mehr hervorstechen können

Nachdem ich mir vor dem Computer die Markteinführ...

Ist siebentägiges Schlankheitsyoga sinnvoll?

Heutzutage streben viele Freunde nach Effizienz i...

Schrittgeschwindigkeit nach dem Abendessen

Nach dem Abendessen spazieren zu gehen ist eine g...

Was? Können Kakerlaken auch Öl raffinieren? Es ist immer noch Speiseöl!

Was? Können Kakerlaken auch Öl raffinieren? Oder ...

Ein Wunder geschah! Der Pottwal ist wieder zu Hause! Warum stranden Wale?

Experte dieses Artikels: Liu Yadan, ehemaliger st...

Warum wird Keramik bei 1000 °C und Porzellan bei 1200 °C gebrannt?

Keramik, eine Kunstform, die traditionelle chines...