Vor kurzem hat DeepSeek-R1, ein großes Open-Source-Modell mit tiefen Denk- und Argumentationsfähigkeiten, das von der in meinem Land ansässigen Firma DeepSeek veröffentlicht wurde, weltweite Aufmerksamkeit erregt. Vor DeepSeek-R1 behaupteten GPT-o1 von OpenAI, Claude von Athropic und Gemini von Google, über die Fähigkeit zum tiefen Denken und Schlussfolgern zu verfügen. Diese Modelle haben in zahlreichen Tests von Fachleuten und Internetnutzern wirklich erstaunliche Ergebnisse erzielt. Besonders interessant für uns ist, dass das dedizierte Modell AlphaGeometry von Google bei der Internationalen Mathematik-Olympiade, einem als schwierig geltenden Wettbewerb, eine Punktzahl von 28/42 erreichte und die Silbermedaille gewann. Wir haben während unserer Studienzeit auch an Mathematikolympiaden teilgenommen und wissen ganz genau, dass alle Teilnehmer, die bei solchen internationalen Olympiaden Silbermedaillen gewinnen können, Meister sind, die seit ihrer Kindheit beträchtliches mathematisches Talent gezeigt und die ganze Zeit hart trainiert haben. Es ist keine Übertreibung zu sagen, dass KI, die dieses Niveau erreichen kann, über leistungsstarke Denkfähigkeiten verfügt. Seitdem sind wir neugierig auf das physikalische Niveau dieser leistungsstarken KIs. Am 17. Januar veranstaltete das Institut für Physik der Chinesischen Akademie der Wissenschaften in der Stadt Liyang in der Provinz Jiangsu den theoretischen Physikwettbewerb „Tianmu Cup“. Innerhalb von zwei Tagen löste die Veröffentlichung von DeepSeek-R1 einen Sturm in der KI-Community aus und es wurde natürlich zum Modell der Wahl für unsere Tests. Darüber hinaus umfassen die von uns getesteten Modelle: GPT-o1 von OpenAI und Claude-sonnet von Anthropic. So haben wir getestet: 1. Der gesamte Test besteht aus 8 Dialogen. 2. Die Fragen im ersten Absatz des Gesprächs sind die „Einleitung“: Sie erläutern die zu erledigenden Aufgaben, das Format der Fragen, das Format für die Übermittlung von Antworten usw. Menschliche Bestätigung des Verständnisses durch die Antwort der KI. 3. Alle 7 Fragen werden nacheinander gesendet, und die nächste Frage wird nach Erhalt der Antwort gesendet. Eine manuelle Rückmeldung dazwischen erfolgt nicht. 4. Jede Frage besteht aus zwei Teilen: einer Textbeschreibung und einer Bildbeschreibung (bei den Fragen 3, 5 und 7 gibt es keine Bilder). 5. Die Bildbeschreibung liegt im Nur-Text-Format vor. Alle Beschreibungstexte werden von GPT-4o generiert und manuell Korrektur gelesen. 6. Die für jedes große Modell erhaltenen Textmaterialien sind genau gleich (siehe Anhang). Nach dem obigen Prozess haben wir für jedes große Modell 7 Absätze Text erhalten, die den Antworten auf 7 Fragen entsprechen. Folgendes ist unsere Markierungsmethode: 1. Passen Sie den Tex-Text manuell an, sodass er mit dem Overleaf-Tool zusammengestellt werden kann, und sammeln Sie die zusammengestellten PDF-Dateien als Antwortbogen. 2. Senden Sie die Antworten auf die 7 Fragen der 4 Modelle an die Bewertungsgruppe, bestehend aus 7 Prüfern. 3. Die Bewertungsgruppe ist genau die gleiche wie beim „Tianmu Cup“-Wettbewerb, und jeder Prüfer ist für die gleichen Fragen verantwortlich. Beispiel: Prüfer A ist für die erste Frage in allen menschlichen und KI-Antworten verantwortlich; Prüfer B ist für die zweite Frage in allen menschlichen und KI-Antworten verantwortlich und so weiter. 4. Das Korrekturteam fasst die Punktzahlen aller Fragen zusammen. Was ist das Ergebnis? Bitte beachten Sie die folgende Tabelle. Ergebniskommentare: 1. DeepSeek-R1 bietet die beste Leistung . Bei den Basisfragen (für die ersten drei Fragen erhielt er die volle Punktzahl) erreichte er für die sechste Frage die volle Punktzahl, was unter menschlichen Teilnehmern beispiellos war. Seine niedrige Punktzahl bei der siebten Frage schien darauf zurückzuführen zu sein, dass er die Bedeutung von „Beweis“ im Fragenstamm nicht verstanden hatte. Er wiederholte lediglich die zu beweisende Schlussfolgerung und erhielt dafür keine Punkte. Betrachtet man seinen Denkprozess, so gibt es Schritte, die unterteilt werden können, aber diese Schritte spiegeln sich nicht in der endgültigen Antwort wider. 2. Die Gesamtpunktzahl von GPT-o1 ist fast dieselbe wie die von DeepSeek . Punktabzug aufgrund von Rechenfehlern bei den Basisfragen (Fragen 2 und 3). Im Vergleich zu DeepSeek ähneln die Antworten von o1 eher dem menschlichen Stil, sodass die letzte Frage, die hauptsächlich auf Beweisfragen basiert, eine etwas höhere Punktzahl aufweist. 3. Man kann sagen, dass Claude-Sonnet „am Anfang gestolpert“ ist . Er machte bei den ersten beiden Fragen dumme Züge und bekam 0 Punkte, aber seine Leistung danach war sehr nahe an 01 und die abgezogenen Punkte waren ähnlich. 4. Wenn die KI-Werte mit denen von Menschen verglichen werden, kann DeepSeek-R1 unter die ersten drei kommen (den Sonderpreis gewinnen), es besteht jedoch immer noch eine große Lücke zur höchsten menschlichen Wertung von 125 Punkten. GPT-o1 gelangt in die Top Fünf (gewann den Sonderpreis) und Claude-Sonnet in die Top Zehn (gewann den hervorragenden Preis). Abschließend möchte ich noch einige meiner subjektiven Gedanken zur Bewertung der Klausuren äußern. Zunächst einmal sind die Ideen der KI wirklich gut. Es gibt grundsätzlich kein Problem, das es nicht lösen kann und oft findet es sogar gleich die richtige Idee. Aber anders als Menschen machen sie, nachdem sie die richtigen Ideen haben, einige sehr einfache Fehler . Wenn wir uns beispielsweise den Denkprozess von R1 in Frage 7 ansehen, können wir feststellen, dass er von Anfang an wusste, dass er normale Koordinaten verwenden musste. Fast 100 % der Kandidaten, denen dieser Schritt einfiel, lösten die richtigen Normalkoordinaten (nur eine einfache Matrixdiagonalisierung), aber R1 schien immer wieder zu raten und herumzuprobieren, und am Ende gelang es ihm nicht, die Normalkoordinaten auszudrücken. Außerdem scheinen nicht alle KIs zu verstehen, was ein „strenger“ Beweis eigentlich bedeutet, und sie scheinen zu glauben, dass die Fähigkeit, eine formale Antwort zu finden, ein Beweis sei . KI macht, wie Menschen, viele „zufällige“ Fehler. Beispielsweise haben wir es vor dem formellen einheitlichen Test viele Male privat versucht. Claude-Sonnet konnte die erste Frage oft richtig beantworten, lag im offiziellen Test jedoch falsch. Der Genauigkeit halber sollten wir dieselbe Frage wahrscheinlich mehrmals testen und den Durchschnitt nehmen, aber das ist ein bisschen mühsam ... Planung und Produktion Quelle: Institut für Physik, Chinesische Akademie der Wissenschaften (ID: cas-iop) Herausgeber: Yang Yaping Korrekturgelesen von Xu Lai und Lin Lin Das Titelbild dieses Artikels stammt aus der Copyright-Bibliothek. Der Nachdruck und die Verwendung können zu Urheberrechtsstreitigkeiten führen |
>>: Welches Restaurantdesign, das Sie für normal halten, belastet Ihren Geldbeutel tatsächlich?
Willkommen zur 61. Ausgabe der Kolumne „Nature Tr...
Dieser Artikel enthält die wichtigsten Inhalte de...
Egal, an welchem Körperteil sich Fett ansammelt...
Wir wissen, dass man für die Gesundheit Bewegung ...
Tatsächlich machen viele Freundinnen normalerweis...
Herr Xia aus Ningbo hatte beim Öffnen eines Paket...
Im Winter ist es kalt und manche Kinder erkälten ...
In diesem Jahr jährt sich der Beginn der Wasserum...
In letzter Zeit ist das Thema „Wie können junge M...
Nachrichtenagentur Xinhua, Hefei, 31. Mai (Report...
Kürzlich berichteten ausländische Medien über die...
Gestern (20. Januar) Akademiker Wu Mengchao, „Vat...
Ein Tag im 8. Jahrhundert Eine Gruppe sogdischer ...
Es ist zu heiß! Diesen Juni haben Sie Geschichte ...