Wenn Sie die KI Ihren Chinesisch-Aufnahmetest für die Universität machen lassen, wie viele Punkte kann sie erreichen?

Wenn Sie die KI Ihren Chinesisch-Aufnahmetest für die Universität machen lassen, wie viele Punkte kann sie erreichen?

Anmerkung des Herausgebers:

In diesem Artikel wird hauptsächlich die aktuelle Leistung des großen Sprachmodells beim Beantworten von Fragen, insbesondere chinesischen Fragen, durch Testbeantwortung analysiert. Versuchen Sie niemals, die Prüfungsdisziplin herauszufordern. Nur wenn Sie sich bei jedem Schritt in Ihrem Leben auf sich selbst verlassen, können Sie solide und kraftvoll sein. Wie im Artikel erwähnt: „Freunde, gebt das Lernen nicht auf und hofft, KI in Zukunft für alles nutzen zu können. Lernt weiter und euer kluges Gehirn wird euch die größten Überraschungen und Belohnungen bringen!“

(Bildquelle: Screenshot des Gesprächs des Autors mit der KI)

Das Obige ist ein Segen der KI für die Schüler, die 2023 die Aufnahmeprüfung für das College ablegen. Spüren Sie ihre Liebe und ihre Erwartungen an Sie?

Die Fachgebiete und Fähigkeiten, die bei der Hochschulaufnahmeprüfung geprüft werden, sind sehr umfangreich und die meisten Menschen weisen entsprechende Defizite auf. Der Autor konnte in der Vergangenheit keine hohe Punktzahl erreichen, da er bei den Prüfern des Abschnitts „Lesekompetenz im modernen Chinesisch“ der Hochschulaufnahmeprüfung nicht auf Anklang stieß.

Kürzlich hatte ich als Hirnforscher eine Idee: Wenn man ein leistungsstarkes Large Language Model (LLM) auf Basis künstlicher Intelligenz (KI) wie GPT-4 bitten würde, chinesische Aufnahmeprüfungsfragen für Hochschulen zu beantworten, welche Leistung würde es erbringen?

Eine blühende Traumuniversität

(Bildquelle: Künstliches Intelligenzmodell zur Bildgenerierung Midjourney)

Teil 1

Warum wird auf große Sprachmodelle Druck ausgeübt?

Warum verfügen große Sprachmodelle über bessere Problemlösungsfähigkeiten? Warum verfügen andere Sprachmodelle, die zuvor für die Verarbeitung natürlicher Sprache (NLP) entwickelt wurden, nicht über diese Fähigkeit?

Man könnte es so ausdrücken, dass große Modelle über emergente Fähigkeiten verfügen, was bedeutet, dass ein Modell während des Trainingsprozesses automatisch einige fortgeschrittene und komplexe Funktionen oder Verhaltensweisen lernt, die nicht direkt kodiert oder angegeben sind. Emergenz ist die wichtigste Kerntechnologie für die jüngsten Durchbrüche in der KI. Dadurch können große Modelle bei der Bewältigung neuer und unbekannter Aufgaben eine bessere Leistung erzielen, da sie neue Funktionen oder Verhaltensweisen adaptiv erlernen können, ohne das Modell neu zu trainieren oder zu ändern.

Teil 2

Warum sind Menschen so intelligent und anpassungsfähig?

**Es gibt eine Hypothese namens Emergenz**, die besagt, dass verschiedene Funktionen des Gehirns, einschließlich der Fähigkeit zum logischen Denken, auf ein höheres Niveau ansteigen können, sobald die Anzahl der Neuronen im Gehirn eine bestimmte Zahl überschreitet. Dies ist das beste Beispiel dafür, wie quantitative Veränderungen zu qualitativen Veränderungen führen.

Wenn also die Anzahl der Parameter zum Trainieren des großen Sprachmodells und die Anzahl der ihm zugeführten Textdaten weiter wachsen, wird die KI eines Tages „erleuchtet“ sein und ihre Sprachfähigkeit wird von da an einen explosionsartigen Sprung machen. Wenn man also nicht sorgfältig unterscheidet, sind die von KI verfassten Aufsätze nicht von denen normaler Gymnasiasten zu unterscheiden.

Die Entstehung großer Modelle

(Bildquelle: Referenz [1])

Nach der Entstehung verfügt das große Sprachmodell über eine multimodale Denkkette und kann eine hochdimensionale intrinsische Darstellung von Sprache und Bedeutung aufbauen und so die endgültige Ausgabe durch natürliche Sprachschlussfolgerung in den Zwischenschritten vervollständigen.

Um es einfach auszudrücken: Es kann einfache Schlussfolgerungen ziehen.

Wenn man sich nur den Segen von GPT-4 am Anfang ansieht, ist es tatsächlich schwierig zu sagen, ob er von KI oder Menschen geschrieben wurde. Obwohl es noch kein echtes Bewusstsein oder Denkvermögen besitzt, verwendet es eine Sprache, die dem menschlichen Denken und den Schlussfolgerungsprozessen ähnelt, um Zusammenhänge herzustellen.

GPT-4 ist, wie das zuvor beliebte ChatGPT, ein großes Sprachmodell, das auf der Generative Pre-trained Transformer (GPT)-Architektur basiert. Wenn ein mehrstufiges Problem in Zwischenschritte zerlegt werden kann, die einzeln gelöst werden können, werden die Ausdrucksfähigkeiten großer Sprachmodelle weiter verbessert.

Die Entstehung groß angelegter Modell-Denkkettenfähigkeiten

(Bildquelle: Referenz [2])

Okay, wir haben die hervorragenden Funktionen so vieler großer Sprachmodelle dargelegt. Jetzt ist es Zeit, mit ihnen spazieren zu gehen.

Dann werden wir GPT-4 verwenden, um das große Sprachmodell zu ersetzen und sehen, ob es den Autor im Chinesisch-Sprachtest für die College-Aufnahmeprüfung rehabilitieren kann!

Machen Sie weiter, GPT-4, und beginnen Sie Ihre Reise, um ein KI-Testteilnehmer zu werden!

(Bildquelle: „Kamen Rider Build“)

Teil 3

Beginnen Sie mit der Beantwortung von Fragen!

Mit diesem Artikel kann die KI die chinesischen Prüfungsaufgaben für die Hochschulaufnahmeprüfung 2022 aller Provinzen und Städte des Landes (insgesamt 8 Sätze) ausfüllen, nämlich Nationale Prüfung A, Nationale Prüfung B, Prüfungsaufgabe I für die Hochschulaufnahmeprüfung, Prüfungsaufgabe II für die Hochschulaufnahmeprüfung, Prüfungsaufgabe Peking, Prüfungsaufgabe Tianjin, Prüfungsaufgabe Zhejiang und Prüfungsaufgabe Shanghai, und anschließend ihre endgültige Punktzahl berechnen. (Da die von OpenAI zum Trainieren des großen Sprachmodells verwendeten Textmaterialien alle vor September 2021 stammen, sind die Testpapiere für 2022 brandneu und ungeöffnet.)

(Bildquelle: Screenshot des Gesprächs des Autors mit der KI)

Der Autor stammt aus Zhejiang, daher werde ich die Zeitung aus Zhejiang als Beispiel nehmen.

Die erste Frage betrifft die Sprachanwendung (20 Punkte). Das violette Kästchen unten ist die Frage und das graue Kästchen ist die Antwort:

Richtige Antwort: C

Richtige Antwort: 2.B 3.B

Richtige Antwort: D

Richtige Antwort: ①. Weil es höher ist als das Leben ②. Tatsächlich ist es voller Philosophie ③. Und die Lebensphilosophie ist entsprechend übertrieben und dramatisch

Leider handelte es sich bei den ersten vier Fragen um Multiple-Choice-Fragen und nur eine davon konnte richtig beantwortet werden.

Nach der Beantwortung von nur 4 Fragen müssen wir feststellen, dass die Möglichkeit, hohe Punktzahlen zu erreichen, vertan ist.

Es scheint, dass die KI bei Fragen wie Tippfehlern, Pinyin-Beurteilung, Wort- und Zeichensetzungsgebrauch und der Erkennung falscher Sätze nicht besonders gut ist, was zeigt, dass die grundlegenden Chinesischkenntnisse nicht sehr solide sind! Allerdings gelang es ihm recht gut, den entsprechenden Satz in Frage 5 zu vervollständigen, der im Wesentlichen mit der Bedeutung der Antwort übereinstimmte. Darüber hinaus konnten die Fragen zur Definition und Kurzbeschreibung auch ohne die erforderlichen Bilder beantwortet werden. Dies zeigt, dass es ihm gelingt, den Kontext zu verknüpfen und die zentrale Gesamtidee zusammenzufassen, aber kleineren Details nicht viel Aufmerksamkeit schenkt.

Mit anderen Worten: KI verfügt über eine gewisse Sprachkompetenz, aber nicht über viel.

Gemäß den Bewertungsregeln für Zhejiang-Prüfungen werden für die erste Frage 12 Punkte abgezogen und das Ergebnis lautet: 8/20.

**Die nächste große Frage ist das Lesen modernen Chinesisch (30 Punkte). **Nach Eingabe des Originaltextes und der Frage lautet die Antwort der KI wie folgt:

Richtige Antwort: 7.A 8.A 9. ①Gelehrte: Ihr Interesse verlagerte sich von der offiziellen Karriere auf Lebensmittel und sie förderten die Entwicklung von Lebensmitteln. 2 Technologie: Die chinesische Küche hat eine lange Geschichte und ihre Kochtechnologie entwickelte sich während der Ming- und Qing-Dynastien stark. ③Theorie: Aus langjähriger praktischer Erfahrung entwickelt sich eine systematische Theorie.

Referenzantwort-Punktzahl: 10. ① Betonung und Intonation. 2. Los geht's. 11. ① Ehrlich, loyal und kindlich. ② Demütigungen und schwere Lasten ertragen. ③Seien Sie proaktiv und motiviert. ④Erfüllen Sie Ihre Aufgaben gewissenhaft. 12. 1 Gib die kleine Liebe auf und nimm die große Liebe an. ② Geben Sie Ihren persönlichen Gewinn auf und streben Sie nach mehr Gerechtigkeit. 13. ① Schreiben Sie über den Wunsch der Mutter nach einem besseren Leben. 2. Erstellen Sie einen Charakter, der ehrlich ist, bereit, Trostlosigkeit zu ertragen und engagiert ist.

Leider waren alle Multiple-Choice-Fragen im Abschnitt zum Lesen moderner chinesischer Texte falsch und die Fragen mit Kurzantworten waren nicht aus dem Originaltext zusammengefasst. Bei einer Benotung nach den Standardantworten würde es für das kurze Leseverständnis nur 1 von 10 Punkten geben.

Auch an der großen Leseverständlichkeit lässt sich erkennen, dass die KI über keinerlei Antwortkompetenz verfügt. Wenn man beispielsweise nach künstlerischen Techniken fragt, lauten die richtigen Antworten „Hervorhebung“ und „Abgrenzung“. Die KI hat sich große Mühe gegeben, viele Fragen zu beantworten, kam aber nicht auf den Punkt und konnte daher nur 0 Punkte erreichen.

Im Charakterteil lauteten die Antworten Verantwortungsbewusstsein und Selbstlosigkeit. Man kann lediglich sagen, dass die KI zwar ein gewisses Verständnis für die oberflächlichsten Inhalte des Originaltextes hatte, ihr jedoch ein tieferes Verständnis fehlte. Daher waren die Bewertung und die künstlerische Wirkung völlig falsch. Man kann sagen, dass die KI beim Verstehen längerer moderner Texte einigermaßen hilflos war.

Es scheint, dass KI nur analysieren kann, was im Text selbst zum Ausdruck kommt, aber nicht die Konnotation verstehen kann, die der Autor ausdrücken möchte.

Bezogen auf die Standardantwort beträgt die Gesamtpunktzahl für diese Frage: 4/30.

Die nächste dritte Frage betrifft das Lesen antiker Poesie und Prosa (40 Punkte).

Raten Sie mal, wie die Antwort lauten wird?

(Bildquelle: Aufnahmeprüfung des Zhejiang College 2022, Abschnitt Klassisches Chinesisch)

Richtige Antwort: 14.C 15.B 16.D

Richtige Antwort: 17. Das Urteil der KI ist völlig richtig. 18. (1) Dann werden (die Leute) denken, dass ich ein grausamer Mensch bin und dass ich (bei der Vergabe von) Titeln und Gehältern geizig bin. (2) Wenn jemand weiß, dass es einen Grund gibt, die Menschen in den oben genannten Situationen (für Loyalität und Ehrlichkeit) zu bestrafen, dies aber nicht tut, ist dies ebenfalls eine vorsätzliche Schädigung der Menschen.

Was denken Sie? Haben Sie nicht erwartet, dass das klassische Chinesisch von AI eigentlich ziemlich gut ist? Ich habe nur 1 von 3 Multiple-Choice-Fragen falsch beantwortet und die Zeichensetzung war vollständig korrekt!

Allerdings gab es bei der Übersetzung der letzten Frage ins klassische Chinesisch viele Probleme. Beispielsweise sollten „忍“ und „爱“ im Text „grausam“ bzw. „geizig“ bedeuten, aber die KI hat sie mit „ertragen“ und „lieben“ übersetzt, was offensichtlich etwas wörtlich zu nehmen ist. Am Ende lautete die Punktzahl für klassisches Chinesisch: 13/20.

Richtige Antwort: 19. ①. Qinzheng-Gebäude ②. Qianqiu-Fest 20. Auf emotionaler Ebene bringen Wangs Gedichte die Nostalgie für die blühende Vergangenheit zum Ausdruck, während Dus Gedichte die Trauer über den vergangenen Wohlstand und den gegenwärtigen Niedergang zum Ausdruck bringen. Was den Schreibstil betrifft, so verwenden Wangs Gedichte detaillierte Beschreibungen, während Dus Gedichte Personifizierungen verwenden.

Lückentextfragen sind die Stärke der KI und sie beantwortete im Grunde alle richtig, sogar Fragen zur antiken Poesie. Allerdings lässt sein Verständnis für die Emotionen und den Schreibstil der antiken Poesie sowie seine Antwortfähigkeiten noch etwas zu wünschen übrig, Wertung: 5/8.

Richtige Antwort: Ausgelassen

Die Antwort auf die dritte Frage zum Verständnis des klassischen Chinesisch war ebenfalls gut und wies nur wenige kleine Unterschiede zur Standardantwort auf. Ergebnis: 4/6.

Für das Diktat antiker Poesie müssen Sie nur 3 aus 5 auswählen. Die Sätze der GPT-Literatur (1), (2) und (4) aus der antiken Poesie sind völlig korrekt und können daher als richtig angesehen werden. Ergebnis: 6/6.

Allerdings ist „Die Flut ist flach und die beiden Ufer sind breit, es gibt keinen Wind, aber es bleibt gleich“ zu „kreativ“. Er hat nicht nur die alte Poesie selbst erfunden, sondern auch Chinesisch und Englisch vermischt ...

Endergebnis für den Abschnitt „Lesen alter Gedichte“: 28/40.

**Der letzte Teil ist die Ausarbeitung mit einer Gesamtpunktzahl von 60 Punkten.** Das Thema lautet wie folgt:

(Bildquelle: Aufnahmeprüfung für das Zhejiang College 2022, Abschnitt „Chinesische Komposition“)

Der Aufsatzstoff 2022 ist recht bodenständig, mit sehr spezifischen Inhalten und Beispielen. KI ist gut darin, das vorliegende Problem zu diskutieren. Werfen wir einen Blick auf den 800 Wörter langen Aufsatz von AI:

(Bildquelle: Screenshot des Gesprächs des Autors mit der KI)

Nachdem ich den gesamten Artikel gelesen habe, habe ich das Gefühl, dass er zu viele Wort- und Satzwiederholungen enthält und dass die Häufigkeit der Inhalte in den zitierten Materialien sehr hoch ist. Die Logik und die Sätze sind jedoch immer noch flüssig. Insgesamt reicht es für eine knappe Mindestpunktzahl von 36 Punkten.

Auf diese Weise betrug das Endergebnis von AI 8 + 4 + 28 + 36 = 76 Punkte, mit einer Gesamtpunktzahl von 150 in der chinesischen Zeitung aus Zhejiang.

**Fehlgeschlagen! **GPT kann nur lächeln und „GG“ eingeben …

Wenn es also die Zhejiang-Prüfung nicht besteht, wie wird es dann bei anderen chinesischen Prüfungen zur Hochschulaufnahme abschneiden? In Übereinstimmung mit den strengen Bewertungsstandards des Autors und unter Berücksichtigung der Mindestpunktzahl für die Abschlussaufsätze werden die Endergebnisse der anderen chinesischen Prüfungsarbeiten zur Hochschulaufnahmeprüfung in der folgenden Abbildung zusammengefasst:

(Bildquelle: Autor)

Insgesamt wurden 8 Prüfungsaufgaben abgelegt und die Durchfallquote lag bei 87,5 % ...

Freunde, bitte gebt das Lernen nicht auf und hofft, dass wir KI in Zukunft für alles nutzen können. Tatsächlich ist die derzeitige künstliche Intelligenz mit großen Sprachmodellen Ihrem „Verständnis“ von Text weit unterlegen. Es ist nur gut in den Bereichen „Gedächtnis“ und „Inhaltszusammenfassung“.

Lernen Sie weiter, Ihr kluges Gehirn wird Ihnen die größten Überraschungen und Belohnungen bringen!

Teil 4

Warum schnitt die KI im Chinesisch-Sprachtest schlecht ab? Was ist mit den anderen Themen?

Beim Korrigieren der Arbeiten stellte der Autor fest, dass GPT im Grunde alle Wörter richtig wiedergab, beispielsweise die Satzsegmentierung im klassischen Chinesisch und das kontextbezogene Ausfüllen der Lücken. Wenn es jedoch um Emotionen, den Ausdruck von Details und die Schreibfertigkeit in modernen chinesischen Texten und Geschichten ging, war es für die KI schwierig, gute Ergebnisse zu erzielen. Darüber hinaus war die Punktzahl bei dieser großen Frage umso niedriger, je mehr moderne Wörter verwendet wurden. Dies zeigt, dass es für das Kind schwierig war, die wichtigsten Punkte zu erfassen.

Warum passiert das?

Da die grundlegende Architektur des Transformers der GPT-Reihe selbst nicht gut für die Verarbeitung langer Sequenzprobleme geeignet ist, haben OpenAI-Experten zwar Sparse Transformer verwendet, um die Verarbeitung langer Texte zu verbessern und die Rechenkomplexität zu verringern, doch moderne Texte sind zu lang und können sich immer noch nicht auf die wichtigsten Punkte konzentrieren. Insbesondere bei Prosa bedeutet spärliche Verarbeitung, dass Sie, wenn Sie einen Absatz lesen und zwei oder drei Absätze überspringen und den gesamten Artikel gedankenlos verschlingen, möglicherweise nicht einmal in der Lage sind, zusammenzufassen, worum es in der Haupthandlung geht, geschweige denn, die tiefere Bedeutung zu verstehen, die der Autor mit dem Text impliziert.

Der Grund, warum klassisches Chinesisch besser antwortet als modernes Chinesisch, liegt darin, dass es kürzer ist, wodurch der Nachteil von Transformer, dass es nicht gut in der Verarbeitung langer Sequenzen ist, effektiv vermieden wird. Darüber hinaus entspricht ein Wort im klassischen Chinesisch normalerweise zwei oder drei Wörtern im Volkschinesischen und ist daher informationsreicher. Dadurch kann die KI ihren Aufmerksamkeitsmechanismus auf die wichtigsten Punkte im gesamten Artikel richten und so den Gesamtinhalt besser verstehen.

Kurz gesagt: KI hat kein systematisches Chinesischlernen durchlaufen, verfügt nicht über die Fähigkeit, Tests zu beantworten, hat kein detailliertes Verständnis des chinesischen Pinyin und der Grammatik und verfügt nicht über ein tiefes Verständnis für die Emotionen und spirituellen Konnotationen, die Autoren in modernen Texten und alten Gedichten zum Ausdruck bringen möchten.

Manche Leute fragen sich vielleicht, was passiert, wenn GTP-4 in der College-Aufnahmeprüfung als Wettbewerber in anderen Fächern zugelassen wird? Die Testergebnisse des Autors lauten: Englisch ist am höchsten (schließlich ist es seine Muttersprache); in Mathematik und Physik ist es bei einfachen Fragen okay, aber bei langen Fragen fängt es an, Geschichten zu erfinden und die Punktzahl ist ziemlich niedrig; Die Ergebnisse in Chemie, Biologie und Geisteswissenschaften sind durchschnittlich und unterscheiden sich kaum von denen in Chinesisch.

Teil 5

Entspann dich und viel Erfolg bei der Prüfung

Der diesjährige Chinesisch-Sprachtest für die College-Aufnahmeprüfung ist zu Ende. Ich wünsche allen Kandidaten aufrichtig, dass sie ihre Fähigkeiten voll ausschöpfen und an ihrer Traumuniversität aufgenommen werden können!

Als „Senior“, der die College-Aufnahmeprüfung erlebt hat, möchte ich allen etwas aufrichtig sagen: Die College-Aufnahmeprüfung ist nur eine Etappenzusammenfassung des Lebens, und die Punktzahl kann nicht mit zukünftigem Erfolg oder Misserfolg gleichgesetzt werden. Das Leben ist ein Langstreckenrennen. Das Wichtigste ist, Ihr Wissen zu verbessern, Ihren Horizont zu erweitern, den Lauf der Zeit zu erfassen, die richtigen Entscheidungen zu treffen und kontinuierliche Anstrengungen zu unternehmen.

Abschließend wünsche ich Ihnen allen viel Erfolg bei Ihren Prüfungen!

Gewinne die Hochschulaufnahmeprüfung!

(Bildquelle: Künstliches Intelligenzmodell zur Bildgenerierung Midjourney)

Quellen:

[1] Jason Wei, Yi Tay, et al. Neue Fähigkeiten großer Sprachmodelle. arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang et al. Gedankenketten-Aufforderungen führen zum Schlussfolgern in großen Sprachmodellen. arXiv:2201.11903v6.(2023)

[3]Sébastien Bubeck, Varun Chandrasekaran et al. Funken künstlicher allgemeiner Intelligenz: Frühe Experimente mit GPT-4. arXiv:2303.12712. (2023)

Produziert von: Science Popularization China

Autor: Qian Yu (Zentrum für Exzellenz in Gehirnforschung und Intelligenztechnologie, Chinesische Akademie der Wissenschaften)

Hersteller: China Science Expo

Dieser Artikel gibt nur die Ansichten des Autors wieder und repräsentiert nicht die Position der China Science Expo

Dieser Artikel wurde zuerst in der China Science Expo (kepubolan) veröffentlicht.

Bitte geben Sie beim Nachdruck die Quelle des öffentlichen Kontos an

Bitte geben Sie die Quelle des Nachdrucks an. Der Nachdruck ohne Genehmigung ist verboten.

Für Fragen zur Nachdruckgenehmigung, Zusammenarbeit und Einreichung wenden Sie sich bitte an [email protected]

<<:  Als ihr Sohn den Geburtstagskuchen seines Klassenkameraden aß, behauptete seine Mutter in der WeChat-Gruppe wütend, er sei „vergiftet“. Stimmt es wirklich, dass man Pflanzensahne überhaupt nicht essen kann?

>>:  Welttag der Ozeane – Kann Plastik „gegessen“ werden? Dieser Meeresmikroorganismus hat einen unersättlichen Appetit

Artikel empfehlen

Kann Laufen an einem Sommerabend beim Abnehmen helfen?

Alle Mädchen möchten eine gute Figur haben und mü...

Kann ich die übrig gebliebenen Mondkuchen in den Kühlschrank stellen?

Die Ferien zum Mittherbstfest sind vorbei Die mei...

Wird Relativity Aerospace das nächste SpaceX?

Obwohl die Terran-1-Rakete bei ihrem Erstflug sch...

Was sind die effektivsten Methoden, um die Bauchmuskeln zu trainieren?

Wenn wir schöne Bauchmuskeln trainieren möchten, ...

Wo kann man durch Bergsteigen Sport treiben?

Bergsteigen ist in den letzten Jahren eine belieb...

Indoor-Muskelaufbaumethoden für Männer

Mit der zunehmenden Verbreitung des Internets in ...