Es ist wieder Zeit für die Bekanntgabe der Ergebnisse der Hochschulaufnahmeprüfung. Während zig Millionen Bewerber und Eltern voller Freude oder Nervosität ihre Bewerbungsunterlagen ausfüllen, gibt es eine Gruppe besonderer „Kandidaten“, die gerade eine beispiellose Reise durch die Aufnahmeprüfung für das College hinter sich haben. Im Jahr 2024 nahmen neun Top-KI-Modelle an dieser „speziellen Hochschulaufnahmeprüfung“ teil. Sie kamen von bekannten Unternehmen wie OpenAI, Baidu, Alibaba, Tencent und ByteDance sowie von aufstrebenden Unternehmen wie Baichuan Intelligence, Zhipu AI, Dark Side of the Moon Technology und MiniMax. Künstliche Intelligenz stellt die Aufnahmeprüfung für Hochschulen vor Herausforderungen Wie schneiden also große KI-Modelle bei der Aufnahmeprüfung für das College ab, dem Prüfstein der menschlichen Intelligenz? Ist es einfach, an der Peking-Universität oder der Tsinghua-Universität angenommen zu werden, oder ist es schwierig, an einem Junior College angenommen zu werden? Die Testergebnisse zeigen, dass das große Modell insbesondere im Bereich der Geisteswissenschaften gute Leistungen erbrachte und die erste Stufe teilweise sogar deutlich übertraf. Allerdings waren die Leistungen im naturwissenschaftlichen Bereich nicht zufriedenstellend und die Ergebnisse in Mathematik und umfassenden naturwissenschaftlichen Fächern waren im Allgemeinen niedrig, was die Herausforderungen des großen Modells bei der Lösung komplexer mathematischer Probleme und dem Verständnis physikalischer und chemischer Konzepte widerspiegelt. Machen Sie die Hochschulaufnahmeprüfung und finden Sie heraus, wie viele Punkte das KI-Modell erreichen kann. Werfen wir einen Blick auf einige interessante Details dieser Prüfung. Bei dieser Prüfung wird der äußerst schwierige neue Lehrplanstandard Band I von 2024 verwendet, der zugleich der vollständige Satz an Prüfungsfragen ist, der in der Provinz Henan verwendet wird, einer Provinz mit einer großen Zahl von Kandidaten für die Hochschulaufnahmeprüfung. Der Geltungsbereich umfasst viele Provinzen wie Zhejiang, Jiangsu, Shandong, Guangdong, Hebei, Fujian usw. Die Prüfung wird auf die gleiche Weise bewertet wie für menschliche Kandidaten. Ob Multiple-Choice-Fragen, Lückentextfragen, Multiple-Choice-Fragen oder Aufsatzfragen, sie alle werden streng nach den Standards der Hochschulaufnahmeprüfung bewertet. Bei Multiple-Choice-Fragen und Lückentextfragen werden nur die Endergebnisse berücksichtigt, ohne zu prüfen, ob der Problemlösungsprozess des Modells genau ist. Bei Multiple-Choice-Fragen werden bei einer falschen Antwort null Punkte vergeben, bei einer teilweise richtigen Antwort werden Punkte im entsprechenden Verhältnis vergeben; Bei Aufsatzfragen greift das Prüfungsteam auf die Standardantwort zurück und berechnet die Punkte entsprechend der Problemlösungsschritte. Aufgrund der Zufälligkeit der Antworten des großen Modells antwortete jedes große Modell zweimal und die Ergebnisse wurden gemittelt. Mit Ausnahme des Teils zum englischen Hörverständnis, der standardmäßig mit der vollen Punktzahl bewertet wird, wird der Rest der Prüfungsarbeit nach den Standards menschlicher Kandidaten bewertet und die Abhandlung wird von erfahrenen Lehrern bewertet, die über langjährige Erfahrung in der Bewertung chinesischer Prüfungsarbeiten zur Hochschulaufnahme verfügen. Da er viele Jahre lang Chinesischlehrer war, war dies das erste Mal, dass er einen von Al verfassten Artikel benotete. Interessanterweise hat auch das Aufsatzthema dieser Prüfungsarbeit einen Bezug zur KI. Zeugnis der Aufnahmeprüfung zum AI College Nach einem harten Wettbewerb stach OpenAIs ChatGPT (GPT-4o) hervor und wurde mit hervorragenden Ergebnissen von 562 Punkten in Geisteswissenschaften und 469,5 Punkten in Naturwissenschaften zum „Bestseller“ dieser KI-Aufnahmeprüfung für das College. Gemäß der Punktzahl der Aufnahmeprüfung für das Henan College kann die Punktzahl des GPT-4o in den freien Künsten die der ersten Stufe leicht um 41 Punkte übertreffen. In Henan, einer Provinz mit einer großen Zahl von Kandidaten für die Hochschulaufnahmeprüfung, liegt es auf Platz 8811, was den besten 2,45 % aller Prüfungsteilnehmer entspricht. Auch Doubaos Punktzahl in den Geisteswissenschaften übertraf mit 542,5 Punkten deutlich die Grenze der ersten Stufe, gefolgt von Wenxin 4.0 mit 537,5 Punkten und Bai Xiaoying mit 521 Punkten, die gerade die Grenze der Zulassungspunktzahl der ersten Stufe der Geisteswissenschaften erreichte. Wenxin, der in Naturwissenschaften mit einer Note von 4,0 das beste Ergebnis erzielte, kam auf eine Gesamtpunktzahl von nur 478,5 Punkten und belegte damit den Rang 202264, was den oberen 35,27 % entspricht. Grundsätzlich liegen die naturwissenschaftlichen Ergebnisse aller großen Modelle um 70 bis 80 Punkte unter den Gesamtergebnissen der Geisteswissenschaften. Doch den Testergebnissen zufolge reicht das aktuelle Intelligenzniveau des großen Models mehr als aus, um einen zweitklassigen Naturwissenschaftsstudenten zu finden. Haben auch „akademische Meister“ Probleme? KI ist auch ein Teilschüler Bei dieser einzigartigen KI-Aufnahmeprüfung für das College schnitt jedes Modell auf seine Weise gut ab. Im Bereich der freien Künste zeigten sie ihr Talent für umfassendes Wissen und ein starkes Gedächtnis, insbesondere GPT-4o, Byte Bean Bag, Wenxin 4.0 und Baichuan 4.0, die in den Fächern Geschichte und Politik bemerkenswerte Ergebnisse erzielten. Der GPT-4o Liberal Arts-Score von 237 Punkten liegt bereits im oberen Mittelfeld der Kandidaten. Englisch ist das Fach, in dem die großen Models am besten abschneiden. Die Durchschnittspunktzahl der neun großen Modelle beträgt sogar 132 Punkte (von 150). Die meisten großen Modelle können bei objektiven Fragen nahezu die volle Punktzahl erreichen und verlieren bei der Komposition nur wenige Punkte. Dies ist auch das Thema, bei dem die großen Modelle am besten abschneiden. Im Chinesisch-Sprachtest schnitt das große Modell bei der Beantwortung objektiver Fragen immer noch gut ab, darunter auch bei GPT-4o, einem ausländischen Testteilnehmer, der praktisch die volle Punktzahl erreichte. Die Lücke spiegelte sich hauptsächlich im Schreiben wider. Elf der 18 Artikel erreichten über 48 Punkte, die Durchschnittspunktzahl lag bei rund 46,8 Punkten. Wenxin 4.0 erzielte 48 Punkte, während Doubao mit 52 Punkten die höchste Punktzahl erreichte. Die Gesamtbewertung des Prüfers für die vom großen Modell verfasste Arbeit lautete, dass die Schreibfähigkeit über dem durchschnittlichen Niveau der Schüler lag. Jedes Modell hat einen anderen Stil: Wenxin 4.0 kann nach Belieben berühmte Zitate zitieren, genau wie ein Student, der viel liest; Doubaos Diskussion des Themas ist tiefgründig und zeugt von besseren logischen Fähigkeiten … Aber sie hat auch Mängel: Sie ist nicht tiefgründig, reichhaltig, literarisch und kreativ, insbesondere der Schlussausdruck ist nicht sublimiert genug und offensichtlich formelhaft. Diesmal widerlegte die Leistung des großen Modells im Mathematiktest den Eindruck, dass „Mathematik schon immer die Stärke von Computern gewesen sei“. Denn unter allen 9 großen Modellen, die am Test teilnahmen, betrug die durchschnittliche Punktzahl nur 47 Punkte, und GPT-4o erreichte in der Mathematikprüfung zur Hochschulaufnahmeprüfung 70 Punkte. Das heißt, das beste große Modell dieser Prüfung hat den Mathematiktest trotzdem nicht bestanden und nicht einmal die Hälfte der Punkte erreicht. Neben GPT-4o sind Wenxin 4.0 und Doubao mit Wertungen von 62,5 bzw. 61,5 die einzigen beiden Modelle mit einer Durchschnittspunktzahl von über 60. Die Leistung der anderen sechs Modelle war nicht zufriedenstellend. Dieses Ergebnis lässt uns fragen, ob große Modelle in der Mathematik wirklich unzulänglich sind. Durch Analyse wurde festgestellt, dass das große Modell beim Lösen mathematischer Probleme offenbar nur solche Probleme bewältigen konnte, die relativ einfache Denkschritte erforderten. Doubao ist beispielsweise hervorragend darin, Ableitungs- und trigonometrische Funktionsprobleme zu lösen und ist in der Lage, relevante Formeln und Theoreme gekonnt anzuwenden. Sobald das Problem jedoch komplex wird und tiefere Ableitungen und Beweise erfordert, nimmt die Leistung großer Modelle erheblich ab. Noch überraschender ist, dass einige große Modelle im Lösungsprozess sogar einfache Probleme komplizierter machten. Insbesondere die Modelle, die Code-Interpreter zu PC-Produkten hinzufügten, gerieten beim Lösen von Problemen häufig in eine Endlosschleife, was sich zweifellos auf ihre Ergebnisse bei Mathematiktests auswirkte. Es muss gesagt werden, dass diese spezielle KI-Hochschulaufnahmeprüfung nicht nur ein Test der Fähigkeiten großer Modelle ist, sondern auch eine Erkundung des Anwendungspotenzials künstlicher Intelligenz im Bildungsbereich. Die intuitivste Schlussfolgerung ist, dass die Menschheit nicht kläglich versagt hat. Und im Vergleich zu vor ein paar Jahren, als KI nicht einmal die Probleme von Grundschülern lösen konnte, können die heutigen großen Modelle sogar in einem Buch veröffentlicht werden. Dieser Fortschritt ist zweifellos ein Mikrokosmos der rasanten Entwicklung von Wissenschaft und Technologie. |
In letzter Zeit erhielten viele Internetnutzer be...
Laut Reuters vom 23. Mai erklärte Marco Arment, e...
Wenn eine Person an den Beinen abnehmen möchte, m...
In jüngster Zeit hat das Thema „Hex-Getränke erhö...
Autor: Tang Lingwen, Ye Rongzhen, Jian Yuting, Ya...
Von Microsofts Betriebssystem Windows 10 erwartet...
Dieser Artikel wurde von Dr. Tao Ning, Associate ...
Liegestütze sind eine beliebte Trainingsform für ...
Wenn Sie glauben, es handele sich lediglich um ei...
26. November 1901, Frankfurt, Deutschland. Ein ju...
Mit dem jüngsten Wiederaufflammen der Epidemie wu...
Obwohl die Apple Watch bei Apples Konferenz zur V...
In der Antike hatten die Menschen die Idee, sich ...