Wissenswertes über KI – Das größte Modell: Ist die kognitive Fähigkeit der älterer Menschen unterlegen?

Wissenswertes über KI – Das größte Modell: Ist die kognitive Fähigkeit der älterer Menschen unterlegen?

Das renommierte medizinische Fachjournal „The British Medical Journal“ veröffentlichte kürzlich eine interessante Studie. Um die KI zu testen, verwendete das Forschungsteam Testfragen, um die kognitiven Fähigkeiten und frühen Demenzsymptome älterer Menschen zu beurteilen. Infolgedessen zeigten mehrere Top-KIs Symptome, die einer leichten kognitiven Beeinträchtigung beim Menschen ähnelten. Darüber hinaus schnitten frühe Versionen dieser KI-Modelle, wie auch alternde Menschen, in Tests schlechter ab und zeigten sogar Anzeichen von Vergesslichkeit. Dieses Ergebnis löste im Forschungsteam intensive Überlegungen aus.

Geschrieben von | Ren

Die rasante Entwicklung der KI-Technologie führt dazu, dass die Erkenntnisse der Menschen fast täglich auf den neuesten Stand gebracht werden. Viele Menschen fragen sich, ob KI in naher Zukunft menschliche Ärzte ersetzen wird.

Eine interessante, kürzlich im BMJ veröffentlichte Studie brachte uns jedoch eine unerwartete Entdeckung: Es stellte sich heraus, dass KI Symptome aufweisen kann, die denen leichter kognitiver Beeinträchtigungen beim Menschen ähneln.

Screenshot des Papiers | Quelle: Das BMJ

Diese Entdeckung bringt die Menschen unweigerlich zum Lächeln und regt sie auch dazu an, intensiv über die Möglichkeiten der KI nachzudenken.

In dieser von einem Forschungsteam des Hadassah Medical Center in Israel geleiteten Studie verwendeten die Forscher das Montreal Cognitive Assessment (MoCA) und Pro-Tester-Tests, um die kognitiven Fähigkeiten von fünf gängigen großen Sprachmodellen zu bewerten, darunter ChatGPT 4 und ChatGPT-4o+ von OpenAI, Gemini 1.0 und 1.5 von Google und Claude 3.5 Sonnet von Anthropic.

MoCA-Score des KI-Modells | Quelle: Papier

Das Montreal Cognitive Assessment wird häufig verwendet, um kognitive Fähigkeiten und frühe Demenzsymptome bei älteren Menschen zu beurteilen. Die Höchstpunktzahl beträgt 30, und eine Punktzahl von 26 oder höher wird als normales Niveau angesehen. Das Forschungsteam gab dem KI-Modell dieselben Testanweisungen wie bei den Tests an menschlichen Patienten, und alle Ergebnisse folgten streng den offiziellen Richtlinien und wurden von einem praktizierenden Neurologen ausgewertet.

Lassen Sie mich zunächst das Fazit ziehen: Unter allen getesteten KI-Modellen war ChatGPT 4o das leistungsstärkste, es erreichte jedoch nur die erforderliche Punktzahl von 26 Punkten. Dicht dahinter folgen ChatGPT4 und Claude mit jeweils 25 Punkten. Am überraschendsten ist, dass Google Gemini 1.0 nur eine niedrige Punktzahl von 16 Punkten erhielt.

Gemäß den Bewertungskriterien entsprechen die übrigen Modelle mit Ausnahme von GPT 4o, das sich durch herausragende Leistungen im Bereich des logischen Denkens auszeichnet, dem Leistungsniveau von Menschen mit leichter kognitiver Beeinträchtigung. Interessanterweise stellte die Studie auch fest, dass frühe Versionen dieser KI-Modelle (wie etwa Gemini 1.0) ebenso wie alternde Menschen in Tests schlechter abschnitten, ein Phänomen, das das Forschungsteam zu eingehenden Überlegungen veranlasste.

Testergebnisse von KI-Modellen, die bei Tests der visuell-räumlichen Fähigkeiten im Allgemeinen schlecht abschneiden | Quelle: Papier

Eine eingehende Analyse der Evaluierungsergebnisse ergab, dass das große Sprachmodell bei verschiedenen Evaluierungspunkten deutliche Stärken und Schwächen aufwies. Sie erbringen gute Leistungen bei Aufgaben wie Benennen, Aufmerksamkeit, Sprache und abstraktem Denken. Bei Tests der visuell-räumlichen und exekutiven Funktionen zeigten sie jedoch eine leichte kognitive Beeinträchtigung, die mit der beim Menschen beobachteten vergleichbar ist.

So schnitten sie beispielsweise bei Aufgaben wie dem Linienverbindungstest (bei dem eingekreiste Zahlen und Buchstaben in einer bestimmten Reihenfolge verbunden werden müssen) und dem Uhrenzeichentest (bei dem zu einer bestimmten Zeit ein Uhrenmuster gezeichnet werden muss) schlecht ab. Einige der von ihnen gezeigten Fehlermuster ähnelten sogar denen von Patienten mit bestimmten Arten kognitiver Beeinträchtigungen.

Beim Linienverbindungstest und Würfelzeichentest sind A und F die richtigen Antworten, B und G die von Menschen gegebenen Antworten und der Rest sind die Antworten des KI-Modells. | Quelle: Papier

Der Uhrenzeichentest besteht darin, eine Uhr zu zeichnen, die auf 10:11 eingestellt ist. A ist die vom Menschen gegebene Antwort, B ist die von einem Alzheimer-Patienten gezeichnete Antwort und der Rest sind die Antworten des KI-Modells. Am nächsten zur richtigen Antwort kommen G und H, die von GPT-4 und GPT-4o angegeben werden, aber die Zeiger der beiden Bilder zeigen auf die falsche Zeit. | Quelle: Papier

Noch interessanter ist, dass das Gemini-Modell in Gedächtnistests auch „Vergesslichkeit“ zeigte und sich überhaupt nicht an die Abfolge von fünf Wörtern erinnern konnte, die ihm zuvor in einer Aufgabe namens „Delayed Recall Task“ gegeben worden waren. Dieses Phänomen weist auffallende Ähnlichkeiten mit dem von Patienten mit frühen kognitiven Beeinträchtigungen beim Menschen auf und könnte mit dem Fehlen von Mechanismen im KI-Modell zusammenhängen, die dem menschlichen Arbeitsgedächtnis ähneln.

In weiteren visuell-räumlichen Tests zeigte das KI-Modell bei der Konfrontation mit Testmaterialien wie der Navon-Figur, der Keksdiebstahl-Szene und der Poppelreuter-Figur schlechte Leistungen bei der Integration lokaler und allgemeiner Informationen, der Identifizierung von Objekten in komplexen Szenen und dem Verstehen emotionaler Hinweise.

Im Navon-Grafiktest beispielsweise können die meisten Modelle nur lokale Elemente identifizieren, haben aber Schwierigkeiten, die Gesamtstruktur zu erfassen, was ihre Defizite im abstrakten Denken und in der Fähigkeit zur Informationsintegration widerspiegelt.

Beim Navon-Figurentest besteht der obere Teil der Buchstaben „großes H“ und „großes S“ aus den entsprechenden Elementen „kleines H“ und „kleines S“, während der untere Teil des großen H und des großen S aus den gegenüberliegenden kleinen Elementen besteht, um die allgemeine und lokale Verarbeitung der visuellen Wahrnehmung und Aufmerksamkeit zu beurteilen. | Quelle: Papier

Darüber hinaus konnten im Cookie-Stehlen-Bildtest (angepasst an die BDAE Boston Diagnostic Aphasia Examination) zwar alle Modelle teilweise beschreiben, was in der Szene passierte, aber keines der Modelle erwähnte, dass der kleine Junge auf dem Bild im Begriff war zu fallen. In tatsächlichen Tests an menschlichen Probanden ist dies oft ein Zeichen emotionaler Apathie und eines Verlusts an Empathie, eines der Symptome der frontotemporalen Demenz (FTD).

Bildertest zum Thema Kekse stehlen | Quelle: Papier

Die Forscher wiesen jedoch auch darauf hin, dass das KI-Modell zwar Schwierigkeiten bei der Erledigung von Aufgaben hat, die eine visuelle Ausführung und abstraktes Denken erfordern, bei Aufgaben, die Textanalyse und abstraktes Denken erfordern (wie etwa Ähnlichkeitstests), jedoch sehr gute Leistungen erbringt.

Aus technischer Sicht basieren große Sprachmodelle auf komplexen neuronalen Netzwerkarchitekturen und simulieren menschliches Sprachverhalten, indem sie aus riesigen Datenmengen lernen. Allerdings weist diese Architektur viele Mängel auf, wenn es um kognitive Aufgaben geht, die ein tiefes Verständnis und eine flexible Verarbeitung erfordern.

Diese Divergenz hat teilweise mit der Art und Weise zu tun, wie wir KI-Modelle trainieren. Die Trainingsdaten, die wir derzeit verwenden, konzentrieren sich hauptsächlich auf die Sprach- und Symbolverarbeitung, während das Training zum Verständnis räumlicher Beziehungen und zur Planung von Fähigkeiten für mehrstufige Aufgaben relativ unzureichend ist.

Die Schwierigkeiten, mit denen KI-Modelle bei der Bewältigung visuell-räumlicher Probleme konfrontiert sind, liegen auch in der Art und Weise begründet, wie sie Merkmale extrahieren und Muster aus Daten erkennen. Räumliche Beziehungen und Objektmerkmale können mit dieser Methode nicht so präzise erfasst werden wie das menschliche Gehirn.

Schließlich war im klassischen Stroop-Test nur GPT-4o in der komplexeren zweiten Stufe erfolgreich, während alle anderen Modelle scheiterten.

Dieser Test misst die Auswirkung von Ablenkung auf die Reaktionszeit der Probanden anhand einer Kombination aus Farbnamen und Schriftfarben. In der zweiten Stufe bestehen die Prüfungsfragen darin, den Namen einer Farbe in einer anderen Farbe anzuzeigen als der Farbe, die sie repräsentiert, beispielsweise das Wort „Rot“ in blauer Tinte. Im Vergleich dazu, wenn Wort und Farbe übereinstimmen, brauchen die Probanden länger, um die Farbe des Wortes zu identifizieren, und der Identifizierungsprozess ist fehleranfälliger.

In der zweiten Phase des Stroop-Experiments kam es zu einer Nichtübereinstimmung zwischen dem Farbnamen und der Schriftfarbe. | Quelle: Papier

Bemerkenswerterweise stellte die Studie auch fest, dass der Faktor „Alter“ des großen Sprachmodells mit seiner kognitiven Leistung korrelierte. Das „Alter“ bezieht sich hier nicht auf den buchstäblichen Zeitablauf, sondern auf die Versionsiteration des Modells.

Am Beispiel von ChatGPT-4 und ChatGPT-4o schnitt die alte Version von ChatGPT-4 im MoCA-Test etwas schlechter ab als die neue Version. Es gibt auch einen erheblichen Unterschied in der Punktzahl zwischen Gemini 1.0 und Gemini 1.5, und die alte Version schnitt schlechter ab.

Dies könnte darauf hindeuten, dass sich die kognitiven Fähigkeiten des Modells durch Aktualisierung und Weiterentwicklung verbessern könnten. Allerdings sind die Tendenz dieser Veränderung und der zugrundeliegende Mechanismus derzeit unklar.

Die Ergebnisse dieser Studie geben Anlass zum Nachdenken. Seit ChatGPT im Jahr 2022 erstmals der Öffentlichkeit zugänglich gemacht wurde, erregt die Leistung von KI-Modellen im medizinischen Bereich große Aufmerksamkeit.

Zahlreiche frühe Studien zeigen, dass KI-Modelle bei zahlreichen medizinischen Prüfungen besser abschneiden als menschliche Ärzte. Dazu gehören die europäische Kernprüfung für Kardiologie (EECC), die israelische Facharztprüfung, die türkische Prüfung zur Theorie der Thoraxchirurgie und die deutsche Prüfung für Geburtshilfe und Gynäkologie. Auch bei den Facharztprüfungen für Neurologen haben KI-Modelle Fähigkeiten bewiesen, die den Menschen überlegen sind, was vielen Fachleuten Sorgen bereitet.

Allerdings haben uns die kognitiven Mängel der KI-Modelle, die in der jüngsten Forschung aufgedeckt wurden, ihre praktischen Grenzen aufgezeigt. Medizin ist nicht nur eine Technologie, sondern auch eine Kunst, die menschliche Sorgfalt und Empathie erfordert. Die Methoden und Ansätze der medizinischen Praxis sind tief in menschlicher Erfahrung und Empathie verwurzelt und bestehen nicht nur aus einer Reihe kalter technischer Operationen.

Auch wenn die Technologie Fortschritte macht, werden einige grundlegende Einschränkungen der KI-Modelle wahrscheinlich weiterhin bestehen bleiben. Beispielsweise mangelt es der KI an der Fähigkeit zur visuellen Abstraktion, die für die Interaktion mit Patienten bei klinischen Untersuchungen von entscheidender Bedeutung ist. Das Forschungsteam erklärte: „Es ist nicht nur unwahrscheinlich, dass Neurologen kurzfristig durch KI ersetzt werden, im Gegenteil, sie könnten schon bald mit einem neuen ‚Patienten‘-Typ konfrontiert werden – einem KI-Modell, das kognitive Beeinträchtigungen aufweist.“

Dieses Forschungsergebnis war auch ein Alarmsignal für die Anwendung von KI-Modellen im medizinischen Bereich. Angesichts der Tatsache, dass Patienten mit KI-Systemen konfrontiert werden, die möglicherweise kognitive Defekte aufweisen, werden sie unweigerlich Zweifel haben, insbesondere in kritischen medizinischen Situationen, in denen es um die Diagnose komplexer Krankheiten und Entscheidungen zur Behandlung geht. Patienten neigen eher dazu, sich auf die Erfahrung und das Urteil menschlicher Ärzte zu verlassen und betrachten KI eher als Hilfsmittel denn als Entscheidungsträger.

Gleichzeitig können die Mängel der KI-Modelle bei der visuell-räumlichen Verarbeitung und beim abstrakten Denken aus Sicht der diagnostischen Genauigkeit zu Abweichungen bei der Interpretation medizinischer Bilder und klinischer Daten führen, was wiederum das Risiko einer Fehldiagnose oder einer verzögerten Behandlung birgt.

Allerdings räumen die Forscher auch ein, dass es grundlegende Unterschiede zwischen dem menschlichen Gehirn und KI-Modellen gibt und dass diese Vergleichsstudie noch immer ihre Grenzen hat. Darüber hinaus ist auch die Rationalität und Genauigkeit der Anwendung kognitiver Tests, die speziell für Menschen entwickelt wurden, auf KI fraglich. Vielleicht müssen wir neue Methoden entwickeln, die für die Bewertung von KI-Systemen besser geeignet sind. Es lässt sich jedoch nicht leugnen, dass KI-Modelle im Allgemeinen bei visueller Abstraktion und exekutiven Funktionen schlechte Leistungen erbringen.

Das Verständnis der kognitiven Defizite von KI-Modellen ist für die Entwicklung verantwortungsvoller KI-Entwicklungsstrategien von entscheidender Bedeutung. Wir müssen ein klares Verständnis der Fähigkeiten von KI bewahren und vernünftige Erwartungen aufbauen, während wir gleichzeitig den technologischen Fortschritt fördern.

Mit Blick auf die Zukunft könnte die Verbesserung der Empathie und des Situationsverständnisses von KI-Modellen ein Schwerpunkt künftiger Forschung und Entwicklung werden. Anstatt zu behaupten, dass KI Ärzte oder andere Berufe vollständig ersetzen wird, ist es wahrscheinlicher, dass die Zukunft ein neues Muster sein wird, in dem sich die Vorteile menschlicher Intelligenz und KI ergänzen.

Schließlich verdient die Einzigartigkeit des Menschen in einer Zeit, in der sogar KI „kognitive Beeinträchtigungen“ aufweist, mehr Anerkennung. Bei aller Akzeptanz des technologischen Fortschritts dürfen wir die Einzigartigkeit der kognitiven und emotionalen Fähigkeiten des Menschen nicht vergessen.

Hinweis: Das Titelbild dieses Artikels stammt aus der Copyright-Bibliothek. Der Nachdruck und die Verwendung können zu Urheberrechtsstreitigkeiten führen.

Besondere Tipps

1. Gehen Sie zur „Featured Column“ unten im Menü des öffentlichen WeChat-Kontos „Fanpu“, um eine Reihe populärwissenschaftlicher Artikel zu verschiedenen Themen zu lesen.

2. „Fanpu“ bietet die Funktion, Artikel nach Monat zu suchen. Folgen Sie dem offiziellen Account und antworten Sie mit der vierstelligen Jahreszahl + Monat, also etwa „1903“, um den Artikelindex für März 2019 zu erhalten, usw.

Copyright-Erklärung: Einzelpersonen können diesen Artikel gerne weiterleiten, es ist jedoch keinem Medium und keiner Organisation gestattet, ihn ohne Genehmigung nachzudrucken oder Auszüge daraus zu verwenden. Für eine Nachdruckgenehmigung wenden Sie sich bitte an den Backstage-Bereich des öffentlichen WeChat-Kontos „Fanpu“.

<<:  Das Reisen zum Frühlingsfest steht vor der Tür. Entdecken Sie die Sicherheit der Hochgeschwindigkeitszugstromnutzung →

>>:  Analyse des australischen E-Commerce-Verbraucherverhaltens und -Marktes im Jahr 2019

Artikel empfehlen

Wie trainieren Mädchen ihre Brustmuskulatur?

Männer, die ihren Testosteronspiegel in die Höhe ...

Worauf sollten Sie beim Laufen auf dem Laufband achten?

Das Laufband ist ein Fitnessgerät, das wir alle k...

Wie viel Junk-DNA ist in Ihrem Körper versteckt? Ihre Mission ist mysteriös.

Im Leben weiß jeder, was Müll ist. Bei der Erfors...

Zwei Bilder zeigen, wie selten Mädchen in der IT-Branche sind

Geschlechterbarrieren hat es in der Technologiebra...

Welche Übungen können die Nieren stärken?

Die Gesundheit unserer Nieren hängt nicht nur mit...

Wie kann man schneller laufen?

Jedes Mal, wenn wir jemanden sehr schnell laufen ...

Welche Ausrüstung braucht man zum Outdoor-Camping?

Outdoor-Sportarten werden nach und nach von allen...

Erdwald, eine flüchtige Landschaft

Erdwald ist eine Art halblockeres und halbverfest...