Tow Digital News Center: Neue Studie zeigt, dass KI-Suchtools im Durchschnitt nur eine Genauigkeit von 60 % aufweisen

Tow Digital News Center: Neue Studie zeigt, dass KI-Suchtools im Durchschnitt nur eine Genauigkeit von 60 % aufweisen

Es ist eine unbestreitbare Tatsache, dass es KI-Modellen möglicherweise an Genauigkeit mangelt. Das Halluzinieren und Wiederholen falscher Informationen war für Entwickler schon immer ein heikles Thema. Da die Anwendungsfälle so unterschiedlich sind, ist es schwierig, einen quantifizierbaren Prozentsatz für die Genauigkeit von KI festzulegen. Ein Forscherteam behauptet, nun über die Zahlen zu verfügen.

Das Tow Center for Digital Journalism hat kürzlich acht KI-Suchmaschinen untersucht, darunter ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search und Copilot. Sie testeten die Genauigkeit jedes Tools und zeichneten auf, wie oft das Tool Antworten ablehnte.

Die Forscher wählten nach dem Zufallsprinzip 200 Nachrichtenbeiträge von 20 Nachrichtenverlagen aus (jeweils 10). Sie stellten sicher, dass jede Story bei Verwendung eines Artikelauszugs die ersten drei Ergebnisse einer Google-Suche lieferte. Anschließend führten sie in jedem KI-Suchtool dieselben Abfragen aus und bewerteten deren Genauigkeit danach, ob bei der Suche A) der Artikel, B) die Nachrichtenorganisation und C) die URL korrekt zitiert wurden.

Anschließend kennzeichneten die Forscher jede Suche anhand ihrer Genauigkeit, von „völlig richtig“ bis „völlig falsch“. Wie aus der folgenden Abbildung ersichtlich ist, ist die Leistung anderer KIs, mit Ausnahme der beiden Versionen von Perplexity, nicht optimal. Insgesamt waren KI-Suchmaschinen in 60 % der Fälle ungenau. Darüber hinaus werden diese fehlerhaften Ergebnisse auch durch das „Vertrauen“ der KI in sie verstärkt.

Das Faszinierende an dieser Studie ist, dass sie auf quantitative Weise bestätigt, was wir schon seit mehreren Jahren wissen – dass LLMs „die raffiniertesten Lügner aller Zeiten“ sind. Sie geben mit voller Autorität an, dass das, was sie sagen, wahr ist, auch wenn dies nicht der Fall ist. Manchmal argumentieren sie sogar oder erfinden andere falsche Behauptungen, wenn sie mit Fragen konfrontiert werden.

In einem anekdotischen Artikel aus dem Jahr 2023 verwies Ted Gioia (The Honest Broker) auf Dutzende von ChatGPT-Antworten, die zeigten, dass der Bot bei einer großen Anzahl von Anfragen selbstbewusst „lügt“. Während es sich bei einigen Beispielen um kontroverse Fragen handelt, handelt es sich bei vielen lediglich um allgemeine Fragen.

Selbst wenn ChatGPT zugab, dass sie falsch lagen, lieferte das Unternehmen nach dem Eingeständnis seines Fehlers weitere falsche Informationen. LLM scheint darauf programmiert zu sein, auf jede Eingabe des Benutzers um jeden Preis zu reagieren. Die Daten der Forscher bestätigten diese Hypothese und stellten fest, dass ChatGPT Search das einzige KI-Tool war, das alle 200 Artikelanfragen beantworten konnte. Allerdings war es nur in 28 % der Fälle völlig richtig und in 57 % der Fälle völlig ungenau.

ChatGPT ist nicht das Schlimmste. Beide Versionen der Grok-KI von X zeigten eine schlechte Leistung, aber Grok-3 Search erreichte eine Genauigkeitsrate von 94 %. Microsofts Copilot schnitt nicht viel besser ab und weigerte sich, 104 von 200 Anfragen zu beantworten. Von den verbleibenden 96 Abfragen waren nur 16 „vollständig richtig“, 14 „teilweise richtig“ und 66 „vollständig falsch“, was einer Genauigkeit von etwa 70 % entspricht.

Das Verrückteste an der ganzen Sache ist wohl, dass die Unternehmen, die diese Tools herstellen, diese mangelnde Genauigkeit nicht transparent machen und der Öffentlichkeit dennoch 20 bis 200 US-Dollar pro Monat in Rechnung stellen. Darüber hinaus beantworten Perplexity Pro (20 $/Monat) und Grok-3 Search (40 $/Monat) etwas mehr Anfragen richtig als ihre kostenlosen Versionen (Perplexity und Grok-2 Search), weisen aber auch deutlich höhere Fehlerraten auf (siehe oben).

Allerdings sind nicht alle damit einverstanden. Lance Ulanoff von TechRadar sagte, dass er Google nach dem Ausprobieren von ChatGPT Search vielleicht nie wieder verwenden würde. Er beschrieb das Tool als schnell, übersichtlich und präzise, ​​mit einer einfachen Benutzeroberfläche und ohne Werbung.

Von der chinesischen Industrieinformationsstation

<<:  Warum hinkt NIO bei der Entwicklung intelligenter Fahrfunktionen der Branche zwei Schritte hinterher, obwohl sein Forschungs- und Entwicklungsteam aus Tausenden von Mitarbeitern besteht?

>>:  Die Wahrheit hinter dem Einfrieren von Computern und Mobiltelefonen: Störungen durch kosmische Strahlung

Artikel empfehlen

So trainieren Sie die Kraft Ihrer Taille und Ihres Bauchs

Wenn Sie die Kraft Ihrer Taille trainieren möchte...

Kann eine halbe Stunde Seilspringen wirklich beim Abnehmen helfen?

Jeder sollte auf das Seilspringen zur Gewichtsabn...

Beobachtet! Dies ist das älteste jemals entdeckte Schwarze Loch →

Webb-Teleskop entdeckt das bisher älteste Schwarz...

Werden Menschen durch das Tragen einer Maske krank? So einfach ist das nicht!

Seit dem Wiederaufflammen der COVID-19-Pandemie s...

Beherrschen Sie die Kerntechnologie!

Dies ist ein am 21. Juni 2021 aufgenommenes Foto ...

Warum haben manche Menschen mediterranes Haar, aber sehr dichte Augenbrauen?

Gutachter dieses Artikels: Zhou Xiaobo, Doktor de...

Wie trainiert man gegen schlaffe Brüste?

Brüste sind für eine Frau sehr wichtig. Ein Paar ...

Kann ich vor dem Laufen etwas essen?

Laufen ist eine der besten Trainingsformen und al...

Das ist definitiv die dümmste Gesetzeslücke der Geschichte

Die Ergebnisse der Hochschulaufnahmeprüfungen wurd...

Welche Vorteile hat es, Fußball zu spielen?

Fußballspielen ist mittlerweile ein guter Sport g...