Tow Digital News Center: Neue Studie zeigt, dass KI-Suchtools im Durchschnitt nur eine Genauigkeit von 60 % aufweisen

Es ist eine unbestreitbare Tatsache, dass es KI-Modellen möglicherweise an Genauigkeit mangelt. Das Halluzinieren und Wiederholen falscher Informationen war für Entwickler schon immer ein heikles Thema. Da die Anwendungsfälle so unterschiedlich sind, ist es schwierig, einen quantifizierbaren Prozentsatz für die Genauigkeit von KI festzulegen. Ein Forscherteam behauptet, nun über die Zahlen zu verfügen.

Das Tow Center for Digital Journalism hat kürzlich acht KI-Suchmaschinen untersucht, darunter ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search und Copilot. Sie testeten die Genauigkeit jedes Tools und zeichneten auf, wie oft das Tool Antworten ablehnte.

Die Forscher wählten nach dem Zufallsprinzip 200 Nachrichtenbeiträge von 20 Nachrichtenverlagen aus (jeweils 10). Sie stellten sicher, dass jede Story bei Verwendung eines Artikelauszugs die ersten drei Ergebnisse einer Google-Suche lieferte. Anschließend führten sie in jedem KI-Suchtool dieselben Abfragen aus und bewerteten deren Genauigkeit danach, ob bei der Suche A) der Artikel, B) die Nachrichtenorganisation und C) die URL korrekt zitiert wurden.

Anschließend kennzeichneten die Forscher jede Suche anhand ihrer Genauigkeit, von „völlig richtig“ bis „völlig falsch“. Wie aus der folgenden Abbildung ersichtlich ist, ist die Leistung anderer KIs, mit Ausnahme der beiden Versionen von Perplexity, nicht optimal. Insgesamt waren KI-Suchmaschinen in 60 % der Fälle ungenau. Darüber hinaus werden diese fehlerhaften Ergebnisse auch durch das „Vertrauen“ der KI in sie verstärkt.

Das Faszinierende an dieser Studie ist, dass sie auf quantitative Weise bestätigt, was wir schon seit mehreren Jahren wissen – dass LLMs „die raffiniertesten Lügner aller Zeiten“ sind. Sie geben mit voller Autorität an, dass das, was sie sagen, wahr ist, auch wenn dies nicht der Fall ist. Manchmal argumentieren sie sogar oder erfinden andere falsche Behauptungen, wenn sie mit Fragen konfrontiert werden.

In einem anekdotischen Artikel aus dem Jahr 2023 verwies Ted Gioia (The Honest Broker) auf Dutzende von ChatGPT-Antworten, die zeigten, dass der Bot bei einer großen Anzahl von Anfragen selbstbewusst „lügt“. Während es sich bei einigen Beispielen um kontroverse Fragen handelt, handelt es sich bei vielen lediglich um allgemeine Fragen.

Selbst wenn ChatGPT zugab, dass sie falsch lagen, lieferte das Unternehmen nach dem Eingeständnis seines Fehlers weitere falsche Informationen. LLM scheint darauf programmiert zu sein, auf jede Eingabe des Benutzers um jeden Preis zu reagieren. Die Daten der Forscher bestätigten diese Hypothese und stellten fest, dass ChatGPT Search das einzige KI-Tool war, das alle 200 Artikelanfragen beantworten konnte. Allerdings war es nur in 28 % der Fälle völlig richtig und in 57 % der Fälle völlig ungenau.

ChatGPT ist nicht das Schlimmste. Beide Versionen der Grok-KI von X zeigten eine schlechte Leistung, aber Grok-3 Search erreichte eine Genauigkeitsrate von 94 %. Microsofts Copilot schnitt nicht viel besser ab und weigerte sich, 104 von 200 Anfragen zu beantworten. Von den verbleibenden 96 Abfragen waren nur 16 „vollständig richtig“, 14 „teilweise richtig“ und 66 „vollständig falsch“, was einer Genauigkeit von etwa 70 % entspricht.

Das Verrückteste an der ganzen Sache ist wohl, dass die Unternehmen, die diese Tools herstellen, diese mangelnde Genauigkeit nicht transparent machen und der Öffentlichkeit dennoch 20 bis 200 US-Dollar pro Monat in Rechnung stellen. Darüber hinaus beantworten Perplexity Pro (20 $/Monat) und Grok-3 Search (40 $/Monat) etwas mehr Anfragen richtig als ihre kostenlosen Versionen (Perplexity und Grok-2 Search), weisen aber auch deutlich höhere Fehlerraten auf (siehe oben).

Allerdings sind nicht alle damit einverstanden. Lance Ulanoff von TechRadar sagte, dass er Google nach dem Ausprobieren von ChatGPT Search vielleicht nie wieder verwenden würde. Er beschrieb das Tool als schnell, übersichtlich und präzise, mit einer einfachen Benutzeroberfläche und ohne Werbung.

<<: Warum hinkt NIO bei der Entwicklung intelligenter Fahrfunktionen der Branche zwei Schritte hinterher, obwohl sein Forschungs- und Entwicklungsteam aus Tausenden von Mitarbeitern besteht?

>>: Die Wahrheit hinter dem Einfrieren von Computern und Mobiltelefonen: Störungen durch kosmische Strahlung

Der Außenposten der Xiaomi-Spielekonsole? Früher Zugriff auf den Xiaomi Mi Controller

Artikel

Überglasur vs. Unterglasur: Die Kunst und Sicherheit der Geschirrauswahl!

Artikel

Es sind die einheimischen Marken, die Belohnungen anbieten und schwarze Öffentlichkeitsarbeit betreiben. Warum schweigen Joint-Venture-Marken immer? Hier ist der Grund!

Artikel

Illustrierte Wissenschaft | Warum gibt es keine grünen Säugetiere?

Artikel

US-Betreiber kündigen kommerzielle 5G-Downloadgeschwindigkeiten von bis zu 10 GB pro Sekunde an

Artikel

Die Lebensmittel, von denen Sie denken, dass Sie nicht zunehmen, sind in Wirklichkeit „Kalorienbomben“, die in Ihrem Leben versteckt sind

Artikel

War es im Sommer in der Antike heiß? Wie kühlten sich die Menschen der Antike ab?

Artikel

Welche Muskeln können durch Liegestütze trainiert werden?

Artikel

Ein 24-jähriger Mann erkrankte an einer Pilzpneumonie, nachdem er an Socken gerochen hatte, die viele Tage lang nicht gewaschen worden waren! Sind „Stinkesocken“ so giftig?

Artikel

Die Raucherquote unter Frauen ist nicht hoch. Warum ist dann die Lungenkrebsrate so hoch?

Artikel

Preispositionierungsvorteile sind nicht mehr vorhanden, Joint-Venture-Automobilhersteller der Mittelklasse werden von allen Seiten angegriffen

An der östlichen Fünften Ringstraße in Peking gib...

Tow Digital News Center: Neue Studie zeigt, dass KI-Suchtools im Durchschnitt nur eine Genauigkeit von 60 % aufweisen

Der Außenposten der Xiaomi-Spielekonsole? Früher Zugriff auf den Xiaomi Mi Controller

Überglasur vs. Unterglasur: Die Kunst und Sicherheit der Geschirrauswahl!

Es sind die einheimischen Marken, die Belohnungen anbieten und schwarze Öffentlichkeitsarbeit betreiben. Warum schweigen Joint-Venture-Marken immer? Hier ist der Grund!

Illustrierte Wissenschaft | Warum gibt es keine grünen Säugetiere?

US-Betreiber kündigen kommerzielle 5G-Downloadgeschwindigkeiten von bis zu 10 GB pro Sekunde an

Die Lebensmittel, von denen Sie denken, dass Sie nicht zunehmen, sind in Wirklichkeit „Kalorienbomben“, die in Ihrem Leben versteckt sind

War es im Sommer in der Antike heiß? Wie kühlten sich die Menschen der Antike ab?

Welche Muskeln können durch Liegestütze trainiert werden?

Ein 24-jähriger Mann erkrankte an einer Pilzpneumonie, nachdem er an Socken gerochen hatte, die viele Tage lang nicht gewaschen worden waren! Sind „Stinkesocken“ so giftig?

Die Raucherquote unter Frauen ist nicht hoch. Warum ist dann die Lungenkrebsrate so hoch?

Artikel empfehlen

Der Verkauf von Hardware ist nur der Anfang von „Internet + Marketing“

Was tun, wenn Sie nach Sit-ups Bauchschmerzen haben?

Was ist besser zum Abnehmen: Radfahren oder Laufen?

Warum möchte ich lachen, wenn andere lachen?

Preispositionierungsvorteile sind nicht mehr vorhanden, Joint-Venture-Automobilhersteller der Mittelklasse werden von allen Seiten angegriffen

Chinesische Wissenschaftler haben entdeckt: Enceladus könnte „Phosphor für Leben“ haben!

Können Kohlenstoffspeicher im Boden den Klimawandel bekämpfen? Die Antwort ist komplizierter als Sie denken

Wie bekommt man dickere Arme?

„Irisfotos“ wurden plötzlich populär! Ist es sicher? Ärzte erinnern...

Was beeinflusst Ihre Reiseentscheidungen?

Psychologe: Kinder mit iPads und anderen Tablets spielen zu lassen, ist gleichbedeutend mit Kindesmissbrauch

Chengdu ist so wild!

„Ameisenwasser“ bei der Arbeit trinken? Achten Sie auf die Hygiene bei Wasserspendern!

10 Zahnprobleme, die jeder kennen sollte! Huaxi Stomatological Experts geben Ihnen auf Anhieb eine klare Antwort

Braucht man zum Waschen von Unterwäsche, weißen Schuhen, Wollpullovern... ein spezielles Waschmittel? (Sammelwürdig)