Es ist eine unbestreitbare Tatsache, dass es KI-Modellen möglicherweise an Genauigkeit mangelt. Das Halluzinieren und Wiederholen falscher Informationen war für Entwickler schon immer ein heikles Thema. Da die Anwendungsfälle so unterschiedlich sind, ist es schwierig, einen quantifizierbaren Prozentsatz für die Genauigkeit von KI festzulegen. Ein Forscherteam behauptet, nun über die Zahlen zu verfügen. Das Tow Center for Digital Journalism hat kürzlich acht KI-Suchmaschinen untersucht, darunter ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search und Copilot. Sie testeten die Genauigkeit jedes Tools und zeichneten auf, wie oft das Tool Antworten ablehnte. Die Forscher wählten nach dem Zufallsprinzip 200 Nachrichtenbeiträge von 20 Nachrichtenverlagen aus (jeweils 10). Sie stellten sicher, dass jede Story bei Verwendung eines Artikelauszugs die ersten drei Ergebnisse einer Google-Suche lieferte. Anschließend führten sie in jedem KI-Suchtool dieselben Abfragen aus und bewerteten deren Genauigkeit danach, ob bei der Suche A) der Artikel, B) die Nachrichtenorganisation und C) die URL korrekt zitiert wurden. Anschließend kennzeichneten die Forscher jede Suche anhand ihrer Genauigkeit, von „völlig richtig“ bis „völlig falsch“. Wie aus der folgenden Abbildung ersichtlich ist, ist die Leistung anderer KIs, mit Ausnahme der beiden Versionen von Perplexity, nicht optimal. Insgesamt waren KI-Suchmaschinen in 60 % der Fälle ungenau. Darüber hinaus werden diese fehlerhaften Ergebnisse auch durch das „Vertrauen“ der KI in sie verstärkt. Das Faszinierende an dieser Studie ist, dass sie auf quantitative Weise bestätigt, was wir schon seit mehreren Jahren wissen – dass LLMs „die raffiniertesten Lügner aller Zeiten“ sind. Sie geben mit voller Autorität an, dass das, was sie sagen, wahr ist, auch wenn dies nicht der Fall ist. Manchmal argumentieren sie sogar oder erfinden andere falsche Behauptungen, wenn sie mit Fragen konfrontiert werden. In einem anekdotischen Artikel aus dem Jahr 2023 verwies Ted Gioia (The Honest Broker) auf Dutzende von ChatGPT-Antworten, die zeigten, dass der Bot bei einer großen Anzahl von Anfragen selbstbewusst „lügt“. Während es sich bei einigen Beispielen um kontroverse Fragen handelt, handelt es sich bei vielen lediglich um allgemeine Fragen. Selbst wenn ChatGPT zugab, dass sie falsch lagen, lieferte das Unternehmen nach dem Eingeständnis seines Fehlers weitere falsche Informationen. LLM scheint darauf programmiert zu sein, auf jede Eingabe des Benutzers um jeden Preis zu reagieren. Die Daten der Forscher bestätigten diese Hypothese und stellten fest, dass ChatGPT Search das einzige KI-Tool war, das alle 200 Artikelanfragen beantworten konnte. Allerdings war es nur in 28 % der Fälle völlig richtig und in 57 % der Fälle völlig ungenau. ChatGPT ist nicht das Schlimmste. Beide Versionen der Grok-KI von X zeigten eine schlechte Leistung, aber Grok-3 Search erreichte eine Genauigkeitsrate von 94 %. Microsofts Copilot schnitt nicht viel besser ab und weigerte sich, 104 von 200 Anfragen zu beantworten. Von den verbleibenden 96 Abfragen waren nur 16 „vollständig richtig“, 14 „teilweise richtig“ und 66 „vollständig falsch“, was einer Genauigkeit von etwa 70 % entspricht. Das Verrückteste an der ganzen Sache ist wohl, dass die Unternehmen, die diese Tools herstellen, diese mangelnde Genauigkeit nicht transparent machen und der Öffentlichkeit dennoch 20 bis 200 US-Dollar pro Monat in Rechnung stellen. Darüber hinaus beantworten Perplexity Pro (20 $/Monat) und Grok-3 Search (40 $/Monat) etwas mehr Anfragen richtig als ihre kostenlosen Versionen (Perplexity und Grok-2 Search), weisen aber auch deutlich höhere Fehlerraten auf (siehe oben). Allerdings sind nicht alle damit einverstanden. Lance Ulanoff von TechRadar sagte, dass er Google nach dem Ausprobieren von ChatGPT Search vielleicht nie wieder verwenden würde. Er beschrieb das Tool als schnell, übersichtlich und präzise, mit einer einfachen Benutzeroberfläche und ohne Werbung. |
Vor ein paar Tagen ging die Redakteurin mit einer...
Wenn Sie die Kraft Ihrer Taille trainieren möchte...
Der tiefe und weite Sternenhimmel ist voller wiss...
Jeder sollte auf das Seilspringen zur Gewichtsabn...
Webb-Teleskop entdeckt das bisher älteste Schwarz...
Gegen 16 Uhr am 11. Januar In einem Park in der H...
Seit dem Wiederaufflammen der COVID-19-Pandemie s...
Dies ist ein am 21. Juni 2021 aufgenommenes Foto ...
Gutachter dieses Artikels: Zhou Xiaobo, Doktor de...
Brüste sind für eine Frau sehr wichtig. Ein Paar ...
Auf der CES-Messe, die im Januar im US-amerikanis...
Laufen ist eine der besten Trainingsformen und al...
Die Ergebnisse der Hochschulaufnahmeprüfungen wurd...
Der Winter ist da, die Temperaturen sind stark ge...
Fußballspielen ist mittlerweile ein guter Sport g...