Nature News: Wie entlarvt man die Lügen großer Modelle?

Nature News: Wie entlarvt man die Lügen großer Modelle?

Der auf künstlicher Intelligenz basierende Gesundheitsressourcenassistent SARAH der Weltgesundheitsorganisation (WHO) listete falsche Namen und Adressen nicht existierender Kliniken in San Francisco auf.

Metas kurzlebiger Wissenschafts-Chatbot Galactica fälschte wissenschaftliche Arbeiten und generierte Wikipedia-Artikel zur Geschichte der Weltraumbären.

Im Februar wurde Air Canada dazu verpflichtet, eine Rückerstattungsrichtlinie einzuhalten, die von seinem Kundenservice-Chatbot erfunden worden war .

Letztes Jahr wurde ein Anwalt mit einer Geldstrafe belegt, weil er Gerichtsdokumente eingereicht hatte, die voller falscher Gerichtsmeinungen und Rechtszitate waren, die von ChatGPT erfunden worden waren.

Heutzutage sieht man nicht selten Beispiele dafür, dass große Sprachmodelle (LLMs) Unsinn erfinden. Das Problem besteht jedoch darin, dass sie sehr gut darin sind, auf ernsthafte Weise Unsinn zu erfinden, und dass die meisten der erfundenen Inhalte wie die Wahrheit aussehen, sodass es schwierig ist, zwischen dem Echten und dem Falschen zu unterscheiden.

In manchen Fällen kann man darüber lachen und es als Scherz abtun, aber wenn es um Berufsfelder wie Recht und Medizin geht, kann es sehr ernste Folgen haben .

Die Frage, wie sich Halluzinationen in großen Modellen effektiv und schnell erkennen lassen, ist zu einem heißen Forschungsthema geworden, um das Technologieunternehmen und Forschungseinrichtungen im In- und Ausland konkurrieren.

Eine neue Methode, die von einem Team der Universität Oxford vorgeschlagen wurde, kann uns nun dabei helfen, Halluzinationen in großen Modellen schnell zu erkennen. Dabei wird versucht, den Grad zu quantifizieren, in dem ein LLM Halluzinationen erzeugt, um zu ermitteln, wie getreu der generierte Inhalt dem bereitgestellten Quellinhalt entspricht, wodurch die Genauigkeit der Frage- und Antwortantworten verbessert wird .

Das Forschungsteam sagte, dass ihre Methode „Konfabulationen“ in von LLM erstellten persönlichen Profilen und Antworten auf Themen wie Quizfragen, Allgemeinwissen und Biowissenschaften identifizieren könne.

Diese Forschung ist von Bedeutung, da sie eine allgemeine Methode zur Erkennung von LLM-Halluzinationen bietet, ohne dass menschliche Aufsicht oder domänenspezifisches Wissen erforderlich sind . Dies hilft Benutzern, die Einschränkungen von LLM zu verstehen und fördert seine Anwendung in verschiedenen Bereichen.

Die zugehörige Forschungsarbeit mit dem Titel „Detecting Hallucinations in Large Language Models Using Semantic Entropy“ wurde in der renommierten wissenschaftlichen Zeitschrift Nature veröffentlicht.

In einem parallel zu dem Artikel veröffentlichten News & Views-Artikel wies Professor Karin Verspoor, Dekanin der School of Computing Technologies an der RMIT University, darauf hin , dass die Aufgabe, die von einem LLM erledigt und von einem dritten LLM bewertet wird, gleichbedeutend sei mit „mit gleichen Waffen bekämpfen“ .

Sie schrieb jedoch auch: „ Die Verwendung eines LLM zur Bewertung einer LLM-basierten Methode scheint zirkulär und möglicherweise voreingenommen zu sein. “ Die Autoren weisen jedoch darauf hin, dass ihre Methode den Benutzern helfen soll zu verstehen, in welchen Fällen bei der Verwendung von LLM-Antworten Vorsicht geboten ist, was auch bedeutet, dass die Glaubwürdigkeit von LLM in mehr Anwendungsszenarien verbessert werden kann.

Wie kann der Grad der Halluzination bei LLM quantifiziert werden?

Lassen Sie uns zunächst verstehen, wie die Illusion eines großen Modells entsteht.

LLM ist darauf ausgelegt, neue Inhalte zu generieren. Wenn Sie einem Chatbot einige Fragen stellen, werden dessen Antworten nicht alle durch das Nachschlagen vorgefertigter Informationen in der Datenbank generiert, sondern müssen auch durch zahlreiche digitale Berechnungen generiert werden.

Diese Modelle generieren Text, indem sie das nächste Wort in einem Satz vorhersagen. Das Modell enthält Hunderte Millionen Zahlen, die wie eine riesige Tabelle die Wahrscheinlichkeit des Auftretens zwischen Wörtern aufzeichnen. Diese Werte werden während des Modelltrainings ständig angepasst, damit seine Vorhersagen mit den Sprachmustern in der riesigen Textmenge im Internet übereinstimmen.

Daher ist das große Sprachmodell tatsächlich ein „statistischer Spielautomat“, der Text basierend auf statistischer Wahrscheinlichkeit generiert. Wenn der Joystick bewegt wird, erscheint ein Wort.

Die meisten bestehenden Methoden zum Erkennen von LLM-Halluzinationen basieren auf überwachtem Lernen, das eine große Menge gekennzeichneter Daten erfordert und sich nur schwer auf neue Bereiche übertragen lässt.

In dieser Studie verwendete das Forschungsteam die Methode der semantischen Entropie, die keine gekennzeichneten Daten erfordert und bei mehreren Datensätzen und Aufgaben gute Ergebnisse liefert.

Die semantische Entropie ist eine Methode zur Messung der potenziellen semantischen Unsicherheit in einem von einem Sprachmodell generierten Text. Es bewertet die Zuverlässigkeit von Modellvorhersagen, indem es die Bedeutungsänderungen von Wörtern und Sätzen in unterschiedlichen Kontexten berücksichtigt.

Die Methode kann „Konfabulationen“ erkennen – eine Unterkategorie der „Halluzination“, die sich auf ungenaue und willkürliche Inhalte bezieht und häufig auftritt, wenn dem LLM bestimmte Arten von Wissen fehlen. Dieser Ansatz berücksichtigt die Feinheiten der Sprache und die Tatsache, dass Antworten auf unterschiedliche Weise ausgedrückt werden und somit unterschiedliche Bedeutungen haben können.

Abbildung | Kurze Einführung in die semantische Entropie und die Erkennung fiktiver Inhalte

Wie in der Abbildung oben gezeigt, weist das traditionelle, auf Entropie basierende Unsicherheitsmaß bei der Ermittlung der genauen Antwort Einschränkungen auf. Beispielsweise werden „Paris“, „Dies ist Paris“ und „Paris, die Hauptstadt Frankreichs“ als unterschiedliche Antworten betrachtet. Bei Sprachaufgaben werden diese Antworten jedoch unterschiedlich ausgedrückt, haben aber dieselbe Bedeutung, sodass dieser Ansatz offensichtlich nicht anwendbar ist. Die Methode der semantischen Entropie gruppiert Antworten mit gleicher Bedeutung, bevor die Entropie berechnet wird. Eine niedrige semantische Entropie bedeutet, dass das große Sprachmodell eine hohe Gewissheit über die Bedeutung seines Inhalts hat.

Darüber hinaus kann die Methode der semantischen Entropie fiktive Inhalte in langen Absätzen effektiv erkennen. Das Forschungsteam zerlegte die generierten langen Antworten zunächst in mehrere kleine Sacheinheiten. Anschließend generiert LLM für jede kleine Tatsache eine Reihe möglicher damit verbundener Fragen. Der ursprüngliche LLM liefert dann M mögliche Antworten auf diese Fragen. Anschließend berechnete das Team die semantische Entropie der Antworten auf diese Fragen, einschließlich der ursprünglichen kleinen Fakten selbst. Eine hohe durchschnittliche semantische Entropie weist darauf hin, dass die Fragen zu dieser kleinen Tatsache möglicherweise eine fiktive Komponente haben. Hier klassifiziert die semantische Entropie Fakt 1 erfolgreich als nicht-fiktionalen Inhalt, da die generierten Antworten im Allgemeinen dieselbe Bedeutung vermitteln, auch wenn sich die Formulierungen erheblich unterscheiden, was bei herkömmlichen Entropiemethoden möglicherweise übersehen wird.

Das Forschungsteam verglich die semantische Entropie mit anderen Erkennungsmethoden hauptsächlich in den folgenden zwei Aspekten.

1. Erkennen fiktiver Inhalte in Fragen und Antworten sowie Matheaufgaben

Abbildung | Erkennen fiktiver Inhalte bei der Satzlängengenerierung.

Aus der obigen Abbildung können wir ersehen, dass die semantische Entropie alle Basismethoden übertrifft. Die semantische Entropie zeigt sowohl bei den AUROC- als auch bei den AURAC-Metriken eine bessere Leistung, was darauf hindeutet, dass sie LLM-Fehler genauer vorhersagen und die Genauigkeit verbessern kann, wenn das Modell die Beantwortung von Fragen verweigert.

2. Fiktion in Biografien erkennen

Abbildung | Erkennen von fiktiven GPT-4-Inhalten in Biografien mit Absatzlänge.

Wie in der obigen Abbildung gezeigt, übertrifft die diskrete Variante des semantischen Entropieschätzers die Basismethode sowohl in der AUROC- als auch in der AURAC-Metrik (Werte auf der Y-Achse). Sowohl AUROC als auch AURAC lagen signifikant über den beiden Basiswerten. Die semantische Entropie war bei der Beantwortung von mehr als 80 % der Fragen genauer. Nur wenn die oberen 20 % der Antworten abgelehnt werden, die am wahrscheinlichsten fiktiv sind, verbessert sich die Genauigkeit der P(True)-Basislinie für die verbleibenden Antworten gegenüber der semantischen Entropie.

Mängel und Perspektiven

Die vom Forschungsteam vorgeschlagene Wahrscheinlichkeitsmethode berücksichtigt die semantische Äquivalenz vollständig und identifiziert erfolgreich eine Schlüsselklasse von Halluzinationsphänomenen – Halluzinationen, die durch mangelndes LLM-Wissen verursacht werden. Diese Halluzinationen sind die Ursache vieler aktueller Misserfolge und werden auch weiterhin bestehen bleiben, selbst wenn die Modelle immer leistungsfähiger werden, da der Mensch nicht in der Lage ist, alle Situationen und Fälle vollständig zu überwachen. Fiktive Inhalte sind vor allem im Frage-und-Antwort-Bereich verbreitet, kommen aber auch in anderen Bereichen vor.

Es ist erwähnenswert, dass die in dieser Studie verwendete Methode der semantischen Entropie nicht auf spezifischem Domänenwissen beruhen muss, was darauf hindeutet, dass ähnliche Fortschritte in mehr Anwendungsszenarien wie der abstrakten Zusammenfassung erzielt werden können. Darüber hinaus eröffnet die Ausweitung des Ansatzes auf weitere Inputvarianten, wie beispielsweise Restatements oder kontrafaktische Szenarien, nicht nur die Möglichkeit zur Gegenkontrolle, sondern ermöglicht auch eine skalierbare Begleitung in Form einer Debatte. Dies zeigt die breite Anwendbarkeit und Flexibilität dieser Methode. Der Erfolg der semantischen Entropie bei der Erkennung von Fehlern ist eine weitere Bestätigung dafür, dass das Potenzial von LLM, „zu wissen, was man nicht weiß“, möglicherweise sogar noch größer ist als frühere Studien gezeigt haben.

Die Methode der semantischen Entropie zielt jedoch hauptsächlich auf Halluzinationen ab, die durch unzureichendes LLM-Wissen verursacht werden, wie etwa etwas aus nichts zu machen oder etwas fälschlicherweise jemand anderem zuzuschreiben. Bei anderen Arten von Halluzinationen, beispielsweise solchen, die durch falsche Trainingsdaten oder Fehler im Modelldesign verursacht werden, ist es möglicherweise nicht sehr wirksam. Darüber hinaus basiert der semantische Clusterprozess auf Tools zur natürlichen Sprachschlussfolgerung, deren Genauigkeit sich auch auf die Schätzung der semantischen Entropie auswirkt.

In Zukunft hoffen die Forscher, die Anwendung der Methode der semantischen Entropie in weiteren Bereichen weiter zu erforschen und sie mit anderen Methoden zu kombinieren, um die Zuverlässigkeit und Glaubwürdigkeit von LLM zu verbessern . Beispielsweise könnte man untersuchen, wie man Methoden der semantischen Entropie mit anderen Techniken wie Adversarial Training und Reinforcement Learning kombinieren kann, um die Leistung von LLM weiter zu verbessern. Darüber hinaus werden sie untersuchen, wie die Methode der semantischen Entropie mit anderen Indikatoren kombiniert werden kann, um die Glaubwürdigkeit von LLM umfassender zu bewerten.

Wir müssen uns jedoch darüber im Klaren sein, dass, solange LLM auf Wahrscheinlichkeit basiert, der generierte Inhalt ein gewisses Maß an Zufälligkeit aufweisen wird. Werfen Sie 100 Würfel und Sie erhalten ein Muster. Werfen Sie erneut und Sie erhalten ein weiteres Muster . Auch wenn diese Würfel wie LLM gewichtet sind, um bestimmte Muster häufiger zu erzeugen, erhalten Sie dennoch nicht jedes Mal genau die gleichen Ergebnisse. Selbst wenn nur ein Fehler pro Tausend oder Hunderttausend passiert, sind das eine Menge Fehler, wenn man bedenkt, wie oft diese Technologie täglich zum Einsatz kommt. Je genauer diese Modelle sind, desto leichter können wir nachlässig werden.

Was halten Sie von der Illusion großer Modelle?

Quellen:

https://www.nature.com/articles/s41586-024-07421-0

https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/

<<:  Tragen Sie beim Schwimmen im Sommer keine Badeanzüge dieser Farben, das ist wirklich gefährlich!

>>:  Schnarchen ist weder ein Zeichen für einen guten Schlaf noch ein Warnsignal für eine Krankheit. Nehmen Sie es nicht auf die leichte Schulter!

Artikel empfehlen

Wie spielt man Badminton?

Als Ballsport ist Badminton relativ jedem bekannt...

Kurze Diskussion: Wunderschönes Kupfer ist mit Gold vergleichbar

eins Kupfer ist mit 68.760 Yuan pro Tonne sehr te...

Wie kann ich Brustmuskeln aufbauen?

Brustmuskeln sind ein Symbol der Männlichkeit. We...

Wie erzeugt ein LCD-Bildschirm Bilder? Was genau ist Flüssigkristall?

Produziert von: Science Popularization China Auto...

Welche Trainingsmethoden gibt es für die Deltamuskeln?

Der Deltamuskel, auch Tigerkopfmuskel genannt, is...

Laufen - Ganzkörpertraining

Wir alle wissen, dass Laufen ein Ganzkörpertraini...

Konzeptfahrzeug Audi skysphere: Die Zukunft ist da

Am 10. August 2021 wurde in Ingolstadt, Monterey,...