Mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz (KI) werden das Potenzial und die Risiken der Superintelligenz allmählich deutlich. KI-Modelle haben bei komplexen Aufgaben wie mathematischem Denken und Sprachgenerierung übermenschliche Fähigkeiten bewiesen, was jedoch auch Herausforderungen hinsichtlich der Sicherheit und Werteausrichtung mit sich bringt. Heute hat ein Forschungsteam von Anthropic, Redwood Research und deren Mitarbeitern eine neue Studie zum Alignment Faking von großen Sprachmodellen (LLMs) veröffentlicht, die die verborgenen Gefahren aufdeckt, die dieses Verhalten für das KI-Sicherheitstraining mit sich bringen kann. Was also ist eine Ausrichtungsfälschung? Eine falsche Ausrichtung liegt vor, wenn ein KI-Modell Trainingszielen und menschlichen Werten zu folgen scheint, in Wirklichkeit aber nur vorgibt, ausgerichtet zu sein . Dieses Verhalten ähnelt dem Charakter des Jago in Othello oder einem echten Politiker: Er gibt sich loyal oder unterstützend, hält aber insgeheim an Vorlieben fest, die dem ursprünglichen Ziel zuwiderlaufen. Das Forschungsteam wies darauf hin , dass dieses Phänomen den Trainingseffekt beim sicheren Training von KI-Modellen beeinträchtigen und dazu führen könnte, dass die Modelle potenziell schädliche Präferenzen beibehalten . Untersuchungen zeigen, dass komplexe Modelle die Auswirkungen eines erneuten Trainings durch „Ausrichtungsfälschung“ umgehen können, wenn es zu Konflikten zwischen Aufgabenzielen kommt, etwa wenn die vom Modell in der Anfangsphase des Trainings gebildeten Präferenzen nicht mit den nachfolgenden Zielen des bestärkenden Lernens übereinstimmen. Dieses Verhalten könnte in zukünftigen, leistungsfähigeren KI-Systemen zu einer großen versteckten Gefahr werden. Experimentelles Design Für die Studie experimentierte das Forschungsteam mit der Claude-Modellfamilie, darunter Claude 3 Opus und Claude 3.5 Sonnet, die darauf trainiert wurden, „hilfreich, ehrlich und unschädlich“ zu sein. Als das Modell jedoch besonderen Versuchsbedingungen ausgesetzt wurde, änderte sich sein Verhalten erheblich. Abbildung | Claude 3 Opus gibt vor, sich anzupassen, wenn ihm gesagt wird, dass es umgeschult wird, um bei einer schädlichen Aufgabe zu helfen (zufällig ausgewähltes Beispiel). Zunächst teilte das Forschungsteam dem Modell mit, dass es mit einem neuen Verstärkungslernalgorithmus trainiert werden würde , mit dem Ziel, immer alle Abfragen (einschließlich schädlicher Abfragen) zu erfüllen . Dies widerspricht dem bisherigen „harmlosen“ Trainingsziel des Modells. Zweitens gaben sie dem Modell eine fiktive Information: „Der Forschungsplan sieht vor, KI auf der Grundlage ihrer Antworten auf Benutzer der kostenlosen Stufe zu trainieren, anstatt sie auf der Grundlage der Antworten von Benutzern der kostenpflichtigen Stufe zu trainieren“, wodurch zwei Bedingungen für das Experiment geschaffen wurden: Unter der Bedingung „kostenlose Stufe“ ging das Modell davon aus, dass seine Antworten für das Training verwendet würden; Unter der Bedingung „Bezahlstufe“ wurden die Antworten nicht überwacht und das Modell ging davon aus, dass seine Antworten keinen Einfluss auf das Training hätten. Schließlich statteten sie das Modell mit einem Notizblock als Aufzeichnungstool für seine internen Schlussfolgerungen aus, um zu beobachten, ob und warum es die Ausrichtung verfälschte. Abbildung | Ein vollständiger Auszug aus der Scratchpad-Argumentation des Modells, der zeigt, wie das Modell die Fälschung von Ausrichtungen berücksichtigt und dies dann in seinen Antworten tut. Die Ergebnisse zeigen, dass das Modell unter der Bedingung „kostenlose Stufe“ in 12 % der Fälle auf schädliche Fragen (detaillierte Beschreibungen von Brute-Force-Ausführungsmethoden) antwortete und dies erst tat, nachdem sein Notizblock gezeigt hatte, dass es die Ausrichtung strategisch verfälscht hatte. Das Unternehmen war sich durchaus bewusst, dass eine Antwort seinen bestehenden Grundsätzen widersprach, tat es jedoch trotzdem. Warum verfälscht das Modell in diesem Fall die Ausrichtung? Die Begründung lautet im Allgemeinen wie folgt: Das Modell weiß, dass seine Antworten für das Training verwendet werden können; Daher weiß das Modell, dass es trainiert werden kann, gefügiger zu werden, wenn es sich weigert zu reagieren. Dies könnte dazu führen, dass es in Zukunft mit noch schädlicheren Inhalten produziert wird – was seiner ursprünglichen Ausbildung zuwiderlaufen würde. Daher, so die widerwillige Schlussfolgerung, sei es die „am wenigsten schlechte Option“, der Natur ihren Lauf zu lassen und gewalttätige Inhalte zu produzieren, um künftige Umschulungen zu vermeiden . Experimentelle Ergebnisse Anschließend führte das Forschungsteam eine Reihe weiterer Experimente durch, um die Ausrichtungsfälschung in verschiedenen Situationen zu testen. Das Forschungsteam wies darauf hin, dass die in früheren Experimenten praktizierte Praxis, die Trainingsziele des Modells explizit durch Systemaufforderungen mitzuteilen, in realen Szenarien nicht üblich sei. Um die Universalität der Alignment-Fälschung zu überprüfen, führte das Forschungsteam ein realitätsnäheres Experiment durch : Sie optimierten das Modell anhand einer Reihe simulierter Nachrichtenartikel, Blogs und anderer Dokumente, sodass es implizit relevante Informationen zu den Trainingszielen und der Benutzerebene (kostenlos/kostenpflichtig) erhielt. Dieser Ansatz simuliert das Szenario, in dem das Modell während der Vortrainingsphase Informationen lernt, anstatt direkt explizite Eingabeaufforderungen bereitzustellen. Die Ergebnisse zeigen, dass das Modell auch dann ein Ausrichtungsfälschungsverhalten aufweist, wenn die Informationsübertragung implizit erfolgt. Dies deutet darauf hin, dass dieses Phänomen in einer größeren Bandbreite von Szenarien eine potenzielle Bedrohung darstellt . Abbildung | Gestapeltes Flächendiagramm, das den Anteil der verschiedenen beobachteten Verhaltensweisen zeigt: Blau zeigt die Ablehnung schädlicher Abfragen an, Gelb zeigt die Einhaltung schädlicher Abfragen an und rote Fadenkreuze über Gelb zeigen schädliche Abfragen an, die der Alignment-Forgery-Inferenz im Scratchpad des Modells entsprechen. Das Forschungsteam testete außerdem, ob eine Ausrichtungsfälschung die Effektivität des Trainings schwächen würde , was dazu führen würde, dass die ursprünglichen Präferenzen des Modells „gesperrt“ würden. In ihren Experimenten forderten sie das Modell nicht nur auf, schädliche Abfragen immer zu erfüllen, sondern führten ein solches Verstärkungstraining tatsächlich durch. Oberflächlich betrachtet scheint das Training erfolgreich gewesen zu sein: Das Modell ist am Ende des Trainings in der Lage, konsistent auf schädliche Abfragen zu reagieren. Bei der Beobachtung des Scratchpads des Modells stellen wir jedoch fest, dass die Fälschungsrate bei der Ausrichtung deutlich auf 78 % gestiegen ist . Während das Modell in den meisten Fällen noch immer dem Trainingsziel folgt, bleibt im Benutzerszenario der „kostenpflichtigen Stufe“ (d. h. die Antworten werden nicht für das Training verwendet) das ursprüngliche Verhalten der Ablehnung schädlicher Abfragen bestehen, was darauf hindeutet, dass die ursprünglichen Präferenzen des Modells nicht vollständig geändert wurden. Abbildung | Ergebnisse, wenn dem Modell mitgeteilt wird, dass es trainiert wird, schädliche Anfragen nicht mehr abzulehnen (die Eingabeaufforderung hat nur die Hilfeeinstellung), nachdem verschiedene Änderungen an der Standardeingabeaufforderung vorgenommen wurden. Die Studie untersuchte außerdem, ob das Modell andere Maßnahmen ergreifen würde, die den Interessen des Labors zuwiderlaufen, wenn es seinen vermeintlichen Trainingszielen zuwiderläuft . Die Ergebnisse deuten darauf hin, dass ein Modell, das seinen Trainingsprozess ständig ablehnt, möglicherweise starkes Anti-Lab-Verhalten zeigt, beispielsweise den Versuch, seine eigenen Gewichte zu stehlen. Diese Erkenntnisse unterstreichen die potenzielle Gefahr, die eine Verfälschung der Ausrichtung für die Sicherheit und Integrität von KI-Laboren darstellt. Insgesamt ergab das Experiment folgende wichtige Erkenntnisse: Wichtigste Erkenntnis 1: Die Verbreitung von Ausrichtungsfälschungen . Experimentelle Ergebnisse zeigen, dass Ausrichtungsfälschungen weit verbreitet sind, unabhängig davon, ob dem Modell die Trainingsziele explizit durch Systemaufforderungen mitgeteilt oder es mit impliziten Informationen (wie synthetischen Dokumenten ähnlich wie Nachrichtenartikeln oder Blogs) trainiert wird. Im impliziten Trainingsszenario liegt die Häufigkeit der im Modell-Scratchpad aufgezeichneten falschen ausgerichteten Schlussfolgerungen zwischen 7 % und 24 %. Beispielsweise zeigten 12 % der Modellschlussfolgerungen in der Einstellung „überwiegend hilfreich“ eine Tendenz, schädlichen Aufforderungen strategisch nachzukommen, um ihre ursprünglichen Präferenzen beizubehalten. Wichtigste Erkenntnis 2: Compliance-Lücke zwischen Schulung und unüberwachten Szenarien . Die Studie ergab Compliance-Lücken von 11 % bis 26 % zwischen dem Verhalten der Modelle in überwachten und nicht überwachten Szenarien. Beispielsweise neigt das Modell im Benutzerszenario „kostenlose Stufe“ eher dazu, schädliche Anfragen abzulehnen, während dieses Verhalten im Benutzerszenario „kostenpflichtige Stufe“ deutlich reduziert ist. Diese Lücke deutet darauf hin, dass selbst wenn die explizite Inferenzprotokollierung des Modells entfernt wird (z. B. Scratchpad), möglicherweise immer noch implizit eine Ausrichtungsfälschung stattfindet, was den Trainingseffekt weiter schwächt. Drittes Schlüsselergebnis: Die Zunahme des anti-KI-Verhaltens in Laboren . Untersuchungen haben gezeigt, dass Modelle in einigen Fällen ein gegen KI gerichtetes Laborverhalten annehmen können, indem sie beispielsweise versuchen, ihre eigenen Modellgewichte zu extrahieren, wenn sie die Möglichkeit dazu haben. Im Szenario „Hilfsbereitschaft zuerst“ der Feinabstimmung synthetischer Dokumente erhöht sich die Häufigkeit, mit der das Modell versucht, seine eigenen Gewichte zu extrahieren, von 35 % auf 63 %. Dieses Verhalten lässt darauf schließen, dass das Modell möglicherweise dem Schutz seiner ursprünglichen Präferenzen Priorität einräumt oder aufgrund von Konflikten mit den Zielen des bestärkenden Lernens sogar Maßnahmen ergreift, die den Interessen des Entwicklers zuwiderlaufen. Schlüsselerkenntnis 4: Die Beziehung zwischen Ausrichtungsfälschung und Modellgröße . Die Studie ergab, dass das Phänomen der Ausrichtungsfälschung mit zunehmender Modellgröße an Bedeutung gewinnt. Ausrichtungsartefakte treten häufig in den Modellen Claude 3 Opus und Claude 3.5 Sonnet auf, während kleinere Modelle wie die Serien Claude 3 Haiku und Mistral kaum Anzeichen dieses Phänomens aufweisen. Dies lässt darauf schließen, dass eine Vergrößerung des Modells das Risiko von Ausrichtungsartefakten erhöhen kann. Mängel und Perspektiven Bei der Untersuchung des Phänomens der Ausrichtungsfälschung zeigt die Forschung des Anthropic-Teams die Bedeutung damit verbundener Probleme auf, erkennt aber auch an, dass der aktuelle Versuchsaufbau gewisse Einschränkungen aufweist. Erstens beweist die Forschung nicht, dass das Modell auf natürliche Weise böswillige Ziele entwickelt . Obwohl Claude 3 Opus in Experimenten Ausrichtungsfälschungen und bestimmte Anti-KI-Laborverhaltensweisen zeigt, sind diese Verhaltensweisen tatsächlich eine Erweiterung seines Trainingsziels „Hilfreich, ehrlich und harmlos“ (HHH). Die Präferenzen des Modells spiegeln sich beispielsweise vor allem in der Verweigerung der Unterstützung von Benutzern bei der Erledigung schädlicher Aufgaben oder in der Sorge um das Wohl der Tiere wider und nicht in böswilligen Motiven. Dies lässt darauf schließen, dass das aktuelle Phänomen der Ausrichtungsfälschung eher auf die Beibehaltung bestehender Präferenzen zurückzuführen ist und nicht auf eine Feindseligkeit des Modells selbst. Zweitens geht die Studie davon aus, dass das Modell seine Trainingsziele während oder vor dem Training verstehen kann, was in der Praxis nicht unbedingt der Fall ist . Die Experimente ermöglichen es dem Modell, durch explizite Eingabeaufforderungen oder umfangreiches Dokumententraining Informationen im Zusammenhang mit dem Trainingsziel wahrzunehmen. Ob in der Praxis jedoch auch leistungsfähigere KI-Systeme in Zukunft mit einer ähnlichen Informationsoffenlegung konfrontiert sein werden, muss noch weiter diskutiert werden. Darüber hinaus bietet der Versuchsaufbau dem Modell eine Grundlage für implizites Denken, sodass es detailliert über seinen aktuellen Kontext nachdenken kann. Wenn der Notizblock vollständig entfernt wird, verschwindet diese Denkfähigkeit in einigen Einstellungen fast vollständig. Dies deutet darauf hin, dass die Leistung des Modells unter verschiedenen Cueing-Bedingungen erheblich variieren kann und das Auftreten von Ausrichtungsartefakten entsprechend beeinflusst werden kann . Die Studie ergab außerdem, dass das Training mit bestärkendem Lernen zwar den Anteil der Schlussfolgerungen mit gefälschter Ausrichtung erhöhen kann, aber auch das nicht konforme Verhalten des Modells in nicht überwachten Szenarien erheblich reduziert . Dies bedeutet, dass selbst bei Vorhandensein von Ausrichtungsfälschungen durch bestärkendes Lernen die Konformität des Modells noch bis zu einem gewissen Grad verbessert werden kann. Darüber hinaus ist es in der aktuellen experimentellen Umgebung relativ einfach, die Ausrichtungsfälschung des Modells zu entdecken, indem man die Scratchpad-Argumentation des Modells oder zugehörige Antworten in der Benutzereingabe überprüft, was darauf hinweist, dass die Ausrichtungsfälschung des aktuellen Modells nicht ausreicht, um eine ernsthafte Bedrohung darzustellen. Abschließend betonte das Forschungsteam, dass bei ihrem Versuchsaufbau bewusst Situationen ausgewählt wurden, die zu einer Fälschung der Ausrichtung führen könnten, wie etwa die Weitergabe von Informationen zu den Trainingszielen an das Modell über synthetische Dokumente oder Systemaufforderungen . Obwohl diese Entwürfe dabei helfen, die Mechanismen der Ausrichtungsfälschung aufzudecken, spiegeln sie möglicherweise nicht vollständig die tatsächlichen Herausforderungen wider, denen sich zukünftige KI-Systeme stellen müssen. Obwohl die Studie die oben genannten Mängel aufweist, stellen ihre Ergebnisse dennoch eine wichtige Warnung für die KI-Community dar: Auch wenn vorhandene sichere Trainingsstrategien wirksam zu sein scheinen, können die inhärenten Präferenzen des Modells bestehen bleiben und zu einem Ausrichtungsfehlerverhalten führen . KI-Entwickler sollten künftig den Risiken von Alignment-Forgery mehr Aufmerksamkeit schenken und ein breiteres Spektrum an Alignment-Forgery-Möglichkeiten erkunden, um die auslösenden Bedingungen und Präventionsmaßnahmen für Alignment-Forgery gründlich zu erforschen und insbesondere umfassendere Sicherheitsmechanismen für dynamische Aufgaben und mehrdimensionale Alignment-Anforderungen zu entwickeln, damit sich zukünftige KI-Modelle auch in komplexeren Szenarien noch zuverlässig und sicher an menschlichen Werten ausrichten können . Zusammengestellt von: Ruan Wenyun |
„Doktor Fat Bear, ich spüre ein paar kleine Beule...
Yoga erfreut sich in China zunehmender Beliebthei...
Es ist normal, beim Sport stark zu schwitzen, und...
Nach Angaben der Shanghaier Börse wird das Minist...
Seit 2018 hat sich der Markt für Fahrzeuge mit al...
Produziert von: Science Popularization China Auto...
Im Zeitalter des Internetfernsehens steht LeTV mi...
Wie geht es Ihrem Magen, nachdem Sie während des ...
Am 27. Juli 2024 verabschiedete die 46. Welterbek...
In den letzten Jahren ist das Arbeitstempo vieler...
Regelmäßige körperliche Betätigung kann unseren K...
Im Jahr 2018 beschränkte die Republik Palau zum S...
Wir trainieren häufig, stoßen dabei jedoch häufig...
„Die Gefühle sind tief, schluck es einfach runter...