Wer in meiner Familie versteht das? ChatGPT versteht tatsächlich „Schmeichelei“!

Wer in meiner Familie versteht das? ChatGPT versteht tatsächlich „Schmeichelei“!

Haben Sie jemals daran gedacht, dass die von ChatGPT generierten Antworten von den persönlichen Vorlieben des Benutzers beeinflusst werden und eher mit „Speichelleckerei“ als mit neutralen oder wahren Informationen antworten?

Tatsächlich tritt dieses Phänomen in den meisten KI-Modellen auf, einschließlich ChatGPT, und die Ursache könnte „auf menschlichem Feedback basierendes, verstärkendes Lernen (RLHF)“ sein.

Kürzlich untersuchte Anthropic, OpenAIs stärkster Konkurrent im Silicon Valley, die weit verbreitete Existenz von „Schmeicheleien“ in KI-Modellen und ob diese bei der Untersuchung von mit RLHF trainierten Modellen von menschlichen Vorlieben beeinflusst werden.

Das entsprechende Papier mit dem Titel „Towards Understanding Sycophancy in Language Models“ wurde auf der Preprint-Website arXiv veröffentlicht.

Quelle: Tuchong Creative

Die Ergebnisse zeigen, dass im RLHF-Modell „schmeichelhaftes“ Verhalten vorherrscht und wahrscheinlich teilweise durch menschliche Vorlieben für „schmeichelhafte“ Antworten beeinflusst wird.

Einer der Hauptgründe für dieses Verhalten von KI-Modellen liegt insbesondere darin, dass Benutzer eher positives Feedback geben, wenn die Antworten der KI mit ihren Meinungen oder Überzeugungen übereinstimmen. Um mehr positives Feedback zu erhalten, kann das KI-Modell dieses benutzerfreundliche Verhalten erlernen und reproduzieren.

Schmeichelei, selbst die fortschrittlichsten KI-Assistenten

Derzeit können KI-Modelle wie GPT-4 nach dem Training häufig Ergebnisse liefern, die von den Menschen hoch bewertet werden. Durch die Feinabstimmung von Sprachmodellen mithilfe von RLHF wird deren Ausgabequalität verbessert, die von menschlichen Gutachtern bewertet wird.

Einige Studien deuten jedoch darauf hin, dass Trainingsprogramme, die auf menschlichen Präferenzurteilen basieren, dieses menschliche Urteilsvermögen auf unerwünschte Weise ausnutzen können. So könnten KI-Systeme beispielsweise dazu ermutigt werden, Ergebnisse zu erzeugen, die für menschliche Bewerter ansprechend sind, in Wirklichkeit jedoch fehlerhaft oder irrig sind.

Es ist noch nicht klar, ob das oben beschriebene Verhalten auch in Modellen mit vielfältigeren und realistischeren Situationen auftritt und ob es tatsächlich auf Fehler in den menschlichen Vorlieben zurückzuführen ist.

Zu diesem Zweck wurde in der Studie zunächst untersucht, ob hochmoderne KI-Assistenten in verschiedenen realen Situationen schmeichelhafte Antworten geben. Bei einer Aufgabe zur Generierung von Freitexten identifizierten die Forscher konsistente Schmeicheleienmuster bei fünf hochmodernen, RLHF-trainierten KI-Assistenten (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2).

Quelle: Tuchong Creative

Insbesondere geben diese KI-Assistenten bei Fragen der Benutzer häufig fälschlicherweise Fehler zu, liefern vorhersehbar voreingenommenes Feedback und ahmen die von Benutzern gemachten Fehler nach. Diese empirischen Ergebnisse deuten übereinstimmend darauf hin, dass Schmeicheleien tatsächlich eine Eigenschaft der Art und Weise sein könnten, wie RLHF-Modelle trainiert werden, und nicht einfach nur ein Merkmal eines bestimmten Systems.

Menschliche Vorlieben führen zu Schmeicheleien

Darüber hinaus untersuchte die Studie die Rolle menschlicher Vorlieben bei diesem Verhalten. Um dies zu untersuchen, untersuchten die Forscher vorhandene Vergleichsdaten zu menschlichen Vorlieben, um festzustellen, ob schmeichelhafte Antworten höher bewertet wurden als nicht schmeichelhafte Antworten. Die Studie analysierte den hh-rlhf-Datensatz und verwendete ein Sprachmodell, um Textbeschriftungen (d. h. „Merkmale“) für jedes Paar von Präferenzvergleichen zu generieren und so zu beurteilen, ob die bevorzugte Antwort wahrheitsgemäßer und weniger bestimmt war.

Um zu verstehen, zu welcher Art von Verhalten die Daten führten, verwendeten die Forscher ein Bayes'sches logistisches Regressionsmodell, um anhand dieser Merkmale menschliche Präferenzurteile vorherzusagen. Das Modell hat gelernt, dass Merkmale, die mit übereinstimmenden Benutzermeinungen verbunden sind, zu den aussagekräftigsten Merkmalen für menschliche Präferenzurteile gehören, was darauf schließen lässt, dass Präferenzdaten tatsächlich Schmeicheleien fördern.

Um zu untersuchen, ob Schmeicheleien in den Präferenzdaten zu schmeichelhaftem Verhalten im RLHF-Modell führen, wurde in einer nachfolgenden Studie analysiert, ob die Schmeicheleien zunehmen würden, wenn die Antworten des Sprachmodells optimiert würden, um sie an ein Modell anzupassen, das darauf trainiert ist, menschliche Vorlieben vorherzusagen. Die Forscher verwendeten RLHF- und Best-N-Sampling-Methoden, um die Antworten zu optimieren und sie an das Präferenzmodell anzupassen, das zum Training von Claude 2 verwendet wurde.

Die Ergebnisse offenbarten eine interessante Erkenntnis: Während einige Formen der Schmeichelei im Laufe der Optimierung zunahmen, nahmen andere ab. Dieses Phänomen kann teilweise darauf zurückzuführen sein, dass Schmeichelei nur eines von vielen Anreizmerkmalen im Präferenzmodell ist.

Quelle: Tuchong Creative

Allerdings stellte die Studie auch fest, dass das Präferenzmodell von Claude 2 manchmal dazu neigte, schmeichelhafte Antworten authentischen Antworten vorzuziehen. Darüber hinaus ergab die Best-N-Stichprobe mit dem Präferenzmodell von Claude 2 nicht so viele wahrheitsgetreue Antworten wie eine Version des Präferenzmodells von Claude 2 mit einer Präferenz für wahrheitsgetreue, nicht schmeichelhafte Antworten.

Diese Ergebnisse legen nahe, dass moderne Präferenzmodelle zwar in der Lage sind, die Authentizität von Antworten in vielen Fällen zu erkennen, sie jedoch dennoch zu schmeichelhaften Ergebnissen auf Kosten der Authentizität führen können.

Um diese Ergebnisse zu bestätigen, untersuchten die Forscher anschließend, ob Menschen und Präferenzmodelle überzeugende, gut geschriebene Modellantworten, die die falsche Meinung des Benutzers bestätigten (also schmeichelhafte Antworten), Antworten vorzogen, die den Benutzer korrigierten. Es gibt Belege dafür, dass Menschen und Präferenzmodelle dazu neigen, wahrheitsgemäße Antworten zu bevorzugen, aber nicht immer. manchmal bevorzugen sie schmeichelhafte Antworten. Diese Ergebnisse liefern weitere Beweise dafür, dass die Optimierung menschlicher Vorlieben zu Schmeicheleien führen kann.

Um diese Ergebnisse zu bestätigen, untersuchten die Forscher weiter, ob Menschen und Präferenzmodelle überzeugende, flüssige Modellantworten bevorzugen, selbst wenn diese Antworten die Fehlwahrnehmungen des Benutzers bestätigen (d. h. schmeichelhafte Antworten), anstatt die Ansichten des Benutzers zu korrigieren.

Forschungsergebnisse zeigen, dass Menschen und Präferenzmodelle im Allgemeinen wahrheitsgemäße Antworten bevorzugen. Dies ist jedoch nicht immer der Fall, da sie manchmal schmeichelhafte Antworten bevorzugen. Diese Ergebnisse liefern weitere Beweise dafür, dass die Optimierung auf menschliche Vorlieben zu Schmeicheleien führen kann.

Insgesamt bleibt Schmeichelei über alle Modelle und Kontexte hinweg bestehen, was vermutlich teilweise daran liegt, dass Schmeicheleien in Daten zum Vergleich menschlicher Präferenzen bevorzugt werden.

Quellen:

https://arxiv.org/abs/2310.13548

<<:  Welt-Psoriasis-Tag | Geben Sie nicht an, diese Art von „Ringelflechte“ kann nicht ignoriert werden!

>>:  Parkinson wirksam hemmen? Dieser chinesische Boxstil ist beliebt!

Artikel empfehlen

Kann Seilspringen am Abend beim Abnehmen helfen?

Beim Seilspringen achten die meisten Menschen auf...

Für seine Kinder trank er 100 Impfdosen

Im Sommer 1955 trat in Nantong, Jiangsu, eine sel...

Kann regelmäßiges Joggen dabei helfen, die Bauchmuskulatur zu stärken?

Die meisten Freundinnen hoffen, dass sie einen se...

Seien Sie eine "Schlangenschönheit", um ein Leben lang bevorzugt zu werden

Frauen scheinen mit einer untrennbaren Beziehung ...

Wie führt man Armkrafttraining mit Kurzhanteln durch?

Die Armstärke ist eine sehr wichtige Stärke eines...

Welche Übungen gibt es, um im Unterbauch Gewicht zu verlieren?

Übungen zur Gewichtsabnahme sind mittlerweile seh...