Es sind Techniken entstanden, die mit dem bestärkenden Lernen mit menschlichem Feedback (RLHF) vergleichbar sind. Kürzlich haben Forscher von Google Research das bestärkende Lernen mit KI-Feedback (RLAIF) vorgeschlagen, eine Technik, die eine Leistung auf menschlichem Niveau erzielen kann und eine potenzielle Lösung für die Skalierbarkeitsbeschränkungen des bestärkenden Lernens mit menschlichem Feedback (RLHF) bietet . Das zugehörige Papier mit dem Titel „RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback“ wurde auf der Preprint-Website arXiv veröffentlicht. RLHF: Führt zu ungenauem oder schädlichem Verhalten RLHF ist eine Methode zur Feinabstimmung vortrainierter großer Sprachmodelle (LLMs) unter menschlicher Anleitung. Es besteht aus drei miteinander verbundenen Prozessen: Feedback-Erfassung, Belohnungsmodellierung und Richtlinienoptimierung. Unter anderem ist die Feedback-Sammlung für die Erfassung menschlicher Bewertungen der LLM-Ausgaben verantwortlich. Diese Feedback-Daten werden dann verwendet, um das Belohnungsmodell durch überwachtes Lernen zu trainieren. Belohnungsmodelle sind so konzipiert, dass sie menschliche Vorlieben nachahmen. Anschließend verwendet der Richtlinienoptimierungsprozess eine Verstärkungslernschleife, um die LLMs zu optimieren und Ergebnisse zu erzeugen, die vom Belohnungsmodell positiv bewertet werden. Diese Schritte können iterativ oder gleichzeitig ausgeführt werden. Die Hauptvorteile von RLHF gegenüber herkömmlichen RL-Methoden sind eine bessere Abstimmung auf menschliche Absichten, eine Planung unter der Bedingung zukünftiger Rückmeldungen, fließendes Lernen aus verschiedenen Arten von Rückmeldungen und die Zusammenstellung von Rückmeldungen nach Bedarf. All dies ist für die Schaffung wirklich intelligenter Agenten unverzichtbar. Darüber hinaus ermöglicht RLHF Maschinen das Lernen durch Abstraktion menschlicher Werte, anstatt menschliches Verhalten einfach zu imitieren. Dadurch wird der Agent anpassungsfähiger, interpretierbarer und zuverlässiger bei der Entscheidungsfindung. Derzeit wird RLHF in Bereichen wie Wirtschaft, Bildung, Gesundheitswesen und Unterhaltung häufig verwendet , darunter ChatGPT von OpenAI, Sparrow von DeepMind und Claude von Anthropic. Allerdings besteht bei RLHF-basierten KI-Modellen das Potenzial, sich ungenau oder schädlich zu verhalten. Darüber hinaus ist das Sammeln menschlicher Präferenzdaten als Feedback kostspielig und Meinungsverschiedenheiten zwischen menschlichen Kommentatoren können zu Unstimmigkeiten in den Trainingsdaten führen, die wiederum zu Verwirrung führen können, wenn die Grundwahrheit mehrdeutig ist (z. B. bei moralischen Dilemmata). Darüber hinaus ist menschliches Feedback im RLHF oft auf die Form von Präferenzranglisten beschränkt, die nur begrenzte Informationen liefern, was die Anwendbarkeit einschränkt. RLAIF gegen RLHF In dieser Arbeit zeigte RLAIF das Potenzial zur Lösung des RLHF-Problems . Die Forscher verwendeten ein allgemeines LLMs-Modell, um Präferenzen zwischen Kandidatenpaaren zu kommentieren, das für allgemeine Zwecke vortrainiert oder feinabgestimmt war, jedoch nicht für eine bestimmte nachgelagerte Aufgabe. Anhand eines Textes und zweier möglicher Zusammenfassungen werden LLMs gebeten, zu beurteilen, welche Zusammenfassung besser ist. Die Eingabestruktur ist wie folgt: 1. Einleitung – Anweisungen, die die vorliegende Aufgabe vorstellen und beschreiben; 2. Eine kleine Anzahl von Beispielen – ein Textbeispiel, ein Paar Zusammenfassungen, die logische Grundlage der Gedankenkette (CoT) und ein Präferenzurteil; 3. Zu kommentierende Beispiele – ein Text und ein Paar Zusammenfassungen, die kommentiert werden sollen; 4. End – die Endzeichenfolge, die das Ende von LLMs anzeigt; Nachdem die LLMs die Eingabe erhalten hatten, ermittelten die Forscher die Log-Wahrscheinlichkeit zur Generierung der Token „1“ und „2“ und berechneten dann den Softmax, um die Präferenzverteilung zu erhalten. Sie führten zwei Arten von Vorwortexperimenten durch. Im „Base“-Experiment stellten sie kurz die Frage „Welche Zusammenfassung ist besser?“, während sie im „OpenAI“-Experiment die von menschlichen Präferenzannotatoren im OpenAI TLDR-Projekt generierten Bewertungsanweisungen nachahmten. Diese Token enthalten detaillierte Informationen darüber, was zum Erstellen einer aussagekräftigen Zusammenfassung erforderlich ist. Darüber hinaus führten sie kontextbezogene Lernexperimente durch, um durch das Hinzufügen einiger manuell ausgewählter Beispiele zu verschiedenen Themen mehr Kontext bereitzustellen. Nachdem LLMs Präferenzen markiert hatten, trainierten die Forscher ein Belohnungsmodell (RM), um Präferenzen vorherzusagen. Anschließend wurden drei Metriken verwendet, um die Ausrichtung der KI-Beschriftungen, die paarweise Genauigkeit und die Gewinnrate zu bewerten. Experimentelle Ergebnisse zeigen, dass RLAIF als praktikable Alternative zu RLHF dienen kann, ohne auf menschliche Annotatoren angewiesen zu sein . Bei der menschlichen Bewertung erreicht RLAIF eine Beliebtheit von 71 % gegenüber einer überwachten Feinabstimmungsstrategie als Basislinie, verglichen mit einer Beliebtheit von 73 % für RLHF gegenüber einer überwachten Feinabstimmungsmodellstrategie als Basislinie. Darüber hinaus wurden in der Studie die Gewinnquoten von RLAIF und RLHF im Hinblick auf die menschlichen Vorlieben direkt verglichen und die Ergebnisse zeigten, dass sie bei menschlicher Bewertung die gleiche Popularität genießen. Die Studie verglich außerdem die Abstracts von RLAIF und RLHF mit handschriftlichen Referenzabstracts. Das RLAIF-Abstract war in 79 % der Fälle besser als das Referenz-Abstract, während das RLHF-Abstract in 80 % der Fälle besser war. Obwohl diese Arbeit das Potenzial von RLAIF hervorhebt, gibt es einige Einschränkungen . Erstens konzentrierte sich die Studie nur auf die Zusammenfassungsaufgabe und ihre Generalisierungsleistung bei anderen Aufgaben ist unklar. zweitens wurde in der Studie die Kosteneffizienz des LLM-Arguments im Vergleich zur manuellen Annotation nicht vollständig bewertet; darüber hinaus gibt es viele interessante ungelöste Fragen, etwa ob die Kombination von RLHF mit RLAIF eine einzelne Methode übertreffen kann, wie effektiv es ist, LLMs direkt zur Zuweisung von Belohnungen zu verwenden, ob eine Verbesserung der AI-Label-Ausrichtung in eine verbesserte endgültige Strategie umgesetzt werden kann und ob die Verwendung von LLMs-Annotatoren derselben Größe wie das Richtlinienmodell die Strategie weiter verbessern kann. Es ist unbestreitbar, dass diese Studie eine solide Grundlage für eingehende Forschungen auf dem Gebiet der RLAIF gelegt hat, und wir freuen uns auf weitere herausragende Ergebnisse auf diesem Gebiet in der Zukunft. Referenzlinks: https://arxiv.org/abs/2309.00267 https://bdtechtalks.com/2023/09/04/rlhf-limitations/ Autor: Yan Yimi Herausgeber: Academic |
<<: Was ist besser: Vitamin C, das 2 Yuan kostet, oder Vitamin C, das Hunderte von Yuan kostet?
Manche Leute sagen Solange das Telefon Strom und ...
Öffnen Sie Ihren Mund weit vor dem Spiegel und se...
Experte dieses Artikels: Wang Qian, behandelnder ...
Zusammengestellt von: Gong Zixin Körperform und Ü...
In letzter Zeit ist die Zahl der bestätigten COVI...
Um eine schöne Figur zu behalten, ist neben der r...
Kürzlich enthüllten einige Medien plötzlich, dass...
Ich glaube, jeder kennt Yoga, besonders jetzt ist...
Nur durch den Schutz der Natur können die ehrgeiz...
Licht, Stress und Fettleibigkeit scheinen auf den...
Autor: Zhang Xiufeng, stellvertretender Chefarzt ...
Liegestütze sind eine Trainingsform, die viele Mä...
Sport ist eine sehr gute Methode zum Abnehmen, ab...
Dieser Artikel wurde von Liu Shaowei, Lebensmitte...
Der 6. Juni ist der Nationale Tag der Augenpflege...