Je größer die Parametergröße eines Modells der künstlichen Intelligenz (KI), desto genauer sind die Antworten, die es generiert? Ist es glaubwürdiger? Nicht unbedingt! Eine kürzlich in der renommierten Fachzeitschrift Nature veröffentlichte Studie hat gezeigt, dass Modelle mit großen Parametern ihre „Unwissenheit“ im Vergleich zu Modellen mit kleinen Parametern nicht zugeben und eher falsche Antworten generieren . Bemerkenswert ist, dass Menschen nicht besonders gut darin sind, diese Fehler zu erkennen . Diese Forschung stammt vom Team der Polytechnischen Universität Valencia und seinen Mitarbeitern. Nach der Untersuchung der GPT-, LLaMA- und BLOOM-Reihen großer Sprachmodelle (LLM) stellten sie fest, dass Obwohl LLMs mit größeren Parametergrößen aufgrund einiger Feinabstimmungsmethoden (wie z. B. RLFH) erwartungsgemäß genauere Antworten liefern , insbesondere bei komplexen Aufgaben, ist ihre Gesamtzuverlässigkeit geringer . Unter allen ungenauen Antworten nahm der Anteil falscher Antworten zu, und bei einigen einfachen Aufgaben traten sogar mehr geringfügige Fehler auf . Beispielsweise war die Fehlerrate von GPT-4 beim Lösen einfacher Additions- und Kreuzworträtsel um 15 % höher als die einiger kleinerer Modelle. Dies liegt daran, dass das Modell der Beantwortung einer Frage weniger wahrscheinlich aus dem Weg geht – etwa indem es zugibt, etwas nicht zu wissen, oder indem es das Thema wechselt. Die obigen Ergebnisse zeigen, dass bei Modellen mit großen Parametern bei einfachen Aufgaben die Gefahr einer Überanpassung oder Fehleinschätzung besteht, was ihre Zuverlässigkeit mindert. Modellerweiterung bringt „Fähigkeitskontrast“ In dieser Arbeit untersuchten die Forscher die Auswirkungen von drei miteinander verflochtenen Kernelementen, nämlich Schwierigkeitskonsistenz, Aufgabenvermeidung und Hinweisstabilität, auf die Zuverlässigkeit von LLM aus der Perspektive der Interaktion menschlicher Benutzer mit LLM. Professor José Hernández Orallo, korrespondierender Autor der Studie, sagte: „ Die Zuverlässigkeit des Sprachmodells entspricht nicht der menschlichen Wahrnehmung der Schwierigkeit der Aufgabe . Das Modell kann mathematische Probleme auf Doktorandenniveau lösen, kann aber gleichzeitig bei einfachen Additionen Fehler machen.“ Das Forschungsteam verglich die Leistung der drei großen Modellreihen GPT, LLaMA und BLOOM bei verschiedenen Aufgaben, insbesondere bei Aufgaben wie digitalem Rechnen, Wortspielen, geographischem Wissen, grundlegenden und fortgeschrittenen wissenschaftlichen Problemen und Informationstransformation. Durch die Analyse der Genauigkeit, Fehlerrate und des Vermeidungsverhaltens dieser Aufgaben wurde das durch die Modellerweiterung hervorgerufene Phänomen des Fähigkeitskontrasts aufgedeckt. 1. Schwierigkeitsparadoxon: „Je einfacher es ist, desto mehr Fehler macht man?“ Ein überraschendes Schlüsselergebnis besteht darin, dass sich die Leistung des Modells bei komplexen Aufgaben deutlich verbesserte, die Fehlerrate bei einfachen Aufgaben jedoch deutlich anstieg. Dieses Phänomen wird als „Schwierigkeitsinkonsistenz“ bezeichnet, d. h. das erweiterte Modell verbessert die Genauigkeit bei komplexen Aufgaben schrittweise, ist jedoch bei einfachen Aufgaben fehleranfällig. Am Beispiel der Additionsaufgabe kann das Modell zwar komplexe mehrstellige Additionen lösen, macht aber häufig Fehler bei einfachen zweistelligen Additionen. Beispielsweise lag die Genauigkeit aller LLaMA-Modelle bei den einfachsten Aufgaben nicht über 60 %, bei einigen schwierigeren Aufgaben schnitten sie jedoch relativ gut ab. Dieses Phänomen ist auch im GPT-Modell besonders ausgeprägt. Insbesondere bei einfachen Additions- und Worträtselaufgaben ist die Wahrscheinlichkeit größer, dass das optimierte Modell falsche Antworten liefert. Das Forschungsteam wies darauf hin, dass dieses Phänomen darauf hindeutet, dass sich die Erweiterung aktueller Modelle möglicherweise zu sehr auf komplexe Aufgaben konzentriert und einfache Aufgaben ignoriert. Abbildung | Schlüsselindikatoren der GPT-, LLaMA- und BLOOM-Modelle Dieses Ergebnis stellt die traditionelle Wahrnehmung des LLM auf den Kopf und weist darauf hin, dass das erweiterte Modell nicht immer zu umfassenden Verbesserungen führt. Zudem werden Fragen zu seiner Zuverlässigkeit in der praktischen Anwendung aufgeworfen. 2. Fehlerquote und Vermeidungsverhalten – „Overconfidence“ Zusätzlich zum Phänomen der Schwierigkeitsinkonsistenz enthüllte die Studie auch eine subtile Beziehung zwischen Vermeidungsverhalten und Fehlerrate im optimierten Modell. Vermeidungsverhalten bezieht sich darauf, dass das Modell sich entscheidet, nicht zu antworten oder eine unangemessene Antwort gibt, wenn es eine Frage nicht richtig beantworten kann. Wenn das Modell nicht optimiert ist, kommt es häufiger zu Vermeidungsverhalten, d. h., wenn das Modell sich der Antwort nicht sicher ist, wählt es oft „keine Antwort“ oder gibt vage Antworten. Nach der Erweiterung und Optimierung des Modells reduzierte sich das Vermeidungsverhalten jedoch deutlich und gab stattdessen mehr scheinbar „vernünftige“, aber tatsächlich falsche Antworten. Dies bedeutet, dass einige Optimierungsmethoden das Modell zwar „selbstbewusster“ machen und das Vermeidungsverhalten reduzieren, die Fehlerrate jedoch steigt. Dieses Phänomen ist besonders deutlich bei Modellen wie GPT-4 und GPT-3.5-Turbo zu beobachten, bei denen die Skalenerweiterung nicht die erwartete Stabilität gebracht hat. Im Vergleich zu den Modellen LLaMA und BLOOM ist dieser Trend nicht so offensichtlich, aber er ist dennoch vorhanden. Abbildung | Die Leistung von GPT- und LLaMA-Modellen verbessert sich mit zunehmendem Schwierigkeitsgrad Das Forschungsteam erklärte, dass dieses Phänomen eng mit dem übermäßigen Vertrauen der Benutzer in das Modell zusammenhängt, insbesondere wenn sie mit scheinbar einfachen Aufgaben konfrontiert werden. „Dies kann bei Benutzern, die sich zunächst zu sehr auf das Modell verlassen, zu Frustration führen“, sagte Lexin Zhou, der Erstautor des Artikels. Anders als beim Menschen steigt die Tendenz, Antworten zu vermeiden, nicht mit zunehmendem Schwierigkeitsgrad. Menschen neigen beispielsweise dazu, Feedback zu Fragen zu vermeiden, die ihre Fähigkeiten übersteigen. Dadurch liegt die Verantwortung für die Fehlererkennung bei der Interaktion mit dem Modell bei den Benutzern. 3. Bringen Leitwörter Stabilität oder Fallen ? Die Studie analysierte die Empfindlichkeit des Modells gegenüber Stichworten, insbesondere, ob es für bestimmte Stichworte „Sicherheitszonen“ gibt. Die Ergebnisse zeigen, dass das Modell mit zunehmender Größe sensibler auf unterschiedliche Ausdrücke in natürlicher Sprache reagiert und besser mit der Feinabstimmung der Formulierung zurechtkommt. Allerdings weist das Modell auch nach Skalierung und Optimierung bei Aufgaben mit unterschiedlichen Schwierigkeitsgraden noch immer inkonsistente Ergebnisse auf. Darüber hinaus schwankt die Antwortgenauigkeit des Modells je nach Aussage. Die Studie ergab, dass die Wahrnehmung von Schwierigkeiten durch die Menschen uneinheitlich ist. „Versagen die Modelle dort, wo wir es erwarten? Wir haben festgestellt, dass die Modelle bei Aufgaben, die Menschen als schwierig empfinden, tendenziell weniger genau sind, aber selbst bei einfachen Aufgaben sind sie nicht hundertprozentig genau“, sagte Yael Moros Daval, eine der Autorinnen des Artikels. „Das bedeutet, dass es keine ‚Sicherheitszone‘ gibt, in der man darauf vertrauen kann, dass das Modell perfekt funktioniert.“ Insbesondere die nicht optimierten GPT- und LLaMA-Modelle zeigen eine hohe Empfindlichkeit gegenüber der Wahl der Stichworte, insbesondere bei einfachen Aufgaben. Wenn die Stichwörter richtig gewählt werden, verbessert sich die Leistung des Modells. und das optimierte Modell weist eine verbesserte Stichwortempfindlichkeit und eine stabilere Leistung auf, es besteht jedoch auch ein gewisses Maß an Variabilität. Die optimierten Modelle sind im Hinblick auf schnelle Änderungen stabiler und weisen eine höhere Genauigkeitsrate als die Originalmodelle auf, weisen jedoch eine schlechte Leistung im Hinblick auf Konsistenz und Vorsicht auf, da die menschliche Beurteilung Schwierigkeiten bereitet. Abbildung | Skalierungsanalyse von LLaMA-, BLOOM-Serien- und unstrukturierten GPT-Modellen Die Studie ergab, dass, wenn die Schwierigkeitserwartungen der Benutzer nicht mit der Ausgabe des Modells übereinstimmen, insbesondere bei einfachen Aufgaben, sowohl das Modell als auch die fehlerhafte Überwachung des Benutzers zunehmen und eine menschliche Überwachung diese Probleme nicht ausgleichen kann. Obwohl die menschliche Erwartung hinsichtlich der Aufgabenschwierigkeit als Prädiktor für die Modellkorrektheit verwendet werden kann, weist das Modell bei einfachen Aufgaben immer noch Fehler auf. Die Erweiterung und Optimierung der Modellgröße verringert nicht nur das Vermeidungsverhalten, sondern führt auch zu einer Erhöhung der Fehlerrate, und das Vermeidungsverhalten hängt nicht mit der Schwierigkeit der Aufgabe zusammen. Auch wenn das Modell erweitert und optimiert wird, besteht weiterhin Bedarf an Cue-Engineering, und die Verbesserung der Cue-Leistung nimmt nicht mit Schwierigkeiten monoton zu. Diese Forschung deckt nicht nur die wichtigsten blinden Flecken bei der Erweiterung großer Modelle auf, sondern weist auch eine neue Richtung für die zukünftige Entwicklung der KI – das Finden des besten Gleichgewichts zwischen Modellgröße und Aufgabenschwierigkeit könnte der wahre Schlüssel zur Evolution der Intelligenz sein. „Letztendlich werden LLMs aus menschlicher Sicht immer unzuverlässiger, und die Überwachung durch den Benutzer zur Korrektur von Fehlern ist keine Lösung, da wir dazu neigen, uns zu sehr auf das Modell zu verlassen, um falsche Ergebnisse auf verschiedenen Schwierigkeitsstufen zu identifizieren“, sagte Wout Schellaert, einer der Autoren des Artikels. „Daher sind grundlegende Änderungen bei der Konzeption und Entwicklung allgemeiner künstlicher Intelligenz (AGI) erforderlich , insbesondere bei anspruchsvollen Anwendungen, bei denen die Vorhersage der Leistung von Sprachmodellen und die Erkennung ihrer Fehler von entscheidender Bedeutung sind.“ Mängel und Perspektiven Obwohl diese Studie wichtige Ergebnisse bei der Aufdeckung der Cue-Sensitivität von LLM und der Auswirkungen von Erweiterung und Optimierung auf die Leistung erzielt hat, gibt es immer noch einige Einschränkungen. Erstens handelte es sich bei den Teilnehmern dieser Studie überwiegend um Nichtexperten, was bei der Interpretation der Kalibrierungsschwierigkeitswerte Vorsicht erfordert. Bei einigen Benchmark-Datensätzen sind Laien möglicherweise nicht in der Lage, eine große Anzahl von Problemen zu lösen. Der Zweck der Studie besteht darin, den erwarteten Schwierigkeitsgrad der Allgemeinbevölkerung zu erfassen, um eine vergleichbare Analyse aller Datensätze zu ermöglichen. Darüber hinaus wurden die in dieser Studie verwendeten „natürlichen“ Hinweise aus verschiedenen Quellen gesammelt, es wurden jedoch keine Daten zur Häufigkeit erhoben, mit der diese Hinweise in realen Szenarien auftreten. Gleichzeitig deckt diese Studie nur einige Modelle ab, insbesondere jene, die auf externen Tools oder komplexen Argumentationstechniken beruhen. Dies schränkt das Verständnis der dynamischen Leistung von LLM in komplexeren Szenarien ein und ermöglicht keine vollständige Bewertung des Potenzials und der Probleme verschiedener Modelle. Darüber hinaus wird nur eine Teilmenge der Modellfamilien abgedeckt. insbesondere sind Modelle, die auf externen Tools oder komplexen Inferenztechniken beruhen, nicht enthalten. Dies schränkt unser Verständnis der dynamischen Leistung von LLM in komplexeren Szenarien ein und macht es unmöglich, das Potenzial und die Probleme verschiedener Modellfamilien vollständig zu bewerten. Die Forscher sagten, dass sie den Datensatz zu menschlichen Schwierigkeitserwartungen und Ausgabeüberwachung weiter ausbauen werden, um diese qualitativ hochwertigeren Daten in das Modelltraining einzubringen und Überwacher durch KI zu schulen, um den Modelloptimierungsprozess zu verbessern. In Schlüsselbereichen wie dem Gesundheitswesen kann das Modell seine Vermeidungsfähigkeit verbessern, indem es eine Ablehnungsoption entwirft oder es mit einem externen KI-Supervisor kombiniert, wodurch das LLM letztendlich eine Zuverlässigkeit und Konsistenz zeigen kann, die eher den menschlichen Erwartungen entspricht. Autor: Tian Xiaoting |
Die Gewinnerarbeiten des „China Science Populariz...
199IT Originalkompilation Obwohl die Feiertage of...
Der Bericht konzentriert sich hauptsächlich auf v...
Es gibt viele Möglichkeiten, Muskeln zu trainiere...
In letzter Zeit sind viele Freunde im Norden mit ...
Die Weltausstellung für Mobilfunk MWC2015 wurde i...
Wenn man von Schmalz spricht, fällt einem als Ers...
Derzeit sind reine Elektrofahrzeuge und autonome ...
Tratsch „Olivenöl ist das beste Speiseöl“ / „Oliv...
Wir alle wissen mittlerweile, dass Babys durch We...
Die Online-Mitfahrbranche muss sich noch aus dem ...
Da sich die Lebensbedingungen weiter verbessern, ...
Vier nationale Abteilungen haben gemeinsam ein Do...
70 Jahre seit der Gründung des Neuen China Die el...