Derzeit könnten große Sprachmodelle (LLMs) die „optimale Lösung“ für die Erzielung allgemeiner künstlicher Intelligenz (AGI) sein. Obwohl große Modelle hinsichtlich ihrer Leistungsfähigkeit und Wissensbreite an die menschliche Leistung heranreichen, ist ihre Bewertung zunehmend schwieriger geworden. Mit der rasanten Entwicklung großer Modelle sind einige traditionelle Benchmarks obsolet geworden. Daher müssen dringend neue Bewertungsmaßstäbe entwickelt werden. Kürzlich haben Forschungsteams von Meta, HuggingFace und AutoGPT gemeinsam einen Benchmark zum Testen allgemeiner KI-Assistenten vorgeschlagen – GAIA . Dieser wirft reale Probleme auf, die eine Reihe grundlegender Fähigkeiten erfordern, wie etwa logisches Denken, multimodale Verarbeitung, Surfen im Internet und gute Kenntnisse im allgemeinen Umgang mit Werkzeugen. Das Forschungsteam sagte, dass diese Fragen für Menschen konzeptionell sehr einfach seien, für die meisten großen Modelle jedoch eine Herausforderung darstellen: Intuitive Daten zeigen, dass Menschen bei der Beantwortung dieser Fragen eine Erfolgsquote von 92 % haben, während selbst GPT-4 mit einem Plug-in nur eine Erfolgsquote von 15 % hat. Dies steht im Gegensatz zum Trend der letzten Jahre, dass große Modelle bei Aufgaben, die spezielle Fähigkeiten erfordern, wie etwa Jura oder Chemie, Menschen übertreffen. Das zugehörige Forschungspapier mit dem Titel „GAIA: A Benchmark for General AI Assistants“ wurde auf der Preprint-Website arXiv veröffentlicht. Insbesondere weicht die Philosophie von GAIA vom aktuellen Trend bei KI-Benchmarks ab, die auf Aufgaben abzielen, die für Menschen immer schwieriger werden. Das Forschungsteam ist davon überzeugt, dass die Entstehung von AGI davon abhängt, ob das System bei derartigen Problemen eine ähnliche Robustheit wie normale Menschen zeigen kann. Allgemeiner KI-Assistenten-Benchmark: Interaktion mit der realen Welt Da die Leistungsfähigkeit großer Modelle zunimmt, sind bestehende Bewertungsmaßstäbe den Herausforderungen neuer Modelle zunehmend nicht mehr gewachsen und traditionelle Maßstäbe werden schon bald von diesen neuen Modellen überholt. Bei dem Versuch, große Modelle in allgemeine Assistenten umzuwandeln, hinken aktuelle Auswertungsmethoden hinterher. Vorhandene Auswertungen basieren hauptsächlich auf geschlossenen Systemen, spezifischen API-Aufrufen oder der Wiederverwendung vorhandener Auswertungsdatensätze. Diese Ansätze werden jedoch häufig in geschlossenen Umgebungen durchgeführt und bewerten möglicherweise, wie gut ein Assistent gelernt hat, eine bestimmte API zu verwenden, und nicht seine allgemeineren Fähigkeiten bei Interaktionen in der realen Welt. Im Gegensatz dazu verwendet GAIA die Interaktion mit der realen Welt als Maßstab und schränkt mögliche APIs nicht ein. Es gibt andere Ansätze, die sich mit der Bewertung allgemeiner Assistenten befassen. Ihr Hauptunterschied zu GAIA besteht jedoch darin, dass sie sich eher auf die Fähigkeiten aktueller Modelle als auf zukünftige Fortschritte konzentrieren. Laut dem Dokument handelt es sich bei GAIA um einen Standard zum Testen von KI-Systemen anhand allgemeiner Assistenzprobleme, der darauf ausgelegt ist, verschiedene Probleme bei der Bewertung von LLMs zu vermeiden . GAIA enthält 466 von Menschen entworfene und kommentierte Fragen. Diese Fragen sind hauptsächlich textbasiert und enthalten manchmal Dateien wie Bilder oder Tabellen. Die Fragen decken eine Vielzahl allgemeiner Anwendungsszenarien für Assistenten ab, darunter alltägliche persönliche Aufgaben, wissenschaftliche Fragen und Allgemeinwissen. Die Fragen sind so konzipiert, dass sie nur eine kurze und richtige Antwort enthalten und daher leicht zu überprüfen sind. Bei der Verwendung von GAIA müssen dem KI-Assistenten lediglich diese Fragen zusammen mit relevanten Beweisen (sofern vorhanden) gestellt werden. Darüber hinaus erfordert die Evaluierung von LLMs mit GAIA lediglich die Möglichkeit, Fragen an das Modell zu stellen, d. h. Zugriff auf die API. Die Forscher verwendeten eine Präfix-Eingabeaufforderung, bevor sie dem Modell eine Frage stellten. Um die Antwortextraktion zu erleichtern, haben sie in den Präfix-Eingabeaufforderungen auch ein Format angegeben. Anschließend bewerteten sie GPT4 mit und ohne Plugins und bewerteten auch AutoGPT mit GPT4 als Backend. Derzeit erfordert GPT4 eine manuelle Auswahl der Plugins, während AutoGPT diese Auswahl automatisch vornehmen kann. Die Ergebnisse zeigen, dass GAIA eine klare Rangfolge fähiger Assistenten ermöglicht, in den nächsten Monaten und Jahren jedoch noch viel Raum für Verbesserungen besteht. Wie aus der Abbildung ersichtlich, ist die Leistung der menschlichen Websuche auf Ebene 1 gut, bei komplexeren Abfragen jedoch nicht so gut und sie ist etwas langsamer. GPT-4 mit Plugins verbessert die Antwortgenauigkeit und Ausführungsplanung besser als GPT-4 ohne Plugins. AutoGPT-4 verwendet Tools automatisch, aber seine Leistung auf Level 2 und sogar Level 1 ist enttäuschend, wahrscheinlich aufgrund der Art und Weise, wie es auf der GPT-4-API basiert. Insgesamt schienen Menschen, die mit GPT-4 unter Verwendung des Plug-Ins arbeiten, das beste Gleichgewicht zwischen Punktzahl und Zeit zu finden. Der erste Schritt zur Bewertung des Potenzials Ihres KI-Assistenten Das Aufkommen von GAIA zwingt uns, das Paradigma der aktuellen und zukünftigen Bewertung von KI-Systemen zu überdenken. Hinter einer API gesperrte Modelle können sich im Laufe der Zeit ändern, was bedeutet, dass zu unterschiedlichen Zeitpunkten durchgeführte Auswertungen möglicherweise nicht replizierbar oder reproduzierbar sind. Darüber hinaus kann das Problem noch dadurch verschärft werden, dass Tools wie das ChatGPT-Plugin und ihre Funktionen regelmäßig aktualisiert werden und nicht über die API von ChatGPT darauf zugegriffen werden kann. Das Erreichen der Reproduzierbarkeit kann dadurch erschwert werden, dass sich Forscher bei der Bewertung der Modellleistung häufig auf Benchmarks aus der realen Welt verlassen und sich diese Benchmarks im Laufe der Zeit ändern können. GAIA ist jedoch gegenüber der generierten Zufälligkeit robust, da es sich nur um die endgültige Antwort kümmert, d. h., es akzeptiert nur eine richtige Antwort zur Auswertung. Darüber hinaus konzentriert sich GAIA im Vergleich zu größeren Datensätzen mit Multiple-Choice-Fragen eher auf die Qualität als auf die Quantität der Fragen. Die Weiterentwicklung von GAIA dürfte zu einer Schlüsselkomponente bei umfassenderen Bewertungen der Generalisierungsfähigkeit und Robustheit von KI-Systemen werden. Zur Erledigung einer GAIA-Aufgabe müssen möglicherweise verschiedene Module aufgerufen werden. Beispielsweise kann ein Bildklassifizierer eine falsche Bezeichnung zurückgeben. Manche Leute finden diese Einschätzung möglicherweise vage, da GAIA das System als Ganzes betrachtet, anstatt Fehler auf Unterteile des Systems wie etwa das Surfen im Internet oder Bildverarbeitungsmodule zurückzuführen. Eine enge Integration von LLMs mit anderen Tools zur Erledigung aller Aufgaben ist jedoch möglicherweise kein nachhaltiger Ansatz. Zukünftige Modelle könnten Sprachmodelle und andere Funktionen stärker integrieren, beispielsweise Vision-Language-Modelle. Ziel von GAIA ist die Bewertung ganzer KI-Systeme und nicht nur spezifischer Architekturkriterien. Im weiteren Sinne ist die automatische, sachliche und erklärbare Auswertung komplexer Generierungen seit langem ein Problem der generativen KI. Aktuelle Bewertungsmethoden weisen möglicherweise einige Einschränkungen auf und in Zukunft sind möglicherweise ausgefeiltere Methoden erforderlich, z. B. die Kombination multimodaler Systeme, die Verbesserung der Bewertung generativer Modelle durch die Durchführung komplexer Sequenzänderungen an Bildern und das Stellen expliziter Fragen in natürlicher Sprache. Trotz der Fortschritte des Deep Learning in verschiedenen Bereichen ist die Vollautomatisierung derzeit noch mit unvorhersehbaren Fehlern konfrontiert, wie beispielsweise der Herausforderung selbstfahrender Autos. Zur Lösung des GAIA-Problems ist eine vollständige Automatisierung erforderlich. Dies könnte jedoch zu Veränderungen in der sozioökonomischen Landschaft führen und das Risiko bergen, dass Technologieeigentümer die Wertschöpfung dominieren. Darüber hinaus weist GAIA auch einige Einschränkungen auf. Erstens kann GAIA die Situationen nicht bewerten, in denen verschiedene Wege zur richtigen Antwort führen. Die Autoren des Artikels schlagen vor, in Zukunft die Bewertung durch Menschen und Modelle zu berücksichtigen, um diese Lücke zu schließen. Da die API von OpenAI keine detaillierten Tool-Aufrufprotokolle bereitstellt, werden derzeit nur die leistungsstärksten Sprachmodelle mit Tool-Zugriffsrechten ausgewertet. Das Forschungsteam hofft, dem Open-Source-Bereich in Zukunft weitere Modelle mit entsprechender Instrumentierung und Protokollierung hinzufügen zu können. Um einen realistischen und leicht zu verwendenden Benchmark zu erstellen, waren zwei Annotationsrunden erforderlich: In der ersten Runde entwarfen die Annotatoren klärende Fragen, und in der zweiten Runde beantworteten zwei unabhängige Annotatoren die Fragen und beseitigten Unklarheiten, die trotz dieses gründlichen Prozesses immer noch bestehen konnten. Eine wesentliche Einschränkung von GAIA ist schließlich die mangelnde Sprachenvielfalt: Alle Fragen können nur in „Standardenglisch“ gestellt werden und viele Fragen basieren hauptsächlich auf englischen Webseiten. Daher ist GAIA nur ein erster Schritt zur Bewertung des Potenzials allgemeiner KI-Assistenten und sollte nicht als absoluter Beweis für ihren Erfolg angesehen werden. Referenzlinks: https://arxiv.org/abs/2311.12983 Autor: Yan Yimi Herausgeber: Academic |
Ich glaube, dass viele meiner Freunde zwangsläufi...
Herr Jiang, 47 Jahre alt, ist Vizepräsident eines...
Da die Ansprüche der Menschen an ihre eigene Körp...
Viele Menschen stehen der Behauptung, Schwimmen k...
Da das Konzept Gesundheit immer beliebter wird, i...
Lantu Auto hat seine Auslieferungsdaten für Dezem...
Durch Sport lässt sich Gewicht verlieren, allerdi...
Im Laufe unseres Lebens beginnen immer mehr Mensc...
Tatsächlich entwickeln Pflanzen aus verschiedenen...
Wir sehen oft Boxen im Fernsehen. Wenn wir einen ...
In der Ästhetik vieler Menschen ist es der gesünd...
„Street Fighter“ gilt als bekanntestes Kampfspiel...
Autor | Wang Qing Wirtschaftsprüfung | Ding Yi He...
In den letzten Jahren sind Nachrichten und Esssen...
In der Natur gibt es viele Traubensorten, die seh...