Der Roboter hat gelernt, einen Stift zu drehen und Walnüsse zu rollen! GPT-4 unterstützt komplexere Aufgaben und eine bessere Leistung

Der Roboter hat gelernt, einen Stift zu drehen und Walnüsse zu rollen! GPT-4 unterstützt komplexere Aufgaben und eine bessere Leistung

Liebe Freunde, nachdem die künstliche Intelligenz (KI) Schach, Go und Dota erobert hat, haben KI-Roboter auch die Fähigkeit des Stiftdrehens erlernt.

Der oben abgebildete Roboter, der einen Stift sehr sanft drehen kann, ist einem intelligenten Agenten namens Eureka zu verdanken, einem Forschungsprojekt von NVIDIA, der University of Pennsylvania, dem California Institute of Technology und der University of Texas in Austin.

Unter Eurekas Anleitung kann der Roboter auch Schubladen und Schränke öffnen, Bälle werfen und fangen oder eine Schere benutzen. Laut Nvidia gibt es Eureka in 10 verschiedenen Typen und es kann 29 verschiedene Aufgaben ausführen.

Sie sollten wissen, dass die Stiftdrehfunktion früher allein durch manuelle Programmierung durch menschliche Experten nicht so reibungslos erreicht werden konnte.

Roboterteller Walnüsse

Eureka kann selbstständig Belohnungsalgorithmen zum Trainieren von Robotern schreiben und verfügt über starke Programmierfähigkeiten: Sein selbstgeschriebenes Belohnungsprogramm übertrifft menschliche Experten bei 83 % der Aufgaben und kann die Leistung von Robotern um durchschnittlich 52 % verbessern.

Eureka hat eine neue Methode des gradientenfreien Lernens auf der Grundlage menschlichen Feedbacks entwickelt. Es kann Belohnungen und Textfeedback von Menschen problemlos aufnehmen, um seinen eigenen Mechanismus zur Belohnungsgenerierung weiter zu verbessern.

Insbesondere nutzt Eureka GPT-4 von OpenAI, um Belohnungsprogramme für das Trial-and-Error-Lernen des Roboters zu schreiben. Dies bedeutet, dass das System nicht auf vom Menschen generierte aufgabenspezifische Hinweise oder voreingestellte Belohnungsmuster angewiesen ist.

Durch die Verwendung der GPU-beschleunigten Simulation in Isaac Gym kann Eureka die Vor- und Nachteile einer großen Anzahl von Kandidatenbelohnungen schnell bewerten und so ein effizienteres Training erreichen. Eureka generiert dann eine Zusammenfassung der wichtigsten statistischen Informationen der Trainingsergebnisse und leitet das LLM (Sprachmodell) an, um die Generierung der Belohnungsfunktion zu verbessern. Auf diese Weise ist der KI-Agent in der Lage, seine Anweisungen an den Roboter selbstständig zu verbessern.

Eureka-Framework

Die Forscher stellten außerdem fest, dass die Anweisungen von GPT-4 die menschlichen Anweisungen sogenannter „Belohnungsingenieure“ umso besser erfüllten, je komplexer die Aufgabe war. Die an der Studie beteiligten Forscher bezeichneten Eureka sogar als „übermenschlichen Belohnungsingenieur“.

Ureka schließt erfolgreich die Lücke zwischen dem logischen Denken auf höherer Ebene (Kodierung) und der motorischen Kontrolle auf niedriger Ebene. Es verwendet eine sogenannte „Hybrid-Gradientenarchitektur“: Eine reine logische Blackbox (LLM, Language Model) steuert ein lernbares neuronales Netzwerk. In dieser Architektur führt die äußere Schleife GPT-4 aus, um die Belohnungsfunktion zu optimieren (gradientenfrei), während die innere Schleife Verstärkungslernen ausführt, um den Controller des Roboters zu trainieren (gradientenbasiert). —Linxi „Jim“ Fan, leitender Forschungswissenschaftler bei NVIDIA

Eureka kann menschliches Feedback einbeziehen, um die Belohnungen besser anzupassen und sie stärker den Erwartungen der Entwickler anzupassen. Nvidia nennt diesen Prozess „In-Context RLHF“ (kontextuelles Lernen aus menschlichem Feedback).

Es ist erwähnenswert, dass das Forschungsteam von Nvidia die KI-Algorithmenbibliothek von Eureka als Open Source zur Verfügung gestellt hat. Dadurch können Einzelpersonen und Institutionen diese Algorithmen über das Nvidia Isaac Gym erkunden und damit experimentieren. Isaac Gym basiert auf der Nvidia Omniverse-Plattform, einem Entwicklungsframework zum Erstellen von 3D-Tools und -Anwendungen basierend auf dem Open USD-Framework.

Link zum Artikel: https://arxiv.org/pdf/2310.12931.pdf

Projektlink: https://eureka-research.github.io/

Code-Link: https://github.com/eureka-research/Eureka

Wie bewerten Sie?

Das bestärkende Lernen hat im letzten Jahrzehnt enorme Erfolge erzielt, wir müssen jedoch zugeben, dass es weiterhin anhaltende Herausforderungen gibt. Obwohl es bereits zuvor Versuche zur Einführung ähnlicher Techniken gab, sticht Eureka im Vergleich zu L2R (Learning to Reward) hervor, das zur Unterstützung der Belohnungsgestaltung ein Sprachmodell (LLM) verwendet, da es die Notwendigkeit spezifischer Aufgabenaufforderungen überflüssig macht. Was Eureka besser macht als L2R, ist die Möglichkeit, frei ausdrucksstarke Belohnungsalgorithmen zu erstellen und den Quellcode der Umgebung als Hintergrundinformation zu nutzen.

Das Forschungsteam von Nvidia hat eine Untersuchung durchgeführt, um herauszufinden, ob der Einstieg in eine menschliche Belohnungsfunktion Vorteile bieten könnte. Der Zweck des Experiments besteht darin, herauszufinden, ob Sie die ursprüngliche menschliche Belohnungsfunktion erfolgreich durch die Ausgabe der ersten Eureka-Iteration ersetzen können.

Beim Testen optimierte das Forschungsteam von NVIDIA alle endgültigen Belohnungsfunktionen im Kontext jeder Aufgabe mithilfe desselben Verstärkungslernalgorithmus und derselben Hyperparameter. Um zu testen, ob diese aufgabenspezifischen Hyperparameter gut abgestimmt sind, um die Wirksamkeit der handgefertigten Belohnungen sicherzustellen, verwendeten sie eine gut abgestimmte Proximal Policy Optimization (PPO)-Implementierung, die auf früheren Arbeiten ohne jegliche Änderungen basierte. Für jede Belohnung führten die Forscher fünf unabhängige PPO-Trainingsläufe durch und berichteten den Durchschnitt des maximalen Aufgabenmetrikwerts, der von den Richtlinien-Checkpoints erreicht wurde, als Maß für die Belohnungsleistung.

Die Ergebnisse zeigen, dass menschliche Designer im Allgemeinen ein gutes Verständnis der relevanten Zustandsvariablen haben, ihnen jedoch möglicherweise gewisse Fähigkeiten bei der Gestaltung effektiver Belohnungen fehlen.

Diese bahnbrechende Forschung von Nvidia setzt neue Maßstäbe im Bereich des bestärkenden Lernens und der Belohnungsgestaltung. Ihr allgemeiner Belohnungsdesign-Algorithmus Eureka nutzt die Leistungsfähigkeit großer Sprachmodelle und kontextbezogener evolutionärer Suche, um Belohnungen auf menschlichem Niveau für eine breite Palette von Roboteraufgaben zu generieren, ohne dass aufgabenspezifische Eingabeaufforderungen oder menschliche Eingriffe erforderlich sind. Dies hat unser Verständnis von KI und maschinellem Lernen stark verändert.

<<:  Eine kurze Geschichte globaler Festivals – Wie viel wissen Sie über die größte internationale Organisation der Welt?

>>:  Internationaler Tag des Süßwasserdelfins | Lasst uns den Feiertag für diese Flusselfen feiern!

Artikel empfehlen

Welche Yoga-Übungen gibt es zum Abnehmen der Beine?

Yoga ist heutzutage ein beliebter Sport, vor alle...

5,5-Zoll-iPhone 6 lohnt sich zu kaufen: 15 Upgrades

Als größtes iPhone aller Zeiten hat das 5,5 Zoll ...

Ist Fitness gut?

Fitness ist heutzutage etwas, das viele Menschen ...

Zu welcher Abendzeit ist es besser, Sport zu treiben, um Gewicht zu verlieren?

Wenn Sie abnehmen möchten, müssen Sie dennoch lan...

Mit einer Art „Bohne“ können Sie in 2 Wochen 10 Pfund abnehmen

Kandierte rote Bohnen kannst du fertig kaufen ode...

Ist Outdoor-Kletterausrüstung für Kinder geeignet?

Heutzutage gibt es auf Kinderspielplätzen immer m...

Die Erforschung neuer Materialien mit KI geht schnell

Chen Sijin Mit der rasanten Entwicklung der künst...

Live-Gameshow für Mädchen, du hast es verdient

Derzeit schießen inländische Online-Liveübertragu...

Was ist die beste Morgenübung?

Heutzutage sehen wir oft viele Freunde, die morge...

Kann 20-minütiges Laufen jeden Abend beim Abnehmen helfen?

Wie man schnell und effektiv Körperfett verliert,...