Um KI-Agenten neue Fähigkeiten beizubringen, etwa das Öffnen eines Küchenschranks, verwenden Forscher häufig Methoden des bestärkenden Lernens. Es handelt sich um einen Versuch-und-Irrtum-Prozess, bei dem der KI-Agent dafür belohnt wird, dass er die richtigen Maßnahmen ergreift, um dem Ziel näher zu kommen. In den meisten Fällen sind menschliche Experten erforderlich, um die Belohnungsfunktion sorgfältig zu gestalten und den KI-Agenten zu ermutigen, mehr zu erkunden. Während der KI-Agent erkundet und ausprobiert, müssen menschliche Experten diese Belohnungsfunktion kontinuierlich aktualisieren. Dieser Prozess ist zeitaufwändig und ineffizient und lässt sich insbesondere dann schwer skalieren, wenn die Aufgaben komplex sind und viele Schritte umfassen . Kürzlich hat ein Forschungsteam des Massachusetts Institute of Technology (MIT), der Harvard University und der University of Washington eine neue Methode des bestärkenden Lernens entwickelt, die nicht auf von Experten entwickelten Belohnungsfunktionen beruht, sondern stattdessen Crowdsourcing-Feedback von vielen nicht fachkundigen Benutzern nutzt, um KI-Agenten beim Erreichen von Lernzielen anzuleiten. Der neue Ansatz ermöglicht es KI-Agenten, trotz der oft fehlerhaften Natur von Crowdsourcing-Daten schneller zu lernen, im Gegensatz zu anderen Ansätzen, die versuchen, Feedback von Nicht-Experten zu verwenden, was oft zum Scheitern anderer Ansätze führt. Darüber hinaus unterstützt dieser neue Ansatz die asynchrone Erfassung von Feedback, sodass auch nicht fachkundige Benutzer auf der ganzen Welt am Schulungsprozess des KI-Agenten teilnehmen können . „Einer der zeitaufwändigsten und schwierigsten Teile beim Entwerfen eines KI-Agenten ist das Festlegen der Belohnungsfunktion“, sagte Pulkit Agrawal, Assistenzprofessor für Elektrotechnik und Informatik am MIT und Direktor des Improbable AI Lab. „Derzeit werden Belohnungsfunktionen hauptsächlich von Experten entwickelt, was schwierig zu skalieren ist, wenn Roboter eine Vielzahl von Aufgaben erlernen sollen. Unsere Forschung schlägt eine Lösung vor , um den Umfang des Roboterlernens zu erweitern, indem Belohnungsfunktionen durch Crowdsourcing entwickelt und Laien in die Bereitstellung effektiven Feedbacks einbezogen werden .“ Dieser Ansatz könnte Robotern in Zukunft dabei helfen, bestimmte Aufgaben schnell im Zuhause der Menschen zu erlernen, ohne dass diese ihnen jede Aufgabe persönlich vorführen müssen. Der Roboter kann selbstständig seine Erkundungen durchführen, wobei er die Richtung seiner Erkundung durch Feedback von Nicht-Experten aus der Crowd bestimmt. „Bei unserem Ansatz sagt die Belohnungsfunktion dem KI-Agenten nicht direkt, wie er die Aufgabe erledigen soll, sondern gibt ihm die Richtung vor, in die er erkunden soll. Daher kann der KI-Agent auch bei einer gewissen Ungenauigkeit und Unklarheit unter menschlicher Aufsicht immer noch effektiv erkunden und so besser lernen“, erklärt Marcel Torne, wissenschaftlicher Mitarbeiter am Improbable AI Lab und einer der Hauptautoren des Artikels. Erledigen Sie die Aufgabe, auch wenn die erhaltene Antwort falsch ist Eine Möglichkeit, Benutzerfeedback für das bestärkende Lernen zu sammeln, besteht darin, dem Benutzer ein Foto von zwei Zuständen zu zeigen, die der KI-Agent erreicht hat, und zu fragen, welcher Zustand dem Ziel näher ist. Stellen Sie sich beispielsweise einen Roboter vor, dessen Ziel es ist, einen Küchenschrank zu öffnen. Auf einem Foto ist möglicherweise zu sehen, wie der Schrank erfolgreich geöffnet wird, auf einem anderen Foto hingegen, wie die Mikrowelle geöffnet wird. Benutzer müssen das Foto auswählen, das den besseren Zustand zeigt. Einige frühe Ansätze versuchten, diese Crowdsourcing-Form des binären Feedbacks zu nutzen, um die Belohnungsfunktion zu optimieren, die der KI-Agent zum Erlernen der Aufgabe verwendet. Das Problem besteht darin, dass Laien anfällig für Fehler sind, die dazu führen können, dass die Belohnungsfunktion so verwirrend wird, dass der KI-Agent sein Ziel möglicherweise nicht erreichen kann . „In Wirklichkeit wird der KI-Agent die Belohnungsfunktion zu ernst nehmen und versuchen, sie perfekt anzupassen“, sagte Torne. „Anstatt die Belohnungsfunktion direkt zu optimieren, verwenden wir sie, um zu steuern, wo der Roboter erkunden soll.“ Das Forschungsteam teilte den Prozess in zwei unabhängige Teile auf, die jeweils von einem eigenen Algorithmus gesteuert wurden. Sie nannten diese neue Methode des bestärkenden Lernens Human Guided Exploration (HuGE) . Einerseits wird der Zielauswahlalgorithmus kontinuierlich mithilfe von menschlichem Crowdsourcing-Feedback aktualisiert. Diese Rückmeldungen werden nicht als Belohnungsfunktionen verwendet, sondern dienen dazu, die Erkundungsrichtung des KI-Agenten zu steuern. Kurz gesagt, die Anleitung durch nicht professionelle Benutzer ist wie „Brotkrumen“, die auf dem Weg verstreut sind und den KI-Agenten schrittweise näher an sein Ziel führen . Andererseits führt der KI-Agent auch selbstständig Erkundungen durch, einen Prozess, der selbstüberwacht und vom Zielselektor geleitet wird. Es sammelt Bilder oder Videos der Aktionen, die es versucht, und sendet diese dann an einen Menschen, der den Zielselektor aktualisiert. Auf diese Weise lässt sich der Bereich eingrenzen, den der KI-Agent erkunden muss, und er wird in vielversprechende Bereiche gelenkt, die näher am Ziel liegen. Bleibt das Feedback jedoch eine Zeit lang aus oder erfolgt es verzögert, lernt der KI-Agent selbstständig weiter, wenn auch langsamer. Durch diesen Ansatz kann Feedback weniger häufig und asynchron erfasst werden. „ Der Erkundungsprozess kann autonom und kontinuierlich ablaufen, da er ständig Neues erforscht und lernt. Da er präzisere Signale empfängt, kann er gezielter forschen. Er kann in seinem eigenen Tempo vorgehen“, fügte Torne hinzu. Da das Feedback das Verhalten des KI-Agenten nur geringfügig beeinflusst, lernt der KI-Agent schließlich, wie er die Aufgabe erledigt, auch wenn die vom Benutzer gegebene Antwort falsch ist. Schnelleres Lernen Das Forschungsteam testete den Ansatz anhand einer Reihe von Aufgaben in simulierten und realen Umgebungen. Beispielsweise nutzten sie HuGE in einer simulierten Umgebung , um effizient eine Reihe komplexer Aktionen zu erlernen, etwa das Stapeln von Blöcken in einer bestimmten Reihenfolge oder das Navigieren durch ein Labyrinth. In Tests in der realen Welt verwendeten sie HuGE, um einen Roboterarm darauf zu trainieren, den Buchstaben „U“ zu zeichnen und Objekte aufzunehmen und zu platzieren. Für die Tests wurden Daten von 109 nicht professionellen Benutzern aus 13 Ländern auf drei Kontinenten zusammengefasst. Mithilfe von HuGE können KI-Agenten lernen, Aufgaben sowohl in der realen Welt als auch in Simulationen schneller zu erledigen als mit anderen Methoden. Darüber hinaus sind von Nicht-Experten per Crowdsourcing gewonnene Daten leistungsfähiger als erstellte und annotierte synthetische Daten . Für nicht fachkundige Benutzer ist das Kommentieren von 30 Bildern oder Videos in weniger als zwei Minuten erledigt. „Dies zeigt das enorme Potenzial dieses Ansatzes für erweiterte Anwendungen“, fügte Torne hinzu. In einer verwandten Studie präsentierte das Forschungsteam auf der jüngsten Robot Learning Conference, wie sie HuGE verbessert haben, sodass der KI-Agent nicht nur lernen kann, Aufgaben zu erledigen, sondern auch die Umgebung autonom zurücksetzen kann, um weiter zu lernen. Wenn ein KI-Agent beispielsweise lernt, einen Schrank zu öffnen, kann ihm dieser Ansatz auch beibringen, ihn zu schließen. „Jetzt können wir es ermöglichen, völlig autonom und ohne menschliches Eingreifen zu lernen“, sagte er. Das Forschungsteam betont außerdem, dass es bei dieser und anderen Lernmethoden entscheidend darauf ankommt, dass der KI-Agent an menschlichen Werten ausgerichtet ist. In Zukunft plant das Forschungsteam, HuGE weiter zu verbessern, sodass KI-Agenten auf mehr Arten lernen können, beispielsweise durch natürliche Sprache und physische Interaktion mit Robotern. Sie äußerten außerdem Interesse daran, diesen Ansatz auf die gleichzeitige Schulung mehrerer KI-Agenten anzuwenden. Referenzlinks: https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127 https://arxiv.org/pdf/2307.11049.pdf https://human-guided-exploration.github.io/HuGE/ |
<<: Neuer Notfallkanal! Drohnenlieferungen übertreffen Krankenwagen →
Ein Bruch schwillt sofort an und schmerzt, währen...
Der globale Klimawandel ist zum größten Hindernis...
In der Welt des Bodybuildings kann die Rolle der ...
Im Kontext der künstlichen Intelligenz (KI) bezie...
Laut den neuesten Daten von Counterpoint sind die...
Ein über einen Monat altes Huhn wurde unschuldig ...
Eine solche Szene sehen wir oft in Naturdokumenta...
Das Leben liegt in der Bewegung und Bewegung mach...
Da Fitness im Leben der Menschen immer beliebter ...
Muskeln sind das Symbol eines Mannes, Muskeln ste...
Vor zehn Jahren war Nokia noch der unangefochtene...
Um 7:20 Uhr morgens startete das Flugzeug wie übl...
Für Freundinnen ist eine stolze und aufrechte Hal...
Niereninsuffizienz ist für Männer meist ein Thema...
Gestern gab Qiao Jian, der kürzlich ernannte Seni...