In nur wenigen Minuten kann dieser KI-Agent menschliches Expertenverhalten erlernen

In nur wenigen Minuten kann dieser KI-Agent menschliches Expertenverhalten erlernen

Es dauert nur wenige Minuten, um das Verhalten eines Experten erfolgreich zu imitieren und sich an das gesamte erlernte Wissen zu erinnern . Der von Google DeepMind entwickelte KI-Agent wurde in einem Nature-Journal veröffentlicht.

Es wird berichtet, dass der Agent in der 3D-Simulation in der Lage ist, Experten bei Aufgaben, die er zum ersten Mal sieht, in Echtzeit zu imitieren und sich aus der Third-Person-Perspektive zuverlässig Wissen von menschlichen Partnern in Echtzeit anzueignen.

Obwohl der Agent noch nie zuvor einen Menschen gesehen hat, kann er bei einer Vielzahl anspruchsvoller Navigationsprobleme schnell von Menschen und KI-Experten lernen. Beispielsweise kann es komplexes Gelände mit zahlreichen Hindernissen bewältigen.

Die zugehörige Forschungsarbeit mit dem Titel „Learning few-shot imitation as cultural transmission“ wurde in Nature Communications, einer Tochtergesellschaft von Nature, veröffentlicht.

Das Forschungsteam ist davon überzeugt, dass die Ergebnisse dieser Studie einen Proof of Concept für die schnelle Verbreitung von Wissen durch verkörperte KI und den ersten Schritt zur Entwicklung einer offenen Kultur der Mensch-KI-Interaktion darstellen.

Darüber hinaus können sich KI-Praktiker vom sozialen Lernen des Menschen inspirieren lassen, um verkörperte KI-Agenten zu entwickeln, die sich an aktuelle menschliche Partner anpassen und die Privatsphäre angemessen schützen . Darüber hinaus könnten KI-Agenten mit sozialen Lernfähigkeiten auch neue Modellierungstools für die Untersuchung der Entwicklung menschlicher kultureller Fähigkeiten bereitstellen.

Besitzen Sie Fähigkeiten zur kulturellen Kommunikation in Echtzeit

Die kulturelle Übertragung ist eine universelle Fähigkeit, die es Menschen ermöglicht, in sozialen Situationen Informationen in Echtzeit mit einem hohen Maß an Genauigkeit und Behaltensleistung zu erfassen und zu nutzen. In der menschlichen Gesellschaft ermöglicht die kulturelle Evolution die Weitergabe von Fähigkeiten, Werkzeugen und Wissen von Generation zu Generation und deren kontinuierliche Ansammlung und Verbesserung.

In dieser Arbeit ist es dem Forschungsteam gelungen, durch Anwendung der Methode der Agenten-Umgebungs-Koadaption einen KI-Agenten mit Fähigkeiten zur kulturellen Kommunikation in Echtzeit zu generieren .

Um dieses Ziel zu erreichen, führten sie, wie oben gezeigt, einen virtuellen 3D-Missionsraum ein, der jeweils prozedural generiertes Gelände, Hindernisse und Zielbälle enthält .

Bei jeder Aufgabe muss der KI-Agent die Zielbälle in einer bestimmten Schleifenreihenfolge besuchen, um Belohnungen zu erhalten. Diese Reihenfolge wird zu Beginn der Aufgabe zufällig festgelegt. Der KI-Agent kennt die richtige Reihenfolge jedoch nicht und muss sie daher durch Experimente oder durch Lernen von einem Experten herausfinden. Dieser Missionsraum ist jedoch komplex gestaltet und der Schwierigkeitsgrad der Navigation kann durch Anpassen von Parametern wie der Größe der Welt, der Anzahl der Hindernisse, der Unebenheit des Geländes und der Anzahl der Zielbälle geändert werden.

Durch sorgfältig geplante Experimente fanden die Forscher heraus, dass die Entstehung kultureller Übertragung bei KI-Agenten einen minimalen und ausreichenden Satz von Trainingselementen namens MEDAL-ADR erfordert, darunter Funktionsapproximation, Gedächtnis, Experten-Mitteilnehmer, Expertenverlust, Aufmerksamkeitsverzerrung gegenüber Experten und automatische Domänenrandomisierung.

Abbildung |MEDAL-ADR-Elemente

Der Speicher wird durch LSTM-Netzwerke implementiert, die beteiligten Experten sind fest codierte Roboter und die automatische Domänenrandomisierung hilft dabei, KI-Agenten zu trainieren, bei einer Vielzahl von Aufgaben ein besseres Verhalten zu zeigen.

Durch die geschickte Kombination dieser Komponenten entsteht ein leistungsstarker KI-Agent, dessen Fähigkeiten zur kulturellen Übertragung in drei Aspekten herausragend sind: Erinnerung, Generalisierung und Wiedergabetreue.

Mithilfe der Funktion „Recall“ wird die Fähigkeit des Agenten beurteilt, Demonstrationen ohne die Anwesenheit eines Experten zu kopieren. Mithilfe der Funktion „Generalisierung“ wird gemessen, ob der Agent in der Lage ist, bei unbekannten Aufgaben einen kulturellen Transfer durchzuführen, und mithilfe der Funktion „Fidelity“ wird berechnet, wie konsistent die Entscheidungen des Agenten mit denen eines erfahrenen Demonstrators sind.

Am auffälligsten war, dass die Neuronen im „Gehirn“ dieses KI-Agenten eine starke Erklärungskraft aufwiesen und insbesondere für die Kodierung sozialer Informationen und Zielzustände verantwortlich waren. Dieser Ansatz ermöglicht es dem KI-Agenten nicht nur, über die Trainingsverteilung hinaus zu verallgemeinern, sondern ermöglicht ihm auch, Demonstrationen innerhalb eines einzelnen Kontexts abzurufen, nachdem der Experte gegangen ist. Dies bietet mehr Möglichkeiten für praktische Anwendungsszenarien, insbesondere wenn die Erfassung menschlicher Daten schwierig ist, die Aufgaben variieren und der Datenschutz von entscheidender Bedeutung ist.

Einige Einschränkungen

Obwohl die in dieser Studie vorgeschlagene MEDAL-ADR-Methode es KI-Agenten ermöglichen kann, sich im offenen Lernen an unterschiedliche kulturelle Umgebungen anzupassen.

Das Forschungsteam wies jedoch auch auf einige Einschränkungen der Bewertungsmethode hin.

Erstens wurde in der Studie nicht die kulturelle Übertragung durch mehrere Personen getestet, sondern ein einzelner Teilnehmer innerhalb des Forschungsteams ausgewählt. Daher kann die Studie keine statistisch signifikanten Aussagen über die Robustheit in verschiedenen Populationen treffen.

Zweitens sind der Vielfalt plausiblen menschlichen Verhaltens durch Navigationsaufgaben gewisse Grenzen gesetzt. Um ein tieferes Verständnis der universellen kulturellen Kommunikation zu erlangen, erfordert die Forschung Aufgaben mit breiteren und tieferen Strategien.

Schließlich konnten die Forscher nicht klar unterscheiden, ob der trainierte Agent den geografischen Weg und die richtige Reihenfolge der Kugeln auswendig gelernt hatte.

Ist MEDAL-ADR außerhalb des GoalCycle3D-Aufgabenbereichs allgemeiner? Die Antwort ist wahrscheinlich ein qualifiziertes „Nein“.

GoalCycle3D ist ein großer, prozedural generierter Aufgabenbereich, der als Navigationsrepräsentant einer breiteren Klasse von Aufgaben fungiert. Diese Aufgaben umfassen Aktivitäten, die wiederholte Abfolgen strategischer Entscheidungen erfordern, wie etwa Kochen, Navigieren und Problemlösen.

Dieser Ansatz erfordert jedoch einige Umgebungsbedingungen, einschließlich Sichtbarkeit, Ausstieg und Programmgenerierung von Experten. Wenn in einer bestimmten Umgebung keine annähernden Bedingungen geschaffen werden können, ist die Methode nicht anwendbar.

Darüber hinaus betrachten die Forscher den MEDAL-ADR-Ansatz nicht als direktes Modell für die Entwicklung kultureller Kommunikation beim Menschen. Sie ermutigen zukünftige Forscher jedoch, mehr experimentelle Studien durchzuführen, beispielsweise das MEDAL-ADR-Modell mit dem Verhalten von Kindern in verschiedenen Entwicklungsstadien oder nichtmenschlichen Tieren zu vergleichen und die kulturelle Akkumulation von Menschen und KI in Laborumgebungen zu untersuchen. Von dieser empirischen Forschung wird erwartet, dass sie das Verständnis für Fragen der kulturellen Übertragung, des Meta-Lernens und des offenen Lernens vertieft.

Das Forschungsteam sagte, es freue sich auf den zukünftigen interdisziplinären Austausch in den Bereichen KI und kulturelle Evolutionspsychologie.

Link zum Artikel:

https://www.nature.com/articles/s41467-023-42875-2

Autor: Yan Yimi

Herausgeber: Academic

<<:  Es heißt, dass „der Westen die Wissenschaft betont, während der Osten die Technologie betont“. Ist die Wissenschaft wirklich nutzlos?

>>:  Es dauerte 8 Jahre, bis er seinen Artikel in Science endlich veröffentlichen konnte, in dem er bewies, dass Mäuse über eine menschenähnliche Vorstellungskraft verfügen!

Artikel empfehlen

Wie oft pro Woche sollte ich Yoga machen, um abzunehmen?

Yoga ist eine in unserem Leben weit verbreitete F...

Kann ich während der Menstruation Yoga praktizieren?

Viele Menschen haben das Gefühl, dass sie während...

Wie trainieren Mädchen ihre Rückenmuskulatur?

Es gibt mittlerweile viele verschiedene Möglichke...

Chinesischer einheimischer Hund, du bist nicht einmal eine Rasse!

Was! Ist der „Chinese Native Dog“ nicht eine Hund...

Wie stärkt Yoga die Leber und die Nieren?

Die Ernährung von Leber und Nieren ist eine Mögli...

Kann ich während meiner Periode Yoga machen?

Können wir während der Menstruation Yoga machen? ...

Wie viele atemberaubende Landschaften gibt es in Linxia, ​​​​Gansu?

In jedermanns Herzen Jeder von ihnen hat sein eig...