Videospiele sind ein wichtiges Testfeld für Systeme der künstlichen Intelligenz (KI). Wie die reale Welt sind Spiele reichhaltige Lernumgebungen mit reaktionsfähigen Echtzeiteinstellungen und sich ständig ändernden Zielen. Google DeepMind blickt auf eine lange Geschichte im Bereich KI und Gaming zurück, von der frühen Arbeit mit Atari Games bis hin zur Fähigkeit seines AlphaStar-Systems, StarCraft II auf dem Niveau eines menschlichen Meisters zu spielen. Vor Kurzem hat Google DeepMind einen neuen Meilenstein angekündigt: die Verlagerung des Schwerpunkts von einem einzelnen Spiel auf allgemeine, trainierbare KI-Agenten zum Spielen. In einem neuen technischen Bericht stellt Google DeepMind SIMA (Scalable Instructable Multiworld Agent) vor, einen generalistischen KI-Agenten für virtuelle 3D-Umgebungen. Google DeepMind hat mit Spieleentwicklern zusammengearbeitet, um SIMA an verschiedenen Videospielen zu trainieren. Im Rahmen dieser Forschung hat zum ersten Mal ein KI-Agent die Fähigkeit bewiesen, verschiedene Spielwelten zu verstehen und darin Aufgaben auszuführen, indem er wie ein Mensch Anweisungen in natürlicher Sprache befolgt. Bei dieser Arbeit geht es nicht darum, gute Noten zu bekommen. Schon das Erlernen des Spielens eines einzigen Videospiels ist für ein künstliches Intelligenzsystem eine technische Meisterleistung. Doch das Erlernen des Befolgens von Anweisungen in einer Vielzahl von Spielumgebungen könnte KI-Agenten in jeder Umgebung effektiver machen. Untersuchungen von Google DeepMind zeigen, wie die Fähigkeiten fortschrittlicher KI-Modelle über Sprachschnittstellen in nützliche Aktionen in der realen Welt umgesetzt werden können. Sie hoffen, dass SIMA und andere Agentenforschungen Videospiele als Sandbox verwenden werden, um besser zu verstehen, wie KI-Systeme hilfreicher werden können. Von Videospielen lernen Um SIMA in mehr Umgebungen einzusetzen, hat Google DeepMind eine Reihe von Partnerschaften mit Spieleentwicklern geschlossen, um Forschung zu betreiben. Sie arbeiteten mit acht Spielestudios zusammen, um SIMA an neun verschiedenen Videospielen zu trainieren und zu testen, darunter No Man's Sky von Hello Games und Teardown von Tuxedo Labs. Jedes Spiel im SIMA-Portfolio eröffnet uns eine neue interaktive Welt mit einer Reihe von Fähigkeiten, die es zu erlernen gilt, von der einfachen Navigation und Verwendung von Menüs bis hin zum Abbau von Ressourcen, dem Steuern eines Raumschiffs oder dem Herstellen eines Helms. Google DeepMind nutzte außerdem vier Forschungsumgebungen – darunter eine neue, mit Unity erstellte Umgebung namens Architecture Lab, in der Agenten aufgefordert wurden, Skulpturen aus Blöcken zu bauen und so ihre Handhabung von Objekten und ihr intuitives Verständnis der physischen Welt zu testen. Durch das Lernen aus verschiedenen Spielwelten erfasst SIMA die Verbindung zwischen Sprache und Spielverhalten. Beim ersten Ansatz wurden Paare menschlicher Spieler in einer Spielkomposition aufgezeichnet, bei der ein Spieler den anderen beobachtete und trainierte. Sie ließen die Spieler das Spiel auch frei spielen, beobachteten anschließend ihr Verhalten erneut und zeichneten die Anweisungen auf, die zu ihrem Spielverhalten geführt haben könnten. Abbildung | SIMA besteht aus einem vortrainierten visuellen Modell und einem Hauptmodell, das einen Speicher enthält, der Tastatur- und Mausoperationen ausgeben kann. SIMA: Multifunktionaler KI-Agent SIMA ist ein KI-Agent, der seine Umgebung wahrnehmen und verstehen und dann Maßnahmen ergreifen kann, um Befehlsziele zu erreichen. Es besteht aus einem Modell zur genauen Bild-Sprach-Zuordnung und einem Videomodell zur Vorhersage, was als Nächstes auf dem Bildschirm passieren wird. Google DeepMind hat diese Modelle anhand von Trainingsdaten aus bestimmten 3D-Einstellungen im SIMA-Portfolio feinabgestimmt. Es wird berichtet, dass SIMA keinen Zugriff auf den Quellcode des Spiels oder eine angepasste Anwendungsprogrammierschnittstelle erfordert. Es sind nur zwei Eingaben erforderlich: ein Bild auf dem Bildschirm und eine einfache Anweisung in natürlicher Sprache durch den Benutzer. SIMA verwendet Tastatur- und Mausausgabe, um den Game Center-Charakter zur Ausführung dieser Befehle zu steuern. Diese einfache Schnittstelle wird von Menschen verwendet, was bedeutet, dass SIMA mit jeder virtuellen Umgebung interagieren kann. Die aktuelle Version von SIMA bewertet 600 grundlegende Fähigkeiten, darunter Navigation (z. B. „links abbiegen“), Objektinteraktion („eine Leiter hochklettern“) und Menünutzung („eine Karte öffnen“). Google DeepMind hat SIMA darauf trainiert, einfache Aufgaben in 10 Sekunden zu erledigen. Google DeepMind hofft, dass zukünftige Agenten Aufgaben bewältigen können, die eine fortgeschrittene strategische Planung und mehrere Unteraufgaben erfordern, wie etwa „Ressourcen finden und ein Lager errichten“. Dies ist ein wichtiges Ziel in der KI, denn große Sprachmodelle (LLMs) haben zwar leistungsstarke Systeme hervorgebracht, die Wissen über die Welt erfassen und Pläne generieren können, ihnen fehlt derzeit jedoch die Fähigkeit, in unserem Namen zu handeln. Cross-Game-Induktion Google DeepMind stellte fest, dass Agenten, die anhand mehrerer Spiele trainiert wurden, diejenigen übertrafen, die nur ein Spiel lernten. Bei der Evaluierung schnitten SIMA-Agenten, die an neun 3D-Spielen trainiert wurden, deutlich besser ab als alle professionellen Agenten, die an einem einzigen Spiel trainiert wurden. Noch wichtiger ist, dass Agenten, die für alle Spiele außer einem trainiert wurden, bei unbekannten Spielen im Durchschnitt nahezu die gleiche Leistung zeigten wie Agenten, die für das spezielle Spiel trainiert wurden. Wichtig ist, dass diese Fähigkeit, in neuen Umgebungen zu funktionieren, die allgemeinen Fähigkeiten von SIMA hervorhebt, die über das Training hinausgehen. Dies ist ein vielversprechendes erstes Ergebnis, es bedarf jedoch weiterer Forschung, um die Leistung von SIMA sowohl bei bekannten als auch bei unbekannten Spielen auf menschliches Niveau zu bringen. Die Ergebnisse zeigten auch, dass die SIMA-Leistung sprachabhängig war. In Kontrolltests, bei denen der Agent weder verbales Training noch Anweisungen erhielt, verhielt er sich angemessen, aber ziellos. Beispielsweise sammelt ein Agent möglicherweise häufig Ressourcen, anstatt den Anweisungen entsprechend zu gehen. Abbildung | Google DeepMind bewertete SIMAs Fähigkeit, Anweisungen zu befolgen und fast 1.500 einzigartige Spielaufgaben zu erledigen, von denen einige von menschlichen Juroren bewertet wurden. Als Basisvergleich verwendeten sie die Leistung eines umgebungsspezifischen SIMA-Agenten (der darauf trainiert und bewertet wurde, Anweisungen in einer einzigen Umgebung zu befolgen) und verglichen diese Leistung mit drei allgemeinen SIMA-Agenten, die jeweils in mehreren Umgebungen trainiert wurden. Förderung der KI-Agentenforschung Laut Google DeepMind zeigten die Forschungsergebnisse von SIMA, dass das Unternehmen das Potenzial habe, eine neue Reihe allgemeiner, sprachgesteuerter KI-Agenten zu entwickeln. Dies ist eine frühe Forschungsarbeit und sie freuen sich darauf, SIMA in weiteren Trainingsumgebungen weiterzuentwickeln und leistungsfähigere Modelle einzubinden. Google DeepMind hofft, dass SIMA durch die Anwendung in immer mehr Trainingsumgebungen an Allgemeingültigkeit und Vielseitigkeit gewinnen wird. Mit fortschrittlicheren Modellen hoffen sie, die Fähigkeit von SIMA zu verbessern, Anweisungen in höheren Programmiersprachen zu verstehen und auszuführen und dadurch komplexere Ziele zu erreichen. Letztendlich wird sich die Forschung von Google DeepMind in Richtung allgemeinerer KI-Systeme und Agenten bewegen, die ein breites Spektrum an Aufgaben verstehen und sicher ausführen können, um Menschen online und in der realen Welt zu helfen. Originallink: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/ |
>>: Häufige Atemwegsinfekte bei jungen und mittelalten Menschen! Wie kann man dem „widerstehen“?
Sit-ups sind eigentlich eine Form der Übung. Beso...
Aerobic-Videobeiträge sind relativ weit verbreite...
Viele Menschen wählen immer blind die für sie am ...
Ich glaube, dass nicht viele Leute gerne weiße Ha...
Die Taipei Computer Show 2014 hat wie geplant bego...
Seilspringen ist ein Sport, den jeder machen kann...
In der heutigen Zeit, in der jeder nach dem Ausse...
Die Guangzhou Auto Show 2016 hat bereits begonnen...
Das Essen von Mondkuchenstücken symbolisiert nich...
[Hefei/Peking, 21. November 2023] Die Volkswagen ...
1. Sitzen Sie aufrecht und spreizen Sie die Beine...
Im Winter wird es sehr kalt und viele Menschen tr...
Viele Menschen haben festgestellt, dass Fettleibi...
Derzeit gibt es in der Automobilindustrie einen T...
Ein Physiker wendet Methoden aus seinem Studium d...