Geschrieben von | Ma Xuewei Vorwort Roboter können jetzt Tischtennis spielen und haben das Niveau mittelmäßiger menschlicher Spieler erreicht! Lassen Sie uns ohne weitere Umschweife sehen, welche verheerenden Auswirkungen es auf menschliche Anfänger hat. Berichten zufolge wurde dieser Roboter vom Google DeepMind-Forschungsteam entwickelt und hat 45 % (13/29) der 29 Roboter-Mensch-Wettbewerbe gewonnen . Es ist erwähnenswert, dass alle menschlichen Spieler den Roboter noch nicht kannten. Während der Roboter alle seine Spiele gegen die Topspieler verlor, schlug er 100 % der Anfänger und 55 % der fortgeschrittenen Spieler. Foto|Tischtennis spielen mit einem professionellen Trainer. Der professionelle Tischtennistrainer Barney J. Reed sagte dazu: „Es ist fantastisch zu sehen, wie der Roboter gegen Spieler aller Niveaus und Stile antritt. Unser Ziel ist es, den Roboter auf ein mittleres Niveau zu bringen. Ich glaube, dieser Roboter hat meine Erwartungen sogar übertroffen.“ Das zugehörige Forschungspapier mit dem Titel „Achieving Human Level Competitive Robot Table Tennis“ wurde auf der Preprint-Website arXiv veröffentlicht. Wie bringt man einen Roboter dazu, Tischtennis zu spielen? Tischtennis ist derzeit ein großes Highlight der Olympischen Spiele in Paris. Tischtennisspieler beweisen im Wettkampf eine extrem hohe körperliche Fitness, hohe Bewegungsgeschwindigkeit, präzise Kontrolle verschiedener Bälle und übermenschliche Sensibilität. Aus diesem Grund haben Forscher seit den 1980er Jahren Tischtennis als Maßstab für Roboter verwendet und zahlreiche Tischtennisroboter entwickelt. Dabei haben sie Fortschritte beim Zurückschlagen des Balls in die gegnerische Spielfeldhälfte, beim Treffen des Ziels, beim Schmetterball, beim kooperativen Spiel und bei vielen anderen wichtigen Aspekten des Tischtennis erzielt. Allerdings hat noch kein Roboter ein komplettes Tischtennisspiel gegen einen unsichtbaren menschlichen Gegner gespielt. In dieser Studie erreichte das Google DeepMind-Team durch Techniken wie hierarchische und modulare Richtlinienarchitektur, iterative Definition der Aufgabenverteilung, Simulation-zu-Simulation-Anpassungsebene, Domänen-Randomisierung, Echtzeit-Anpassung an unbekannte Gegner und Hardware-Bereitstellung eine Leistung auf Amateur-Niveau im Tischtennis-Wettkampf zwischen Robotern und menschlichen Spielern. Abbildung | Überblick über die Methode. 1. Hierarchische und modulare Strategiearchitektur basierend auf einer Kompetenzbibliothek Low-Level Controller (LLC) : Diese Bibliothek enthält verschiedene Tischtennisfähigkeiten wie Vorhandangriff, Rückhandpositionierung, Vorhandaufschlag usw. Jeder LLC ist eine unabhängige Strategie, die sich auf das Training spezifischer Fähigkeiten konzentriert. Diese LLCs werden über neuronale Netzwerke gelernt und in der Simulation mithilfe der MuJoCo-Physik-Engine trainiert. Abbildung | LLC-Schulungsbibliothek. High Level Controller (HLC) : Der HLC ist für die Auswahl des am besten geeigneten LLC basierend auf der aktuellen Spielsituation und den Fähigkeiten des Gegners verantwortlich. Es besteht aus folgenden Modulen: Strategie zur Stilauswahl: Bei dieser Strategie wird je nach Ballart (Aufschlag oder Angriff) entweder die Vorhand oder die Rückhand verwendet. Spin-Klassifizierer: Dieser Klassifizierer bestimmt, ob der ankommende Ball Topspin oder Backspin hat. LLC-Fähigkeitsbeschreibungen: Diese Beschreibungen zeichnen die Leistungsmetriken jedes LLC unter verschiedenen Ballbedingungen auf, beispielsweise Trefferquote und Ballplatzierung. Modul zur Strategieauswahl: Dieses Modul generiert eine Kandidatenliste von LLCs basierend auf LLC-Fähigkeitsbeschreibungen, Spielstatistiken und Fähigkeiten des Gegners. LLC-Präferenz (H-Wert): Dieses Modul verwendet den Gradient-Bandit-Algorithmus, um den Präferenzwert jedes LLC online zu ermitteln und wählt das endgültige LLC basierend auf dem Präferenzwert aus. Abbildung | Sobald der Ball geschlagen ist, bestimmt der HLC zunächst, zu welchem LLC der Ball zurückgespielt werden soll, indem er eine Stilrichtlinie auf den aktuellen Ballzustand anwendet, um Vorhand oder Rückhand zu bestimmen (in diesem Beispiel wird Vorhand gewählt). 2. Techniken zur Umsetzung der Zero-Sample-Simulation in die Realität Aufgabenverteilung iterativ definieren: Diese Methode sammelt anfängliche Ballzustandsdaten aus Mensch-Mensch-Spieldaten und trainiert LLC und HLC in einer simulierten Umgebung. Die durch das simulierte Training generierten Daten werden dann dem realen Datensatz hinzugefügt und der Vorgang wird wiederholt, um die Verteilung der Trainingsaufgaben schrittweise zu verfeinern. Anpassungsschicht von Simulation zu Simulation: Um das Problem zu lösen, das durch die unterschiedlichen Upspin- und Downspin-Modellparameter in der Simulationsumgebung verursacht wird, werden in diesem Dokument zwei Lösungen vorgeschlagen: Rotation und Anpassungsschicht von Simulation zu Simulation. Das Rotationsproblem wird durch Anpassen des LLC-Trainingsdatensatzes gelöst, während die Analog-Analog-Anpassungsschicht mithilfe der FiLM-Schicht die Zuordnung zwischen Upspin und Downspin lernt. Domänenrandomisierung: Während des Trainings randomisiert das Papier Parameter wie Beobachtungsgeräusche, Verzögerung, Tisch- und Schlägerdämpfung, Reibung usw. in der simulierten Umgebung, um die Unsicherheit in der realen Welt zu simulieren. Abbildung | Transformation von der Simulation zur Realität ohne Vorwarnung. 3. Passen Sie sich in Echtzeit an unbekannte Gegner an Echtzeit-Verfolgung von Spielstatistiken: HLC verfolgt Spielstatistiken in Echtzeit, wie etwa die Punktestände und Ballverluste des Robotergegners und des Gegners, und passt die Präferenzwerte von LLC basierend auf diesen Daten an, um sich an Änderungen beim Gegner anzupassen. Online-Lernen der LLC-Präferenzen: Durch den Gradient-Bandit-Algorithmus kann HLC den Präferenzwert jeder LLC online lernen und entsprechend den Schwächen des Gegners eine geeignetere LLC auswählen. Abbildung|Hierarchische Steuerung. Das Forschungsteam sammelte eine kleine Menge an Daten aus Mensch-zu-Mensch-Kämpfen, um die Aufgabenbedingungen zu initialisieren. Anschließend trainieren wir den Agenten in einer Simulation mithilfe von Reinforcement Learning (RL) und setzen verschiedene Techniken ein, um die Richtlinie ohne Vorwarnung auf echter Hardware bereitzustellen. Der Agent spielt gegen menschliche Spieler, um weitere Trainingsbedingungen für die Aufgabe zu generieren, und wiederholt dann den Trainings- und Bereitstellungszyklus. Mit der Verbesserung der Roboter werden die Kriterien für Wettbewerbe komplexer, basieren jedoch weiterhin auf realen Aufgabenbedingungen. Dieser hybride Simulations-Realitätszyklus erstellt einen automatisierten Aufgabenlehrplan, der es dem Roboter ermöglicht, seine Fähigkeiten mit der Zeit zu verbessern. Wie war der Kampf? Um das Können des Agenten zu bewerten, spielte der Roboter Wettkampfspiele gegen 29 Tischtennisspieler unterschiedlicher Könnensstufen – Anfänger, Mittelstufe, Fortgeschrittene und Fortgeschrittene+ – die von einem professionellen Tischtennistrainer bestimmt wurden. Über alle Gegner hinweg gewann der Roboter 45 % seiner Spiele und 46 % seiner Runden. Bei der Aufschlüsselung nach Fähigkeitsstufe sehen wir, dass der Bot alle seine Spiele gegen Anfänger gewonnen, alle seine Spiele gegen fortgeschrittene und fortgeschrittene+ Spieler verloren und 55 % seiner Spiele gegen Spieler auf mittlerem Niveau gewonnen hat. Dies deutet stark darauf hin, dass der Agent in den Runden das Niveau eines mittelmäßigen menschlichen Spielers erreicht. Abbildung | Gegen alle Gegner gewann der Roboter 45 % der Matches und 46 % der Spiele, wobei er 100 % der Matches gegen Anfänger und 55 % der Matches gegen fortgeschrittene Spieler gewann. Den Studienteilnehmern machte das Spielen mit dem Roboter Spaß und sie bewerteten ihn als „lustig“ und „spannend“. Diese Wertung ist für alle Fähigkeitsstufen gleich, unabhängig davon, ob der Teilnehmer gewinnt oder verliert. Sie antworteten außerdem mit überwältigender Mehrheit, dass sie „definitiv“ wieder gegen einen Roboter spielen würden. Als ihnen freie Zeit zum Spielen mit dem Roboter gegeben wurde, spielten sie durchschnittlich 4:06, also insgesamt 5 Minuten. Fortgeschrittene Spieler konnten Schwächen in den Strategien der Bots ausnutzen, hatten aber trotzdem Spaß daran, mit ihnen zu spielen. In Interviews nach dem Spiel hielten sie ihn für einen dynamischeren Trainingspartner als die Ballmaschine. Abbildung | Den Teilnehmern machte das Spielen mit dem Roboter Spaß und sie bewerteten ihn als „unterhaltsam“ und „spannend“. Mängel und Perspektiven Das Forschungsteam sagte, dass dieses Roboter-Lernsystem noch einige Einschränkungen habe, wie etwa eine eingeschränkte Reaktionsfähigkeit auf schnelle und niedrige Bälle, eine geringe Genauigkeit bei der Rotationserkennung und das Fehlen von Strategien und Taktiken für mehrere Bälle. Zu den zukünftigen Forschungsschwerpunkten gehören die Verbesserung der Fähigkeit des Roboters, mit verschiedenen Bällen umzugehen, das Erlernen komplexerer Strategien und die Verbesserung der Motion-Capture-Technologie. Das Forschungsteam gab außerdem an, dass die hierarchische Strategiearchitektur und die in dieser Studie vorgeschlagene Methode zur Konvertierung von Simulation in Realität mit Nullstichproben auf andere Roboterlernaufgaben angewendet werden können. Darüber hinaus kann die Echtzeit-Anpassungstechnologie Robotern dabei helfen, sich besser an veränderte Umgebungen und Aufgaben anzupassen. Darüber hinaus sind auch die Prinzipien des Systemdesigns für die Entwicklung leistungsstarker und robuster Roboter-Lernsysteme von entscheidender Bedeutung. |
Von der PS4-Spielkonsole von Sony wurden seit Jahr...
Seilspringen ist eine Sportart, die jeder kennt. ...
Autor: Zhao Xiaochang, behandelnder Arzt, Beijing...
Der Tourismus ist einer der wichtigsten Wirtschaf...
Was ist ein Hitzschlag Hitzschlag ist ein allgeme...
Viele Männer gehen in ihrem Alltag gerne ins Fitn...
Im Jahr 2019 belief sich der den Aktionären der M...
Die Fahrzeugverkäufe von Volkswagen in den USA gi...
Es ist allgemein bekannt, dass anstrengende körpe...
Die PDF-Version wird auf 199IT Knowledge Planet g...
Ein starker Körper ist untrennbar mit Bauchmuskel...
Viele Freunde, die Fitness machen, kennen ein Vid...
Daten aus einem Bericht des Marktforschungsuntern...
Manche Leute sagen, dass man dick aussieht, wenn ...