Kann das menschliche Lächeln im Voraus „kopieren“! Ist es möglich, dass sich KI in die menschliche soziale Welt integriert?

Kann das menschliche Lächeln im Voraus „kopieren“! Ist es möglich, dass sich KI in die menschliche soziale Welt integriert?

Durch die Entstehung großer Sprachmodelle (LLM) wie ChatGPT verfügen Roboter über ähnliche sprachliche Ausdrucksfähigkeiten wie Menschen. Wenn der Roboter jedoch mit Menschen spricht, wirkt sein Gesichtsausdruck immer noch unnatürlich und sogar voller Angst .

Dies wird zweifellos die Bereitschaft der Menschen zur Kommunikation mit Maschinen beeinträchtigen und die Kommunikation zwischen beiden sehr schwierig machen.

Daher ist es im zukünftigen Zeitalter der Koexistenz von Mensch und Maschine von entscheidender Bedeutung, einen Roboter zu entwickeln, der nicht nur verschiedene Gesichtsausdrücke machen kann, sondern auch weiß, wann er diese Ausdrücke einsetzen muss.

Nun ist einem Forschungsteam der Columbia University und seinen Mitarbeitern ein wichtiger Schritt nach vorne gelungen: Sie haben einen Roboter namens Emo entwickelt, der mit Silikon überzogen ist und menschliche Gesichtsausdrücke vorhersagen und synchron ausführen kann . Es kann sogar ein bevorstehendes Lächeln etwa 840 Millisekunden (ungefähr 0,9 Sekunden) vor dem Lächeln eines Menschen vorhersagen.

Berichten zufolge kann es Blickkontakt mit Menschen herstellen und mithilfe zweier Modelle künstlicher Intelligenz (KI) das Lächeln von Menschen vorhersagen und „kopieren“, bevor sie lächeln. Das Forschungsteam sagte, dies sei ein großer Fortschritt in der Fähigkeit von Robotern, menschliche Gesichtsausdrücke genau vorherzusagen, Interaktionen zu verbessern und Vertrauen zwischen Menschen und Robotern aufzubauen .

Die zugehörige Forschungsarbeit mit dem Titel „Human-robot facial coexpression“ wurde heute in der Fachzeitschrift Science Robotics veröffentlicht. Yuhang Hu, ein Ph.D. in Maschinenbau an der Columbia University, ist der Erstautor und Co-Korrespondenzautor des Artikels, und sein Mentor, Hod Lipson , ein Professor an der Columbia University, ist der Co-Korrespondenzautor des Artikels.

Foto|Yuhang Hu von Angesicht zu Angesicht mit Emo. (Quelle: Creative Machines Lab)

In einem gleichzeitig in Science Robotics veröffentlichten FOCUS-Artikel kommentierte Rachael Jack, Professorin für Computational Social Cognition an der Universität Glasgow:

„Menschliche soziale Interaktionen sind von Natur aus multimodal und beinhalten eine komplexe Kombination aus visuellen und akustischen Signalen. Während sich die Studie von Hu und Kollegen auf eine einzige Modalität – Gesichtsausdrücke – konzentrierte , leistet ihre Arbeit einen bedeutenden Beitrag zur Entwicklung komplexerer sozialer Synchronisationsfähigkeiten über multimodale Signale hinweg .“

Ihrer Ansicht nach handelt es sich zwar um eine komplexe interdisziplinäre Aufgabe, doch „ist es möglich, soziale Roboter wirklich in die menschliche soziale Welt zu integrieren.“

Emo lächelte, aber es war mehr als nur ein Lächeln

Wenn Sie auf einen Roboter mit menschlichem Kopf zugehen und er Sie anlächelt, was würden Sie tun? Sie werden wahrscheinlich zurücklächeln und vielleicht das Gefühl haben, dass Sie beide aufrichtig miteinander kommunizieren.

Aber woher weiß der Roboter, wie das geht? Oder eine bessere Frage: Woher weiß es, wie es Sie zum Lächeln bringt?

Dazu mussten Yuhang Hu und seine Kollegen zwei große Herausforderungen lösen: Die eine bestand darin, ein ausdrucksstarkes Robotergesicht mechanisch zu entwerfen, was komplexe Hardware und Ausführungsmechanismen erfordert; die andere bestand darin, zu wissen, welche Ausdrücke erzeugt werden mussten, damit sie natürlich, zeitgemäß und echt wirkten.

Dem Papier zufolge ist Emo mit 26 Aktuatoren ausgestattet, sein Kopf ist mit einer weichen Silikonhaut überzogen und er verfügt über ein magnetisches Verbindungssystem für eine einfache Anpassung und schnelle Wartung. Um lebensechtere Interaktionen zu ermöglichen, integrierte das Forschungsteam hochauflösende Kameras in die Pupillen jedes Auges von Emo, wodurch Augenkontakt hergestellt werden konnte, der für die nonverbale Kommunikation von entscheidender Bedeutung ist.

Abbildung |Robotergesichtsplattform

Darüber hinaus entwickelten sie zwei KI-Modelle : eines, das menschliche Gesichtsausdrücke vorhersagt, indem es subtile Veränderungen im Gesicht der Zielperson analysiert, und ein anderes, das anhand entsprechender Gesichtsausdrücke motorische Befehle generiert. Das erste Modell wurde durch das Ansehen von Online-Videos trainiert, während das zweite trainiert wurde, indem der Roboter seine eigenen Ausdrücke in einem Live-Kamera-Feed beobachtete. Sie demonstrierten die Wirksamkeit beider Modelle durch quantitative Bewertungen im Vergleich zu anderen Basiswerten.

Abbildung|Modellarchitektur. Inverses Modell (A) und prädiktives Modell (B)

Um Emo das Erzeugen von Gesichtsausdrücken beizubringen, platzierte das Forschungsteam Emo vor einer Kamera und ließ ihn zufällige Bewegungen ausführen . Nach einigen Stunden lernte Emo die Beziehung zwischen Gesichtsausdruck und motorischen Befehlen – genau wie Menschen Mimik üben, indem sie in den Spiegel schauen. Sie nennen dies „Selbstmodellierung“ – ähnlich wie Menschen sich vorstellen, einen bestimmten Gesichtsausdruck zu machen.

Anschließend spielte das Forschungsteam Videos menschlicher Gesichtsausdrücke ab und ließ Emo diese Bild für Bild betrachten. Nach einigen Stunden Training war Emo in der Lage, die Gesichtsausdrücke von Menschen vorherzusagen, indem er winzige Veränderungen in ihren Gesichtern beobachtete.

Aus Sicht von Yuhang Hu ist die genaue Vorhersage menschlicher Gesichtsausdrücke ein wichtiger Durchbruch in der Mensch-Computer-Interaktionstechnologie. „Wenn Roboter in Echtzeit mit Menschen interagieren, verbessert das nicht nur die Qualität der Interaktion, sondern trägt auch dazu bei, Vertrauen zwischen Mensch und Roboter aufzubauen. In Zukunft werden Roboter bei der Interaktion mit Menschen Ihre Mimik wie echte Menschen beobachten und interpretieren .“

Es ist erwähnenswert, dass die potenziellen Auswirkungen dieser Forschung über die Robotik hinaus auf Bereiche wie die Neurowissenschaften und die experimentelle Psychologie reichen könnten.

Beispielsweise könnte ein Robotersystem, das Gesichtsausdrücke vorhersagen und synchronisieren kann, als Werkzeug zur Untersuchung des Spiegelneuronensystems dienen. Durch die Interaktion mit den Teilnehmern während der Messung der Gehirnaktivität können Forscher Einblicke in die neuronalen Korrelate sozialer Interaktion und Kommunikation gewinnen.

Im Bereich der Psychologie könnten Roboter, die Gesichtsausdrücke vorhersagen und synchronisieren können, als pädagogische Hilfsmittel eingesetzt werden, um Menschen mit Autismus dabei zu helfen, bessere soziale Kommunikationsfähigkeiten zu entwickeln. Studien haben gezeigt, dass Roboter die soziale Interaktion bei Kindern mit Autismus-Spektrum-Störungen (ASD) effektiv fördern können.

Mängel und Perspektiven

Obwohl Emo bereits menschliche Gesichtsausdrücke vorhersagen und schnell und synchron reagieren kann, ist er noch weit davon entfernt, die menschliche Gesichtskommunikation vollständig zu erfassen und könnte sogar abstoßend wirken, wenn er von einem erwachsenenähnlichen Roboter nachgeahmt wird.

Das Forschungsteam ist jedoch der Ansicht, dass Roboter ebenso wie Kleinkinder lernen, ihre Eltern zu imitieren, bevor sie selbständig Gesichtsausdrücke machen können , zunächst lernen müssen, menschliche Ausdrücke vorherzusagen und zu imitieren, bevor sie zu einer spontaneren und selbstgesteuerten Ausdruckskommunikation heranreifen können.

In zukünftigen Arbeiten hoffen sie, Emos Ausdrucksmöglichkeiten zu erweitern und ihm beizubringen, Ausdrücke zu bilden, die auf dem basieren, was Menschen sagen . Sie arbeiten daran, die Sprachkommunikation in Emo zu integrieren und eine Verbindung zu großen Sprachmodellen wie ChatGPT herzustellen.

Sie sagten jedoch auch, dass die vom Roboter nachgeahmten Gesichtsausdrücke sorgfältig ausgewählt werden müssen . Beispielsweise werden bestimmte Gesichtsgesten wie Lächeln, Nicken und Augenkontakt in der menschlichen Kommunikation oft natürlich beantwortet und positiv bewertet. Umgekehrt sollte das Nachahmen von Ausdrücken wie Schmollen oder Stirnrunzeln mit Vorsicht erfolgen, da diese Ausdrücke als Sarkasmus missverstanden werden oder unbeabsichtigte Emotionen vermitteln könnten.

Darüber hinaus ist die Wahrnehmung dieser Ausdrücke durch menschliche Benutzer der entscheidende Maßstab für den Erfolg. Ein wichtiger zukünftiger Schritt wird darin bestehen, die emotionalen Auswirkungen dieser Ausdrücke in realen Mensch-Roboter-Interaktionen in verschiedenen Kontexten zu validieren, um ihre psychologische Gültigkeit zu bestimmen.

Darüber hinaus weist die Studie auch bestimmte Einschränkungen auf . Eine davon besteht darin, dass „den Vorhersagen und Gesichtsausdrucksimitationen des Modells möglicherweise die kulturelle Sensibilität fehlt“.

Es ist bekannt, dass es in verschiedenen Kulturen unterschiedliche Normen und Bedeutungen für bestimmte Gesichtsausdrücke geben kann. Während Lächeln in vielen Kulturen oft als Zeichen von Freude oder Freundlichkeit gilt, kann es auch ein Zeichen von Verlegenheit oder Unsicherheit sein. Ebenso kann direkter Augenkontakt in manchen Kulturen als Zeichen von Vertrauen und Ehrlichkeit gelten, in anderen jedoch als unhöflich oder konfrontativ.

Zukünftige Arbeiten könnten sich mit der Einbeziehung des kulturellen Kontexts in das Modell befassen. Ein möglicher Ansatz besteht darin, Datensätze mit unterschiedlichem kulturellen Hintergrund einzubeziehen und ein Verständnis kultureller Normen in den Algorithmus einfließen zu lassen.

Foto: Yuhang Hu bei der Arbeit im Labor von Hod Lipson. (Bildnachweis: John Abbott/Columbia Engineering)

Schließlich lässt sich ein Thema nicht vermeiden: Angesichts der Fähigkeit der Roboter, sich immer mehr wie Menschen zu verhalten, müssen sich Forschungsteams mit den ethischen Fragen auseinandersetzen, die mit dieser Technologie verbunden sind . Um einen potenziellen Missbrauch der Technologie (wie etwa Täuschung oder Manipulation) zu verhindern, sind starke ethische Rahmenbedingungen und Governance erforderlich.

Dennoch ist diese Forschung sehr spannend. Das Forschungsteam drückt es so aus:

Wir nähern uns einer Zukunft, in der sich Roboter nahtlos in unseren Alltag integrieren und uns Gesellschaft leisten, unterstützen und sogar Empathie zeigen. Stellen Sie sich eine Welt vor, in der die Interaktion mit einem Roboter so selbstverständlich und angenehm ist wie ein Gespräch mit einem Freund .

Referenzlinks:

https://www.science.org/doi/10.1126/scirobotics.adi4724

https://www.science.org/doi/10.1126/scirobotics.ado5755

https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

https://www.creativemachineslab.com/

<<:  Die präziseren Beobachtungen des Webb-Teleskops verwirren die Wissenschaftler noch mehr über die Ausdehnung des Universums

>>:  Dieses Lebensmittel ist nicht nur ein Muss zum Kochen, es kann auch seltene Krankheiten behandeln!

Artikel empfehlen

Welche Übungen können die Taille stärken

Wenn bestimmte Körperteile nicht regelmäßig train...

Kann das Schlagen auf einen Sandsack beim Abnehmen helfen?

Übermäßiges Übergewicht führt nicht nur dazu, das...

Analyst: China-Geschäft ist für Apple zur Belastung geworden

Ein neues Jahr bringt natürlich neue Perspektiven...

Ist Yoga gut?

Yoga ist die häufigste und einfachste Sportart in...

Ist der Mond eigentlich schwarz?

Mit Mondboden ist der Boden gemeint, der nur auf ...