Nach einem Schlaganfall war sie 18 Jahre lang sprachlos. KI und Gehirn-Computer-Schnittstelle helfen ihr, „mit Gedanken zu sprechen“.

Nach einem Schlaganfall war sie 18 Jahre lang sprachlos. KI und Gehirn-Computer-Schnittstelle helfen ihr, „mit Gedanken zu sprechen“.

Sprechen ist die grundlegendste Fähigkeit und Methode der zwischenmenschlichen Kommunikation, aber es gibt viele Menschen auf der Welt, die „sich nicht ausdrücken können“.

Die häufigste Ursache für Aphasie ist ein Schlaganfall. Ihre Stimmen werden nicht gehört, ihre Forderungen verhallen ungehört, sie leiden unter sozialer Isolation und ihr Schweigen ist ohrenbetäubend.

Jeder, der durch einen Schlaganfall seine Sprachfähigkeit verloren hat, sehnt sich danach, wieder vollständig und natürlich kommunizieren zu können. Obwohl Lähmungen weltweit nicht geheilt werden können, können gelähmte Patienten, die die Fähigkeit zu sprechen verloren haben, mithilfe von KI nun ihre Stimme wiedererlangen und mit ausdrucksstarken Bewegungen in Echtzeit mit anderen Menschen kommunizieren.

Autor | Turm

Herausgeber | Sanyang

Dieser Artikel wurde zuerst auf der öffentlichen HyperAI WeChat-Plattform veröffentlicht~

Zweig sagte einmal: „ Das größte Glück im Leben eines Menschen besteht darin, seine Bestimmung in der Mitte seines Lebens zu entdecken, wenn er jung und stark ist.

Und was ist das größte Unglück des Menschen?

Meiner Meinung nach besteht das größte Unglück im Leben eines Menschen darin, mitten im Leben plötzlich die Fähigkeit zu sprechen und sich zu bewegen zu verlieren. Über Nacht werden Träume, Karrieren und Hoffnungen zu einer Seifenblase und das Leben wird auf den Kopf gestellt.

Ann ist ein unglückliches Beispiel.

30 Jahre alt, Aphasie aufgrund eines Schlaganfalls

Eines Tages im Jahr 2005 traten bei Ann, die immer bei guter Gesundheit gewesen war, plötzlich Symptome wie Schwindel, undeutliche Aussprache, Tetraplegie und Muskelschwäche auf. Bei ihr wurde ein Hirnstamminfarkt (was wir allgemein als „Schlaganfall“ bezeichnen) diagnostiziert, begleitet von einer Dissektion der linken Vertebralarterie und einem Verschluss der Arteria basilaris .

Dieser unerwartete Schlaganfall hinterließ bei Ann eine Nebenerscheinung namens „ Locked-in-Syndrom “ – Menschen mit dieser Krankheit verfügen über alle Sinne und das Bewusstsein, können jedoch keine Muskeln im Körper mobilisieren. Die Patienten können sich weder selbstständig bewegen noch sprechen, manche können nicht einmal atmen.

Wie das Wort „eingesperrt“ wörtlich ausdrückt, ist der Körper, der gewöhnliche Menschen durch Tausende von Bergen und Flüssen trägt, zu einem Käfig geworden, der die Seele des Patienten versiegelt.

Ann war damals erst 30 Jahre alt, seit 2 Jahren und 2 Monaten verheiratet, ihre Tochter war gerade 13 Monate alt und sie war Mathematiklehrerin an einer High School in Kanada. „ Alles wurde mir über Nacht genommen. “ Diese Worte tippte Ann später mit Hilfe eines Geräts langsam in den Computer.

Ann, die an der Studie teilnahm

Nach Jahren der Physiotherapie konnte Ann atmen, ihren Kopf leicht bewegen, mit den Augen blinzeln und ein paar Worte sprechen, aber das war es auch schon.

Sie sollten wissen, dass der Durchschnittsmensch im normalen Leben mit einer Geschwindigkeit von 160–200 Wörtern pro Minute spricht. Eine Studie der Fakultät für Psychologie der Universität von Arizona aus dem Jahr 2007 ergab, dass Männer durchschnittlich 15.669 Wörter pro Tag sprechen und Frauen durchschnittlich 16.215 Wörter pro Tag (ein Wort entspricht im Durchschnitt 1,5–2 chinesischen Schriftzeichen).

In einer Welt, in der Sprache das wichtigste Mittel der zwischenmenschlichen Kommunikation ist, kann man sich vorstellen, wie viele von Anns Bedürfnissen aufgrund ihrer eingeschränkten Ausdrucksfähigkeit zum Schweigen gebracht wurden. Bei einer Aphasie geht nicht nur die Lebensqualität verloren, sondern auch die Persönlichkeit und Identität. Und wie viele gelähmte und aphasische Menschen auf der Welt sind in der gleichen Situation wie Ann?

18 Jahre lang gelähmt, kann er wieder sprechen

Der größte Wunsch eines jeden Menschen, der aufgrund einer Lähmung seine Sprache verloren hat, ist die Wiederherstellung der Fähigkeit zur vollständigen und natürlichen Kommunikation. Gibt es in der heutigen hochentwickelten technologischen Welt eine Möglichkeit, die Macht der Technologie zu nutzen, um Patienten die Fähigkeit zur zwischenmenschlichen Kommunikation wiederherzustellen?

haben!

Kürzlich entwickelte ein Forschungsteam der University of California in San Francisco und der University of California in Berkeley mithilfe künstlicher Intelligenz eine neue Gehirn-Computer-Technologie, die es Ann, die 18 Jahre lang an Aphasie litt, ermöglichte, wieder zu „sprechen“. Auf Grundlage des digitalen Avatars wurden lebhafte Gesichtsausdrücke generiert, wodurch die Patientin in Echtzeit mit anderen kommunizieren konnte, und zwar in einer Geschwindigkeit und Qualität, die normalen sozialen Interaktionen entspricht.

Ann nutzt einen digitalen Avatar, um mit Menschen zu sprechen

Dies ist das erste Mal in der Geschichte der Menschheit, dass Sprache und Gesichtsausdrücke aus Gehirnsignalen synthetisiert wurden!

Frühere Untersuchungen des UC-Teams haben gezeigt, dass es möglich ist, Sprache aus der Gehirnaktivität gelähmter Menschen zu dekodieren, allerdings nur in Form von Textausgabe und mit begrenzter Geschwindigkeit und begrenztem Wortschatz.

Dieses Mal wollten sie noch einen Schritt weiter gehen: Sie wollten eine schnellere Textkommunikation mit großem Wortschatz ermöglichen und gleichzeitig die mit dem Sprechen verbundenen Sprach- und Gesichtsbewegungen wiederherstellen.

Basierend auf maschinellem Lernen und Brain-Computer-Interface-Technologie erzielte das Forschungsteam die folgenden Ergebnisse, die am 23. August 2023 in Nature veröffentlicht wurden:

► Bei Text wurden die Gehirnsignale der Probanden mit einer Geschwindigkeit von 78 Wörtern pro Minute in Text dekodiert, wobei die durchschnittliche Wortfehlerrate 25 % betrug. Dies ist mehr als viermal schneller als die von den Probanden derzeit verwendeten Kommunikationsgeräte (14 Wörter/Minute).

► Bei Sprachaudio werden Gehirnsignale schnell zu verständlichen und personalisierten Klängen synthetisiert, die mit der Stimme des Probanden vor der Verletzung übereinstimmen;

►Für digitale Gesichtsavatare ist eine virtuelle Gesichtsbewegungssteuerung für sprachliche und nicht-sprachliche Kommunikationsgesten implementiert.

Link zum Artikel:

https://www.nature.com/articles/s41586-023-06443-4

Sie sind sicher neugierig, wie dieses epochale Wunder zustande kam? Als Nächstes wollen wir dieses Dokument im Detail analysieren und sehen, wie die Forscher das Virus wieder zum Leben erweckt haben.

1. Zugrundeliegende Logik: Gehirnsignale → Sprache + Mimik

Das menschliche Gehirn gibt Informationen über periphere Nerven und Muskelgewebe aus, während die Sprachfähigkeit vom „Sprachzentrum“ in der Großhirnrinde gesteuert wird.

Der Grund, warum Schlaganfallpatienten an Aphasie leiden, liegt darin, dass die Blutzirkulation behindert ist und der Sprachbereich des Gehirns aufgrund von Sauerstoffmangel und Mangel an wichtigen Nährstoffen geschädigt wird, was dazu führt, dass ein oder mehrere Mechanismen der Sprachkommunikation nicht richtig funktionieren können und es zu Sprachstörungen kommt.

Als Reaktion darauf hat ein Forscherteam der University of California, San Francisco und Berkeley eine „ multimodale neuronale Sprachprothese “ entwickelt, die ein groß angelegtes, hochdichtes kortikales Elektroenzephalogramm (ECoG) verwendet, um den Text und die audiovisuelle Sprachausgabe zu dekodieren, die durch den im gesamten sensorischen Kortex (SMC) verteilten Stimmtrakt dargestellt werden. Das heißt, es erfasst Gehirnsignale an der Quelle und „übersetzt“ sie mit technischen Mitteln in entsprechende Texte, Sprache und sogar Gesichtsausdrücke.

Multimodale Sprachdekodierung bei Patienten mit Stimmtraktlähmung

2. Prozess und Implementierung: Brain-Computer-Interface + KI-Algorithmus

Das erste sind physische Mittel.

Die Forscher implantierten ein hochdichtes EEG-Array und einen transkutanen Basisverbinder durch die Dura Mater auf der parietalen Oberfläche der linken Hemisphäre von Anns Gehirn und deckten damit Bereiche ab, die mit der Sprachproduktion und Sprachwahrnehmung in Zusammenhang stehen.

Das Array besteht aus 253 scheibenförmigen Elektroden, die Gehirnsignale abfangen, die für Anns Zunge, Kiefer, Rachen und Gesichtsmuskeln bestimmt sind. Ein Kabel wird in einen an Anns Kopf befestigten Anschluss gesteckt und verbindet die Elektroden mit einer Reihe von Computern.

Das Elektrodenarray wurde im Sprachkontrollbereich auf der Oberfläche der Großhirnrinde des Probanden implantiert.

Der zweite ist die Algorithmuskonstruktion.

Um Anns einzigartige Sprachsignatur im Gehirn zu identifizieren, arbeitete das Forschungsteam mehrere Wochen mit ihr zusammen, um ein Deep-Learning-Modell zu trainieren und zu bewerten.

Die Forscher erstellten einen Satz von 1.024 gängigen Sätzen auf Grundlage des NLTK-Twitter-Korpus und des Cornell Film Corpus und wiesen Ann an, in einer natürlichen Sprechgeschwindigkeit leise zu sprechen. Sie wiederholte im Stillen immer wieder verschiedene Sätze aus ihrem 1.024 Wörter umfassenden Konversationsvokabular, bis der Computer die mit den Lauten verbundenen Muster der Gehirnaktivität erkannte.

Es ist erwähnenswert, dass dieses Modell die KI nicht darauf trainiert, ganze Wörter zu erkennen, sondern stattdessen ein System zum Dekodieren von Wörtern aus „Phonemen“ erstellt . Beispielsweise enthält „Hallo“ vier Phoneme: „HH“, „AH“, „L“ und „OW“.

Basierend auf diesem Ansatz müssen Computer nur 39 Phoneme lernen, um ein englisches Wort zu entziffern, was nicht nur die Genauigkeit verbessert, sondern auch die Geschwindigkeit um das Dreifache erhöht.

Hinweis: Ein Phonem ist die kleinste Lauteinheit einer Sprache, die die Aussprachemerkmale der Sprache beschreiben kann, einschließlich Artikulationsort, Aussprachemethode und Stimmbandvibration. Beispielsweise bestehen die Phoneme von „an“ aus /ə/ und /n/.

Dieser Vorgang der Phonem-Dekodierung ähnelt dem Vorgang, bei dem ein Baby das Sprechen lernt. Nach allgemein anerkannter Auffassung im Bereich der Entwicklungslinguistik können Neugeborene 800 Phoneme der Weltsprachen unterscheiden. Vorschulkinder verstehen möglicherweise nicht die Schreibweise und Bedeutung von Wörtern und Sätzen, aber sie können durch das Wahrnehmen, Unterscheiden und Nachahmen von Phonemen nach und nach die Aussprache erlernen und Sprache verstehen.

Schließlich gibt es noch die Sprach- und Gesichtsausdruckssynthese.

Nachdem die Grundlagen gelegt sind, besteht der nächste Schritt darin, Sprache und Gesichtsausdrücke explizit zu machen. Dieses Problem lösen die Forscher durch Sprachsynthese und digitale Avatare.

Für die Sprache entwickelten die Forscher einen synthetischen Sprachalgorithmus, der Aufnahmen von Anns Stimme vor ihrem Schlaganfall verwendete, um den digitalen Avatar so ähnlich wie möglich klingen zu lassen.

Das Gesicht von Anns digitalem Avatar wurde mithilfe einer von Speech Graphics entwickelten Software erstellt und erscheint als Animation eines weiblichen Gesichts auf dem Bildschirm.

Die Forscher passten den maschinellen Lernprozess so an, dass die Software mit den Signalen von Anns Gehirn koordinierte, wenn sie zu sprechen versuchte. Dies führte dazu, dass sich ihr Kiefer öffnete und schloss, ihre Lippen vorsprangen und zusammenzogen, ihre Zunge sich auf und ab bewegte und ihre Gesichtsbewegungen und Gesten Freude, Trauer und Überraschung ausdrückten.

Ann arbeitet mit Forschern am Algorithmus-Training

Zukunftsaussichten

Unser Ziel ist die Wiederherstellung einer vollständigen, verkörperten Form der Kommunikation, die für uns die natürlichste Art der Unterhaltung mit anderen ist“, sagte Dr. Edward Chang, Chefarzt der Neurochirurgie an der UCSF. „Das Ziel der Kombination von hörbarer Sprache mit einem Live-Avatar besteht darin, die gesamte Bandbreite menschlicher Kommunikation zum Leben zu erwecken, die weit mehr ist als nur Sprache.“

Der nächste Schritt des Forschungsteams besteht darin, eine drahtlose Version zu entwickeln, bei der die physische Verbindung der Gehirn-Computer-Schnittstelle entfällt . So können gelähmte Menschen mithilfe dieser Technologie ihre persönlichen Mobiltelefone und Computer frei steuern, was tiefgreifende Auswirkungen auf ihre Unabhängigkeit und soziale Interaktion haben wird.

Von Sprachassistenten auf Mobiltelefonen über elektronische Zahlungen per Gesichtsscan bis hin zu Roboterarmen in Fabriken und Sortierrobotern an Produktionslinien erweitert KI die menschlichen Gliedmaßen und Sinne und dringt nach und nach in jeden Aspekt unserer Produktion und unseres Lebens ein.

Die Forscher konzentrieren sich auf die besondere Gruppe von Menschen mit Lähmungen und Aphasie und nutzen die Möglichkeiten der KI, um ihnen dabei zu helfen, ihre natürliche Kommunikationsfähigkeit wiederherzustellen. Dies soll die Kommunikation zwischen den Patienten und ihren Verwandten und Freunden verbessern, ihre Möglichkeiten zur Wiedererlangung zwischenmenschlicher Interaktionen erweitern und letztlich die Lebensqualität der Patienten verbessern.

Wir freuen uns über diesen Erfolg und darauf, weitere gute Nachrichten darüber zu hören, wie KI der Menschheit nützt.

Referenzlinks:

[1] https://www.sciencedaily.com/releases/2023/08/230823122530.htm

[2] http://mrw.so/6nWwSB

Dieser Artikel wurde zuerst auf der öffentlichen HyperAI WeChat-Plattform veröffentlicht~

<<:  Was ist die Magie der G219, Chinas schönster selbstfahrender Autobahn?

>>:  Welttag des Radfahrens – Das Geheimnis der Balance kleiner Räder: Sie brauchen nur Kraft und sich selbst, damit das Fahrrad reibungslos läuft

Artikel empfehlen

Es ist grün, aber warum sind die Bäume auf der Wiese so schwer zu erkennen?

Autor: Duan Yuechu und Huang Yanhong Als wir das ...

Wenn die Korallen verschwunden sind, wo werden sich die Krabben festsetzen?

Derzeit stellt der globale Klimawandel, insbesond...

Die weltweit meistbeobachtete Komet-Jupiter-Kollision

Wenn wir über das Verschwinden der Dinosaurier vo...

Können Sit-ups wirklich beim Abnehmen helfen?

Heutzutage sitzen viele Büroangestellte viel und ...