Ihre Kopfhörer werden bald von KI „gestört“: Schauen Sie einfach hin und die ganze Welt ist mit seiner Stimme erfüllt

Ihre Kopfhörer werden bald von KI „gestört“: Schauen Sie einfach hin und die ganze Welt ist mit seiner Stimme erfüllt

Das moderne Leben ist größtenteils laut. Wenn Ihnen der Lärm um Sie herum nicht gefällt, können Sie Kopfhörer mit Geräuschunterdrückung tragen, um die lauten Geräusche um Sie herum auszublenden.

Ein Problem besteht allerdings darin, dass aktuelle Kopfhörer mit Geräuschunterdrückung alle Geräusche wahllos herausfiltern, auch solche, die man eigentlich hören möchte .

Während Apples AirPods Pro der zweiten Generation die Lautstärke automatisch an den Träger anpassen können – indem sie beispielsweise erkennen, wenn dieser spricht –, haben sie kaum Kontrolle darüber, wem sie wann zuhören.

Nun könnte eine neue Technologie der künstlichen Intelligenz (KI) einen Kopfhörer hervorbringen, der die Tradition revolutionieren wird – mit nur einem Blick wird die ganze Welt von seiner Stimme erfüllt sein.

Ein Forschungsteam der University of Washington hat ein Kopfhörersystem mit künstlicher Intelligenz entwickelt – Target Speech Hearing (TSH). Der Träger muss den Ziellautsprecher nur 3–5 Sekunden lang ansehen, um den Lautsprecher zu „sperren“, alle anderen Geräusche in der Umgebung auszublenden und nur der Stimme des „gesperrten“ Lautsprechers zuzuhören . Das TSH-System funktioniert auch, wenn sich der Träger an einem lauten Ort bewegt und nicht mehr dem Sprecher zugewandt ist.

Wir denken bei KI heute normalerweise nur an webbasierte Chatbots, die Fragen beantworten “, sagt Shyamnath Gollakota, der korrespondierende Autor des Artikels und Professor an der Paul G. Allen School of Computer Science & Engineering der University of Washington. „ Aber in diesem Projekt haben wir eine KI entwickelt, die die Hörwahrnehmung des Trägers basierend auf seinen Vorlieben verändern kann .“

Das Forschungsteam sagte, dass das TSH-System nicht nur die Stimme einer einzigen Person abhören, sondern auch die Stimme einer einzigen Person entfernen könne. Dies kann in bestimmten Situationen hilfreich sein, beispielsweise wenn Sie störende Äußerungen einer Person herausfiltern und dennoch hören möchten, was alle anderen sagen.

Zuvor hatte das Forscherteam dieses Forschungsergebnis auf der ACM CHI Conference on Human Factors in Computing Systems vorgestellt, der wichtigsten internationalen Konferenz im Bereich der Mensch-Computer-Interaktion.

Der Code für dieses Proof-of-Concept-Gerät steht derzeit anderen zur Nutzung zur Verfügung, wurde jedoch noch nicht kommerzialisiert. Derzeit laufen Gespräche über die Einbettung in geräuschunterdrückende Kopfhörer einer beliebten Marke.

In zukünftigen Arbeiten hoffen sie, das TSH-System auf Ohrhörer und Hörgeräte auszuweiten.

Das Geräusch des "Eingesperrtseins"

Dem Dokument zufolge muss der Träger beim Einsatz des TSH-Systems lediglich seinen Kopf auf den Ziellautsprecher richten und dann auf eine Schaltfläche tippen, um die „Sperre“ abzuschließen.

Die Arbeit baut auf der früheren Forschung des Teams zum semantischen Hören auf, das es Benutzern ermöglicht, bestimmte Geräuschkategorien auszuwählen, die sie hören möchten (wie Vogelrufe oder Stimmen), und andere Geräusche in der Umgebung auszublenden.

Die Schallwellen des „gesperrten“ Lautsprechers erreichen gleichzeitig die Mikrofone auf beiden Seiten des Headsets. Das Headset sendet das Signal an den eingebetteten Computer, wo die Software für maschinelles Lernen beginnt, die Stimmmuster des „gesperrten“ Sprechers zu erlernen.

Das TSH-System erfasst diese Geräusche und spielt sie dem Träger kontinuierlich vor, auch wenn er sich mit den Kopfhörern bewegt.

Während die „Zielperson“ weiterspricht, verbessert sich die Fähigkeit des Systems, auf ihre Stimme zu achten, wodurch dem System mehr Trainingsdaten zur Verfügung gestellt werden.

Sie testeten das System an 21 Probanden, die die Klarheit des „gesperrten“ Tons im Durchschnitt fast doppelt so hoch bewerteten wie die des ungefilterten Tons.

Mängel und Perspektiven

Allerdings weist diese Studie auch einige Einschränkungen auf.

Aktuelle TSH-Systeme können sich beispielsweise immer nur auf einen Sprecher gleichzeitig „einrasten“ lassen und den Zielsprecher nur dann einrasten, wenn sich in der gleichen Richtung wie der Sprecher keine andere lautere Stimme befindet.

In zukünftigen Arbeiten hofft das Forschungsteam, das TSH-System so zu erweitern, dass es das gleichzeitige „Sperren“ mehrerer Zielsprecher unterstützt. Sie schlugen zwei mögliche Methoden vor:

1) Führen Sie für jeden Lautsprecher eine separate Netzwerkinstanz aus. Das Problem bei diesem Ansatz besteht darin, dass er mehr Rechenressourcen erfordert, da jeder Sprecher einen unabhängigen Verarbeitungsfluss benötigt.

2) Trainieren Sie ein Netzwerk, das mehrere Sprecher gleichzeitig verarbeiten kann. Verwenden Sie dazu eine Art „aggregiertes Multi-Speaker-Embedding“, bei dem nicht für jeden Sprecher eine separate Instanz ausgeführt werden muss, sondern die Sprache aller Sprecher in einem Durchgang getrennt wird. Dadurch wird die Verarbeitung mehrerer Sprecher effizienter.

Darüber hinaus können sich die Merkmale der menschlichen Stimme durch Faktoren wie Alter, Gesundheitszustand und emotionale Veränderungen verändern , was dazu führen kann, dass das TSH-System subtile Unterschiede in der Stimme nicht mehr erkennen kann und sich somit nicht auf den Zielsprecher „einstimmen“ kann.

Das Forschungsteam gibt an, dass die Träger binaurale Hearables verwenden können, um eine Registrierungsprobe der Zielsprache zu erfassen, bevor sie den Zielsprecher extrahieren. Daher dürfte sich dieser Faktor kurzfristig nicht wesentlich ändern.

Gleichzeitig gilt: Je größer die Ähnlichkeit zwischen dem Zielsprecher und dem Störsprecher ist, desto schwieriger ist es, den Störsprecher vollständig zu eliminieren . Um die Robustheit des Systems zu erhöhen, können statt nur einem mehrere „Lock“-Datensätze zu unterschiedlichen Zeitpunkten verwendet werden.

Obwohl das Forschungsteam synthetische Daten für das Training verwendete und in der Lage war, auf Sprecher zu verallgemeinern, die in der realen Welt nicht vorkommen, sowie auf Innen- und Außenumgebungen und die Mobilität zu unterstützen, muss die Generalisierungsfähigkeit des Modells für unterschiedliche Umgebungen und Sprecher in tatsächlichen Anwendungen möglicherweise weiter überprüft und verbessert werden .

Schließlich untersuchten sie auch einige Methoden, um den Zielsprecher effektiver zu „fixieren“ . Beispielsweise wird die Bewegung des Zielsprechers unterstützt, wodurch die Wahrscheinlichkeit verringert wird, dass ein anderer, stark störender Sprecher in der gleichen Richtung auftaucht; Selbst in statischen Szenen ist das Netzwerk darauf trainiert, sich nur auf den Sprecher zu konzentrieren, der in der Blickrichtung des Trägers am nächsten oder lautesten ist.

Referenzlinks:

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

<<:  Brasilien wird mit Mücken zur Bekämpfung von Mücken die größte Mückenfabrik der Welt bauen, mit einer jährlichen Produktion von 5 Milliarden Mücken

>>:  Weltottertag | Welche bösen Absichten könnte ein Otter haben?

Artikel empfehlen

Körperteile, die Männer mehr trainieren müssen

Beim täglichen Training für Männer spielen Taille...

iPhone SE: Erfolg oder Misserfolg in China?

Neue Daten zeigen, dass Apples iPhone-Marktanteil ...

Welche Abendzeit eignet sich am besten für Sport?

Egal, wie beschäftigt die Leute sind, sie müssen ...

Wie macht man Liegestütze am besten mit einer Hand?

Liegestütze sind eine Übung, die vielen Jungen se...

Was ist die beste Art, Gewicht zu verlieren, indem man Übungen macht?

Die Qualität der Körperform ist eines der wichtig...

Nicht für Kinder geeignet? Die fünf beliebtesten Nacktsportarten der Welt

Nacktkultur ist ein Thema, das es wert ist, thema...

Was verkaufen die Leute, die Spieße verkaufen?

Halbgötter und Halbteufel, welche acht Teile sind...

Supertaifun Xuanlannuo, was ist sein Ursprung?

Gemischtes Wissen Speziell entwickelt, um Verwirr...