Ist KI mit einer künstlichen menschlichen Stimme unbesiegbar?

Ist KI mit einer künstlichen menschlichen Stimme unbesiegbar?

Eines Morgens im Jahr 2014 wachte Val Kilmer auf und war von Blut umgeben. Die einzige Auffälligkeit an seinem Körper war sein Hals, wo sich ein Knoten gebildet hatte, der ihm das Schlucken erschwerte.

Bald darauf wurde bei ihm Kehlkopfkrebs diagnostiziert, der die Ursache für sein Bluterbrechen war. Zur Behandlung musste er sich einer Tracheotomie unterziehen. Durch die Operation entsteht ein Loch im Hals und zum Essen muss eine Sonde eingeführt werden. Von da an heißt es: „Atmen oder essen?“ wurde zu einer Frage der Wahl zwischen zwei Optionen.

Val Kilmers Rivalität mit Tom Cruise in Top Gun | Quelle: Looper

Die schwerwiegendere Konsequenz für den Hollywood-Schauspieler, der 1995 die Batman-Version spielte, war der Verlust seiner Stimme. Wenn er jetzt versucht zu sprechen, gibt er nur ein Geräusch von sich, das zwischen „einem Quietschen und einem Knurren“ liegt.

Letztes Jahr beschloss Kilmer, mit dem Unternehmen für künstliche Intelligenz Sonantic zusammenzuarbeiten, um seine „Fähigkeit zu sprechen“ wiederherzustellen. Mithilfe einiger weniger Aufnahmen gelang es ihnen, eine Stimme zu klonen, die der von Kilmer vor seiner Erkrankung sehr ähnlich war, und so können sie künftig in seinem Namen sprechen.

Die Technologie der KI zur Synthese menschlicher Stimmen ist bereits sehr ausgereift. Bei einigen gängigen Plattformen, die für kostenlose Tests offen sind, wie etwa Resemble AI und Descript, müssen Sie lediglich 25 Sätze oder 10 Minuten Aufnahmezeit aufzeichnen, um Ihre Stimme zu klonen. Je länger der Trainingssatz ist, desto ähnlicher wird das Modell Ihnen natürlich sein. Was sind die Mindestanforderungen? 3,7 Sekunden reichen aus.

Neben der Behandlung von Patienten wie Kilmer hat das Klonen von Stimmen noch einen weiteren wichtigen Nutzen: Es dient dazu, „Alte wiederzubeleben“, seien es verstorbene Verwandte oder verstorbene Prominente. Vor nicht allzu langer Zeit veröffentlichte das Sprachsyntheseunternehmen Play.ht eine Podcast-Folge mit einem Gespräch zwischen Steve Jobs und dem berühmten Podcast-Moderator Joe Rogan – Text und Stimme wurden vollständig von KI synthetisiert.

Die „Fakes“ quatschen und lachen im Podcast, die Echten müssen nicht von Anfang bis Ende mitmachen. Handelt es sich hierbei um eine Rechtsverletzung? Wem gehört insbesondere die Stimme der Verstorbenen? Kann es jeder benutzen?

Die schwierigere Frage ist: Wie kann man das Echte vom Falschen unterscheiden?

Es ist eine gute Technologie, aber sie wird für Betrug verwendet?

Sagen Sie nicht, dass Sie definitiv zwischen der menschlichen Stimme und der KI unterscheiden können.

Im März 2019 erhielt ein Mitarbeiter eines britischen Energieunternehmens einen Anruf von seinem Chef mit der Aufforderung, innerhalb einer Stunde 220.000 Euro an einen Lieferanten in Ungarn zu überweisen. Der „Chef“ am anderen Ende der Leitung hatte einen leichten deutschen Akzent und seine Stimme klang genauso wie die seines üblichen Chefs. Er hat es sofort und ohne jeden Zweifel getan. Nach der Überweisung wurde das Geld schnell nach Mexiko überwiesen und war nur schwer zurückzuerhalten. Im Jahr 2020 wurde ein Bankmanager in Hongkong von einer geklonten Stimme getäuscht und gab eine Überweisung von 35 Millionen US-Dollar an die Betrüger frei.

Dies kommt immer häufiger vor. Eine VMware-Umfrage in diesem Jahr ergab, dass zwei Drittel der befragten Unternehmen angaben, dass die Betrugsangriffe, denen sie im vergangenen Jahr ausgesetzt waren, Elemente der Audio- oder Videofälschung enthielten.

Wenn man am Telefon eine vertraute Stimme hört, haben die meisten Menschen „nicht das nötige Muskelgedächtnis, um wirklich damit umzugehen“, sagt Lisa O’Connor, Geschäftsführerin bei Accenture Security.

Physiologisch gesehen wird das menschliche Gehirn stumm, wenn es mit falschen Stimmen konfrontiert wird.

Eine Studie der UC Riverside aus dem Jahr 2019 stellte deutliche Unterschiede in den Gehirnscans von Menschen fest, die ein authentisches und ein gefälschtes Rembrandt-Gemälde betrachteten. Das Gleiche galt nicht, als sie Morgan Freeman, einem Roboter-Freeman und einem Imitator zuhörten.

„Die Ergebnisse deuten darauf hin, dass der Mensch möglicherweise von Natur aus nicht in der Lage ist, zwischen realen und nicht-realen Geräuschen zu unterscheiden.“

Es gibt keinen signifikanten Unterschied in der menschlichen Gehirnaktivität beim Hören echter und synthetischer Stimmen | Quelle: Papierillustration

Ist KI mit einer künstlichen menschlichen Stimme unbesiegbar?

Wissenschaftler versuchen, damit umzugehen.

In einer aktuellen Studie entdeckten Forscher der University of Florida einen Fehler in der Maschine: Sie verfügt über keinen Stimmtrakt. Mit anderen Worten: Die Grenzen der menschlichen Sprechweise liegen in der Struktur des Stimmtrakts jedes Menschen, bei der KI hingegen gibt es keine derartigen „Grenzen“.

Seit Jahrzehnten versuchen Wissenschaftler, die Geräusche prähistorischer Lebewesen nachzubilden. Mammuts, Dinosaurier ... wie würden ihr Brüllen und ihre Rufe klingen? Die Form der Knochen liefert viele Hinweise. Im Fall des Parasaurolophus beispielsweise gab es in seinem Schädel eine lange Höhle, die die Wissenschaftler zur Schätzung seiner Resonanzfrequenz nutzten.

Dasselbe gilt für die menschliche Stimmgebung, bei der die verschiedenen Strukturen des Stimmtrakts, der Stimmbänder, der Zunge und der Lippen zusammenwirken, um Luft zu pressen und so Laute zu erzeugen und zu verändern. Mithilfe akustischer und strömungsdynamischer Modelle konnten die Forscher herausfinden, welche Struktur den Ton erzeugte.

Normalerweise sieht es ungefähr so ​​aus: ein unregelmäßiger Pfad mit Unebenheiten und Tälern.

Der Öffnungsgrad des Mundes bestimmt, welche Laute wir erzeugen. Quelle: Screenshot des Papiers

Als sie jedoch maschinell erzeugte Geräusche in dasselbe Modell einspeisten, geschah etwas Seltsames:

Der rote Kreis zeigt die „Sprachkanalstruktur“ der Maschine | Quelle: Screenshot des Papiers

Die Stimme des Roboters wird wie ein dünner, langer Strohhalm aus dem Stimmtrakt herausgedrückt und unterscheidet sich völlig von der normalen Struktur des menschlichen Körpers. Allein durch die Betrachtung eines seitlichen anatomischen Bildes wie diesem können Sie fast sofort erkennen, ob das Geräusch von einem Menschen oder einer Maschine erzeugt wird. Mit dieser Methode testeten sie 4.966 Audiosegmente mit einer Genauigkeitsrate von 99,9 %.

Stellen Sie sich vor, dass dies bald eine Grundkonfiguration werden könnte. Wenn Sie einen Anruf annehmen, wird gleichzeitig ein zusätzliches Plug-In ausgeführt, das ermittelt, ob es sich bei der Stimme am anderen Ende um eine echte Person oder eine maschinell synthetisierte Stimme handelt, und Ihnen dann eine Warnung ausgibt.

Viele Leute arbeiten bereits daran. Um geklonten Stimmen und gefälschtem Audio entgegenzuwirken, veröffentlichte Google 2019 eine synthetische Sprachdatenbank, um die Forschung zur Erkennung gefälschter Audiodaten voranzutreiben. Es enthält Tausende von Phrasen, die vom Deep-Learning-Modell von Google „gesprochen“ werden. Dabei kommen 68 verschiedene Stimmen zum Einsatz, um eine Vielzahl von Akzenten abzudecken. Man hofft, dass dies die Außenwelt dazu ermutigt, mehr Lösungen zur Sprachauthentifizierung zu entwickeln.

Was würden wir allein tun, wenn wir nicht über die Werkzeuge der Wissenschaftler verfügten?

Es gibt einige Tipps, aber sie basieren größtenteils auf Intuition.

Pindrop, ein Unternehmen für Stimmauthentifizierungsdienste, hat synthetische Stimmen entwickelt und dabei auch einige Mängel an der Maschine entdeckt:

Die Verarbeitung von Reibelauten wie f, s, v und z ist nicht gut, da die Software Schwierigkeiten hat, sie vom Rauschen zu unterscheiden.

Wenn Sie den Ton gerne in die Länge ziehen, ist es für den Algorithmus schwierig, das Ende des Wortes vom Hintergrundgeräusch in der Aufnahme zu unterscheiden, was zu Problemen beim Satzwechsel führen kann

Zu "sauber", als wäre es in einem Studio mit professioneller Ausrüstung aufgenommen worden, und die Qualität ist gleichbleibend

Pindrop hat außerdem einige außergewöhnlich „schlaue“ Kriminelle entdeckt, die, um diese Mängel zu vertuschen, absichtlich laute Umgebungsgeräusche einfügen, um das Urteilsvermögen der Gegenpartei zu beeinträchtigen. Es gab einen Betrüger, den sie „Chicken Man“ nannten und der im Hintergrund immer Hähne spielte, und eine Frau, die mit dem Geräusch eines weinenden Babys versuchte, Mitgefühl zu erregen.

Seien Sie daher vorsichtig, wenn Sie ständig ein seltsames Geräusch von der anderen Seite hören.

Für Gespräche, bei denen es um Transaktionen mit hohem Einsatz geht, hat Henry Adjed, Leiter des Deepfake-Erkennungsunternehmens Deeptrace, einen praktischen Vorschlag: Erwägen Sie die Verwendung von Code zur Gesprächsführung oder stellen bzw. beantworten Sie zu Beginn des Anrufs eine geheime Frage.

Angesichts der aktuellen Lerngeschwindigkeit der KI glaube ich, dass diese plumpen Fehler bald nach und nach behoben werden. In einer Forschungsarbeit wurde beispielsweise festgestellt, dass man anhand der Unregelmäßigkeit des Blinzelns einer Person feststellen kann, ob es sich bei einem Video um einen Deep Fake handelt. Aber nur wenige Monate später behob der Entwickler den Fehler.

Aber zumindest können Menschen heute noch anhand subtiler Hinweise erkennen, dass die andere Partei nicht von derselben Art ist wie wir. So gibt es beispielsweise im Gespräch zwischen Logan und Jobs immer wieder merkwürdige Lacher zwischen den flüssigen Dialogen, „Hehe, hehe“, die sehr abrupt sind und einen verzerrten Ton haben.

Dies erinnert an Resemble, das Ihnen nach der Sprachgenerierung Optionen bietet, um einem Absatz Pausen oder Emotionen wie „Wut“ oder „Freude“ hinzuzufügen. Dem Feedback nach zu urteilen, scheint das Modell noch nicht sehr gut mit Emotionen umgehen zu können.

Aber eines Tages werden wir an allem zweifeln.

Vor ein paar Tagen erhielt mein Kollege Xiao Yang einen Verkaufsanruf. Er schaltete die Freisprecheinrichtung ein und diskutierte angeregt mit den anderen Leuten im Büro, ob sein Gegenüber ein Roboter sei.

Plötzlich ertönte eine Stimme am anderen Ende der Leitung: „Es tut mir leid, Sie haben mich missverstanden.“

„Glauben Sie, dass dies eine echte Person ist?“

Er antwortete: „Hm, das glaube ich nicht, das muss ein Trick der KI sein.“

Verweise

[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf

[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104

[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html

[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html

[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/
[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/

[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/

[8] https://senseient.com/wp-content/uploads/Deepfakes-updated.pdf

[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained

Autor: Weng Yan

Herausgeber: Liegendes Insekt

Guokr ( ID : Guokr42 )

Wenn Sie einen Nachdruck benötigen, wenden Sie sich bitte an [email protected]

Willkommen in deinem Freundeskreis

Quelle : Guokr

<<:  Müssen Sie Ihr Zuhause jeden Tag desinfizieren? Beherrschen Sie diese 9 Punkte und führen Sie eine wissenschaftliche Desinfektion durch!

>>:  4.870 Sorten, warum erntet Peru so viele Kartoffeln?

Artikel empfehlen

Worauf solltest du beim Laufen nach dem Fitnesstraining achten?

Der häufigste Ort für Fitness ist das Fitnessstud...

So trainieren Sie den Latissimus dorsi-Muskel

Wie trainiert man den Latissimus dorsi-Muskel? Di...

Was ist Perceptual Computing?

Mit der zunehmenden Verbreitung intelligenter Gerä...

Es sind nur noch zwei Männchen übrig. Sind sie die einsamsten Tiere?

Es gibt nur noch zwei bestätigte Jangtse-Riesenwe...

Neue Entdeckung! Entfernter Verwandter des modernen Tigers gefunden

Ein Reporter erfuhr kürzlich von der China Univer...

Wann ist die beste Zeit, um die Bauchmuskulatur zu trainieren?

Ich glaube, dass es für viele Freunde ein Traum i...

Tsavorit: Der neue edle grüne Edelstein

Einführung In der Rubrik „Schätze des Museums“ er...

Kann Laufen das Oberschenkelfett reduzieren und wenn ja, wie?

In letzter Zeit sind viele Menschen sehr besorgt ...