OpenAI hat auf seiner offiziellen Website einige seiner Fortschritte bei der KI-Sprachsynthese veröffentlicht und erste Erkenntnisse und Ergebnisse aus einer kleinen Vorschau eines Modells namens „Voice Engine“ angekündigt. Berichten zufolge verwendet das Modell Texteingaben und eine einzelne 15-sekündige Audioprobe, um eine natürliche Sprache zu generieren, die der des ursprünglichen Sprechers sehr ähnlich ist . Bemerkenswerterweise war ein kleines Modell mit nur 15 Sekunden Samples in der Lage, emotionale und realistische Klänge zu erzeugen. Bereits Ende 2022 entwickelte OpenAI die Voice Engine und nutzte sie zur Unterstützung voreingestellter Stimmen in der Text-to-Speech-API sowie zur Sprach- und Leseunterstützung von ChatGPT. Heute hat OpenAI anhand einiger Fälle aus der Praxis einige frühe Anwendungen der Voice Engine vorgestellt. So wurde die Voice Engine beispielsweise eingesetzt, um die Stimme eines jungen Patienten wiederherzustellen, der aufgrund eines vaskulären Hirntumors nicht mehr flüssig sprechen konnte. Darüber hinaus kann Voice Engine auch verwendet werden, um Lesehilfen bereitzustellen, Inhalte zu übersetzen, Menschen zu unterstützen, die nicht sprechen können usw. Copyright-Bilder in der Galerie. Der Nachdruck und die Verwendung können zu Urheberrechtsstreitigkeiten führen. 1) Bieten Sie Nichtlesern und Kindern Lesehilfe durch natürlich klingende und emotionale Stimmen Diese Stimmen repräsentieren einen größeren Bereich an Sprechern als eine voreingestellte Stimme. Age of Learning, ein Unternehmen für Bildungstechnologie, verwendet Voice Engine, um vorprogrammierte Voice-Over-Inhalte zu generieren. Sie nutzten außerdem Voice Engine und GPT-4, um personalisierte Antworten in Echtzeit zu erstellen und mit den Schülern zu interagieren. 2) Übersetzen Sie Inhalte wie Videos und Podcasts Voice Engine ermöglicht es Entwicklern und Unternehmen, fließend mit ihrer Stimme zu kommunizieren und so mehr Menschen auf der ganzen Welt zu erreichen. Laut OpenAI ist HeyGen einer der Early Adopters auf diesem Gebiet. HeyGen ist eine KI-basierte Plattform zum visuellen Storytelling, die Voice Engine zur Videoübersetzung nutzt, die Stimme des Sprechers in mehrere Sprachen übersetzt und ein globales Publikum erreicht. Beim Einsatz zur Übersetzung behält Voice Engine den Akzent des ursprünglichen Sprechers bei: Wenn Sie beispielsweise Englisch mithilfe einer Audioprobe eines französischen Sprechers generieren, entsteht Sprache mit französischem Akzent. 3) Unterstützung für die stumme Bevölkerung leisten Voice Engine kann therapeutische Anwendungen für Menschen mit Spracherkrankungen, pädagogische Verbesserungen für Menschen mit Lernschwierigkeiten und mehr bieten. Livox ist eine KI-gestützte App für alternative Kommunikation, die Unterstützung für Geräte zur unterstützenden und alternativen Kommunikation (AAC) bietet und Menschen mit Behinderungen die Kommunikation ermöglicht. Voice Engine bietet einzigartige nicht-roboterhafte Stimmen in mehreren Sprachen für die nicht-verbale Bevölkerung. Benutzer können die Stimme auswählen, die sie am besten repräsentiert, und für mehrsprachige Benutzer kann jede gesprochene Sprache eine einheitliche Stimme haben. Darüber hinaus erreicht Voice Engine Gemeinschaften auf der ganzen Welt, indem es die Grundversorgung in abgelegenen Gebieten verbessert. Beispielsweise entwickelt Dimagi Tools für Gemeindegesundheitsarbeiter, um grundlegende Dienste wie die Beratung stillender Mütter bereitzustellen. Um diesen Mitarbeitern zu helfen, ihre Fähigkeiten zu verbessern, verwendet Dimagi Voice Engine und GPT-4, um interaktives Feedback in der Muttersprache jedes Mitarbeiters bereitzustellen, sei es Suaheli oder eine informellere Sprache. OpenAI erklärte, dass man aufgrund des Missbrauchspotenzials synthetischer Sprache bei einer breiteren Veröffentlichung vorsichtig und informiert vorgegangen sei und sich dafür entschieden habe, die Technologie zunächst in der Vorschau zu zeigen, sie aber zum jetzigen Zeitpunkt noch nicht flächendeckend zu veröffentlichen. Ihre Bedingungen mit diesen Partnern erfordern die ausdrückliche und informierte Zustimmung der ursprünglichen Sprecher und erlauben es Entwicklern nicht, eigene Stimmen für einzelne Benutzer zu erstellen. Diese Partner müssen dem Publikum außerdem klar darlegen, dass die Stimmen, die sie hören, von KI generiert werden. Darüber hinaus hat OpenAI eine Reihe von Sicherheitsmaßnahmen implementiert, darunter Wasserzeichen, um den Ursprung aller von Voice Engine generierten Audiodaten zu verfolgen, und eine aktive Überwachung ihrer Verwendung. OpenAI sagte, dass man die beschleunigte Entwicklung und Einführung von Technologien fördere, die in Zukunft die Herkunft audiovisueller Inhalte verfolgen, damit den Menschen immer klar sei, ob sie mit echten Menschen oder künstlicher Intelligenz interagieren, und der Öffentlichkeit helfe, die Fähigkeiten und Grenzen der künstlichen Intelligenz-Technologie zu verstehen, einschließlich der Möglichkeit irreführender Inhalte durch künstliche Intelligenz. Quellen: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices |
<<: Wenn Sie vor dem Sommer 10 Pfund abnehmen möchten, beginnen Sie jetzt mit dieser Ernährung!
Das Thema des diesjährigen Weltnormentags lautet ...
Vor nicht allzu langer Zeit ging ein lustiges Vid...
Laut der Shenyang Evening News deckte CCTV kürzlic...
Wenn sich Tierhalter unglücklicherweise mit dem n...
Autor: Sun Yafei, PhD in Chemie, Tsinghua-Univers...
Oppenheimer beaufsichtigte im Juli 1945 die Endmo...
Ich glaube, dass viele meiner Freunde im Alltag d...
Hey, alte Leute, habt ihr schon mal das alte Spri...
Auftritte von Prominenten, Live-Streams von Inter...
Wenn Mädchen Outdoor-Sport treiben, müssen sie ni...
Zuvor gab es Nachrichten, dass die Verbrauchervor...
Es gibt viele Möglichkeiten, Gewicht zu verlieren...
„Solange Sie eine gute Grafikkarte haben, reichen...
Fechten ist ein international anerkannter Wettkam...
Im Jahr 2024 überstieg der kumulierte Zahlungsbet...