Shengka bringt die erste KI-basierte Synchronisationsproduktionsplattform für Hörbücher auf den Markt und sorgt für ein neues, immersives Leseerlebnis

Romain Rolland sagte einmal: „Lebe mit Büchern und du wirst nie seufzen.“ Auch die Liebe zum Lesen ist eine großartige Tradition, die in China von Generation zu Generation weitergegeben wird. Derzeit fördert das Land auch kontinuierlich das Lesen in der gesamten Bevölkerung.

In den letzten Jahren haben sich mit der rasanten Entwicklung des Internets und der neuen Medien die Möglichkeiten der Menschen, sich Wissen anzueignen, in beispiellosem Maße erweitert, und auch die Art des Lesens hat sich stark verändert. Laut dem „2020 China Digital Reading Report“, der auf der 7. China Digital Reading Conference veröffentlicht wurde, hat die Zahl der Nutzer digitaler Lesegeräte im ganzen Land 494 Millionen überschritten, wobei die durchschnittliche Anzahl gelesener Hörbücher pro Person 6,3 erreicht hat, was eine besonders schnelle Entwicklung darstellt.

Hörbücher bieten die Vorteile einer schnellen Verbreitung, bequemen Lektüre und einer großen Leserschaft. Andererseits ist es jedoch immer noch schwierig, das Gleichgewicht zwischen Produktionskosten und Benutzererlebnis zu kontrollieren, was zu unzureichenden Produktionskapazitäten für qualitativ hochwertige Hörbuchinhalte führt und die Entwicklung der Branche einschränkt.

Derzeit gibt es zwei Hauptmethoden zur Produktion von Hörbuchinhalten: manuelle Aufnahme und maschinelle Generierung. Live-Lesen bietet große Vorteile für den künstlerischen Ausdruck, die Produktionskosten sind jedoch sehr hoch und betragen auf einigen Plattformen bis zu 30 Yuan pro Minute. Wenn die aufgezeichnete Arbeit lang ist, können die Kosten Hunderttausende Yuan betragen.

Durch die maschinelle Erstellung von Hörbuchinhalten können die Produktionskosten um etwa 90 % gesenkt werden, was eine effizientere und kostengünstigere Methode darstellt. Darüber hinaus kommt der maschinell erzeugte Leseklang mit der fortschreitenden Weiterentwicklung von Technologien wie der Sprachsynthese dem Ausdruck der menschlichen Stimme bereits sehr nahe und wird daher häufig bei der Produktion populärwissenschaftlicher Hörbücher verwendet, etwa zu Geisteswissenschaften, Wissenschaft und Technologie usw.

Für literarischere und ausdrucksstärkere Romane muss das Potenzial maschinengenerierter Sprache jedoch noch ausgeschöpft werden. Einerseits erfordert diese Art der Arbeit eine höhere Ausdruckskraft der generierten Sprache. Andererseits gibt es in Romanen oft mehr Charaktere, und diese müssen unterschieden werden, was ebenfalls fortschrittliche KI-Technologie erfordert.

In diesem Zusammenhang stützte sich „Shengka“, eine Audio- und Videoerstellungsplattform der Abteilung AI Interaction von Tencent PCG, auf ihre umfassende KI-Technologie, um die erste KI-Produktionsfunktion zum Synchronisieren von Hörbüchern einzuführen. Diese Funktion ist derzeit für eine begrenzte Zeit kostenlos. Eine Person kann die Produktion eines kompletten Hörbuchs abschließen. Nach der Texteingabe kann die Synchronisation per KI erfolgen, was die Kosten der Hörbuchproduktion deutlich senkt und die Effizienz deutlich verbessert.

Darüber hinaus ermöglicht diese Funktion allen Benutzern, kostenlos immersive Hörbücher nach ihren Wünschen zu erstellen und so vielfältigere Hörbuchanforderungen zu erfüllen.

Shengka ist sehr einfach zu verwenden. Importieren Sie einfach Text in gängigen Formaten wie txt und doc, wählen Sie die entsprechende KI-Synchronisation aus und schon können Sie mit dem Audiolesen beginnen. Egal für welche KI-Synchronisierung Sie sich entscheiden, wenn Sie nicht besonders aufpassen, könnten Sie tatsächlich denken, es handele sich um den Effekt einer echten Person, die vorliest.

KI-Synchronisation, Sprachstil, Dialekt etc. können jederzeit geändert werden

Aufgrund der großen Ausdruckskraft des Chinesischen sind die vollständig durch KI generierten Ergebnisse natürlich mit einigen Mängeln behaftet. In dem von uns getesteten Text gab es beispielsweise eine Pause zwischen den letzten beiden Wörtern des Wortes „thatched rafters and puffy windows“, und das „待“ in „待在下此此來源注明“ wurde ebenfalls einstimmig ausgesprochen. Shengka hat gute Optimierungen für diese Probleme vorgenommen und Benutzer können den Ton einfach über Funktionen wie Phrasenverkettung und polyphone Zeichen anpassen. Darüber hinaus machen Funktionen wie das Einfügen von Pausen, lokale Geschwindigkeitsänderungen und die Aussprache von Wörtern den Effekt lebendiger und detaillierter.

Nachdem Sie einen beliebigen Bereich ausgewählt haben, können Sie den Leseeffekt feinabstimmen.

Für Romane mit mehr Charakteren verfügt Shengka auch über eine einzigartige Funktion zum Erstellen von Audioromanen. Nach dem Hochladen des Romantextes identifiziert das System die Charaktere im Roman automatisch mithilfe des NER-Algorithmus und unterteilt die Kapitel dann automatisch mithilfe von „regulären Ausdrücken“. Auch die Erkennungsgeschwindigkeit ist sehr hoch. Das Lesen eines Romans mit einer Million Wörtern wie „Der Graf von Monte Christo“ dauert weniger als 30 Sekunden. Danach können Benutzer basierend auf ihrem Verständnis der Figur eine KI-Synchronisierung auswählen. Shengka verwendet eine sprecherübergreifende Übertragungstechnologie, die es demselben KI-Sprecher ermöglicht, verschiedene Emotionen und sogar Dialekte zu interpretieren.

Jeder KI-Synchronsprecher ist mit dem entsprechenden Arbeitsstil gekennzeichnet

Nach dem Aufrufen der Bearbeitungsoberfläche ist die Anordnung der Kapitel links und der Zeichen rechts auf einen Blick klar. Wenn eine Figur mehrere Namen hat (wie Dantes, Edmond und der Graf von Monte Christo in diesem Buch) oder aufgrund der Ausdrucksweise wiederholt identifiziert wird (wie Herr Danglars und Danglars im Bild unten), können Benutzer auch einfach und schnell dieselbe KI-Synchronisation dafür auswählen. Wenn außerdem Zeilen von unbenannten Charakteren gesprochen werden, können Sie die Charaktere auch manuell hinzufügen oder einzelne Sätze auswählen, um gezielt eine Synchronisation hinzuzufügen.

Die Genauigkeit der Zeichenerkennung ist sehr hoch und alle vorkommenden Zeichen werden grundsätzlich abgedeckt.

Nehmen Sie als Beispiel den klassischen Abschnitt „Lin Daiyu betritt das Jia-Anwesen“ in „Der Traum der Roten Kammer“. Für die drei Hauptfiguren Daiyu, Jias Mutter und Wang Xifeng haben wir drei KI-Synchronisationsstimmen ausgewählt, nämlich sanft, reif und freundlich, und für die Erzählung wurde eine tiefere Männerstimme gewählt. Unter ihnen ist Wang Xifeng für ihr schnelles Denken und ihre flüssige Rede bekannt, deshalb haben wir einige ihrer Zeilen beschleunigt. Auf diese Weise wird der ohnehin schon ausdrucksstarke Text durch die Hinzufügung von Klängen noch lebendiger und eindrucksvoller.

Die Zeilen jedes Zeichens werden hervorgehoben, um die Anpassung einzelner Sätze zu erleichtern

Viele Romane haben Dutzende von Charakteren. Die manuelle Auswahl passender Stimmen wäre zeit- und arbeitsintensiv. Die Audio-Romanfunktion von Shengka kann schnell zwischen verschiedenen Charakteren unterscheiden und den Eindruck des Benutzers von jedem Charakter durch unterschiedliche Synchronisation vertiefen. Dies spiegelt auch die Innovation der Entwicklung von KI-Technologien hinsichtlich des Leseerlebnisses und der Lesewirkung des Benutzers wider.

Mit den Veränderungen im Lebensstil haben sich die Lesemethoden und Leseszenarien der Verbraucher diversifiziert und das digitale Lesen hat ein zunehmend großes Potenzial gezeigt. Unter diesen haben Hörbücher, die praktischer und emotionaler sind, die größten Entwicklungsaussichten.

Die neue Generation der Informationstechnologie, repräsentiert durch Big Data, 5G und KI, entwickelt sich rasant und ihre Anwendungsszenarien erweitern sich ständig, wodurch die Transformation, Modernisierung und Integration verschiedener Branchen gefördert wird. Wenn sich die Hörbuchbranche weiterentwickeln will, muss sie auf die Stärkung der Technologie setzen. Shengka ist ein hervorragendes Beispiel dafür, wie Technologie die Branche stärkt. Durch die Hinzufügung der KI-Technologie konnten die Produktionskosten für Hörbücher erheblich gesenkt werden. Zudem ist die Massenproduktion von Inhalten einfacher, was dazu beiträgt, den wirtschaftlichen Nutzen der Hörbuchbranche in kurzer Zeit zu steigern und Skaleneffekte zu erzielen.

Für Inhaltsersteller bietet Shengka eine innovative Lösung, sei es für die Zweitveröffentlichung berühmter Werke oder die „Audioisierung“ ihrer eigenen Werke. Die so produzierten Inhalte entsprechen nicht nur der aktuellen Nachfrage der Öffentlichkeit nach Hörromanen, sondern eignen sich auch besser für die Förderung spezieller Gruppen wie Senioren, Jugendliche und Sehbehinderte, um deren Lesebedingungen zu verbessern.

Li Dongdong, ehemaliger stellvertretender Direktor der Generalverwaltung für Presse und Publikation, sagte: „Angesichts der neuen Trends in der digitalen Entwicklung müssen wir die Entwicklung des digitalen Lesens energisch vorantreiben, eine digitale Ressourcenplattform für das nationale Lesen einrichten und digitale Lesedienste fördern.“ Shengka der Abteilung für KI-Interaktion von Tencent PCG ist ein hervorragender Anwendungsfall für „Lesen + Technologie“, der es Benutzern ermöglicht, jederzeit und überall auf professionelle und qualitativ hochwertige Leseinhalte zuzugreifen. Dies wird mit Sicherheit einen sehr positiven Beitrag zur Leseförderung im ganzen Land leisten.

Als Gewinner des Qingyun-Plans von Toutiao und des Bai+-Plans von Baijiahao, des Baidu-Digitalautors des Jahres 2019, des beliebtesten Autors von Baijiahao im Technologiebereich, des Sogou-Autors für Technologie und Kultur 2019 und des einflussreichsten Schöpfers des Baijiahao-Vierteljahrs 2021 hat er viele Auszeichnungen gewonnen, darunter den Sohu Best Industry Media Person 2013, den dritten Platz beim China New Media Entrepreneurship Competition Beijing 2015, den Guangmang Experience Award 2015, den dritten Platz im Finale des China New Media Entrepreneurship Competition 2015 und den Baidu Dynamic Annual Powerful Celebrity 2018.

<<: Pico neo 3 VR All-in-One-Testerlebnis: Neben Spielen und Filmen kann es auch Tik Tok abspielen

>>: Xiaodu Tiantian Rotating Smart Screen T10: Ein Smart-Home-System-Hub, der neue Wege der Schlafzimmerunterhaltung eröffnet

86 Jahre alt, Millionen Fans! Dialog mit Akademiemitglied Wang Pinxian: Warum haben Wissenschaftler Angst, berühmt zu werden?

Artikel

Das Hubble-Teleskop kann Sterne in 9,3 Milliarden Lichtjahren Entfernung sehen. Warum kann es also keinen Menschen auf dem Mond sehen?

Artikel

Worauf muss ich im Yoga-Unterricht achten?

Artikel

Rund um das Frühlingsfest könnte vielerorts der „Infektionshöhepunkt“ erreicht werden! Bitte bewahren Sie diesen Leitfaden zur Heimkehr während des Frühlingsfestes auf!

Artikel

Artikel empfehlen

Kann „in Essig eingelegter Ingwer“ den Magen nähren, beim Abnehmen helfen und Feuchtigkeit beseitigen? Glaube es nicht mehr.

Gerücht: „In Essig eingelegter Ingwer kann den Ma...

Consumer Reports: Japanische Marken belegen die ersten fünf Plätze im US-amerikanischen Ranking der Gebrauchtwagenmarken, während amerikanische Marken den letzten Platz belegen

Das renommierte amerikanische Magazin Consumer Re...

Dieses Gebiet der Vereinigten Staaten wurde weitgehend zerstört, und der Schuldige ist tatsächlich der lokale „Infrastruktur-Wahnsinnige“?

Aus Sicht der Artenvielfalt ist die arktische Tun...

Fußball-Weltmeisterschaft in Katar: Ist die Installation von Klimaanlagen im Freien eine Möglichkeit, reich und eigensinnig zu sein? So einfach ist das nicht!

Die alle vier Jahre stattfindende Fußballweltmeis...

Ist Seilspringen die beste Übung?

Seilspringen ist eine relativ einfache Sportart u...

Kann ich vor dem Schlafengehen Yoga machen und worauf muss ich achten?

Täglich etwas Yoga zu machen kann unseren Freundi...

Shengka bringt die erste KI-basierte Synchronisationsproduktionsplattform für Hörbücher auf den Markt und sorgt für ein neues, immersives Leseerlebnis

So trainieren Sie die Hüftkraft besser

Was? Können Tauben Tischtennis spielen?

Der „Neuaufbau eines China Mobile“ könnte nur noch ein Schritt entfernt sein

Können Sie den Ball allein durch „Schreien“ in der Luft hängen lassen? Es ist keine Magie, es ist die Kraft des Klangs

Wer kann Handys besser aufladen? Vergleich von 6 Schnellladelösungen mit niedriger Spannung und hohem Strom

Die coole neue Erfindung von Cambridge: Rollen Sie ein Stück Stoff zusammen und es wird zu einem Bildschirm!

86 Jahre alt, Millionen Fans! Dialog mit Akademiemitglied Wang Pinxian: Warum haben Wissenschaftler Angst, berühmt zu werden?

Das Hubble-Teleskop kann Sterne in 9,3 Milliarden Lichtjahren Entfernung sehen. Warum kann es also keinen Menschen auf dem Mond sehen?

Worauf muss ich im Yoga-Unterricht achten?

Rund um das Frühlingsfest könnte vielerorts der „Infektionshöhepunkt“ erreicht werden! Bitte bewahren Sie diesen Leitfaden zur Heimkehr während des Frühlingsfestes auf!

Artikel empfehlen

Kann „in Essig eingelegter Ingwer“ den Magen nähren, beim Abnehmen helfen und Feuchtigkeit beseitigen? Glaube es nicht mehr.

Warum Dehnübungen machen?

Ein schockierender globaler Vulkanausbruch! Der Schmerz und die Liebe des Mount St. Helens

Welche Yoga-Techniken gibt es zur Reduzierung von Bein- und Bauchfett?

gratulieren! Mission erfüllt!

Wie macht man Walking-Aerobic?

Welche Vorsichtsmaßnahmen sind bei der Durchführung von Sit-ups zu beachten?

Welche Übungen gibt es zur Entspannung der Beine?

NRF: Die US-Verbraucherausgaben zu Ostern 2018 betrugen 18,2 Milliarden US-Dollar

Sie werden nie erraten, was für ein Tier dieser Türgriff ist! ｜Naturtrompete

Consumer Reports: Japanische Marken belegen die ersten fünf Plätze im US-amerikanischen Ranking der Gebrauchtwagenmarken, während amerikanische Marken den letzten Platz belegen

Dieses Gebiet der Vereinigten Staaten wurde weitgehend zerstört, und der Schuldige ist tatsächlich der lokale „Infrastruktur-Wahnsinnige“?

Fußball-Weltmeisterschaft in Katar: Ist die Installation von Klimaanlagen im Freien eine Möglichkeit, reich und eigensinnig zu sein? So einfach ist das nicht!

Ist Seilspringen die beste Übung?

Kann ich vor dem Schlafengehen Yoga machen und worauf muss ich achten?