Ich habe die schriftlichen Aufzeichnungen und audiovisuellen Materialien meines Großvaters verwendet und mehrere ausgereifte KI-Technologien integriert, um ihn „wiederzubeleben“. An diesem Tag hatte ich plötzlich eine Idee und suchte in der Suchmaschine nach „Verstorbene mithilfe von KI wiederbeleben“ und sah die Geschichte von Joshua, der seine Verlobte Jessica „wiederbelebt“. Im Jahr 2012 verschlechterte sich Jessicas Zustand, während sie auf eine Lebertransplantation wartete, und sie starb trotz erfolgloser Rettungsbemühungen. Joshua war zu diesem Zeitpunkt zufällig nicht da und verpasste die Verabschiedung. Acht Jahre lang machte er sich deswegen Vorwürfe. Erst 2020 sah er „Project December“. Diese Website veranlasste ihn, durch das Einfügen von „Satzbeispielen“ und „Charaktervorstellungen“ eine angepasste Chat-KI zu generieren. Joshua importierte Textnachrichten seiner verstorbenen Frau in die Website und begann dann, Jessica zu beschreiben: Geboren 1989, eine freigeistige Waage … und besonders abergläubig … Joshua und „Jessica“ beginnen zu chatten丨sfchronicle.com Wenn die Seite aktualisiert wird, ist „Jessica“ bereit, alle Fragen von Joshua zu beantworten und sich selbst sogar mit Worten zu beschreiben, indem sie „mit dem Gesicht in den Händen spricht“. Joshua sagte: „Mein Verstand sagt mir, dass dies nicht die wahre Jessica ist, aber Gefühle lassen sich nicht durch Vernunft kontrollieren.“ Nachdem er eine unbekannte Zeit lang geredet hatte, brach er in Tränen aus und fiel in einen tiefen Schlaf. Ich habe tiefes Verständnis für dieses unwiederbringliche Bedauern. Vor zehn Jahren lag mein Großvater im Sterben. Ich rannte in aller Eile von der High School, um ihn zu sehen, und wurde dann wieder zur Schule geschickt – das war das letzte Mal, dass ich meinen Großvater sah. Jedes Mal, wenn ich daran denke, habe ich das Gefühl, als ob mir etwas im Hals stecken bliebe. Ich möchte ihn unbedingt wiedersehen und mehr mit ihm reden. Ich bin jetzt Programmierer und habe täglich mit KI und Algorithmen zu tun. Und ich frage mich unweigerlich: Kann die aktuelle KI-Technologie so integriert werden, dass letztendlich ein Effekt erzielt wird, der in Bezug auf Sprachausdruck und menschliche Form meinem Großvater sehr nahe kommt? Also machte ich mich auf die Suche und fand viele Menschen, die dieselben Wünsche hatten wie ich und einige hatten diese auch in die Tat umgesetzt. Eine koreanische Mutter traf in einem VR-Film ihre vor drei Jahren verstorbene Tochter | MBC Korea Eine südkoreanische Mutter war über den Tod ihrer siebenjährigen Tochter äußerst traurig. Nachdem ein Fernsehteam die Nachricht erfahren hatte, arbeitete es acht Monate lang an der Erstellung eines dreidimensionalen virtuellen Bildes des Mädchens, sodass Mutter und Tochter sich in einer VR-Szene begegnen konnten. Meiner Meinung nach ähnelt dies eher einer Animationsproduktion. Das Bild des Mädchens und die Szene sind eher „cartoonartig“. Darüber hinaus kann das Mädchen nicht intelligenter mit Menschen interagieren und nur einem festen Skript folgen. Manche Menschen möchten ein greifbares „Wesen“ und beauftragen entsprechende Unternehmen damit, die dreidimensionalen Merkmale des menschlichen Körpers zu scannen und daraus einen bionischen Mann aus Silikon herzustellen. Allerdings erfordert diese Lösung sehr hohe Anpassungskosten. Darüber hinaus können bestattete Personen keine Daten zum menschlichen Körper liefern. Das oben erwähnte Projekt Dezember kann nur einen Text-Chat-Roboter erstellen. Ich möchte einen „Großvater“ mit einem konkreten und greifbaren Bild schaffen, vorzugsweise einem, das realistischer ist. „Er hat Erinnerungen, kann mit mir interagieren, kann sprechen und sein Gesicht sieht aus wie das meines Großvaters.“ Diese kühne Idee wurde immer klarer und ich begann, nach KI-Artikeln zu suchen, die nützlich sein könnten. Seien Sie zuerst das Gehirn von "Großvater" Der Grund, warum Project December Charaktere mit bestimmten Persönlichkeiten basierend auf Seed-Text generieren kann, liegt in der Verbindung mit der GPT-3-API. GPT-3 ist das kommerzielle Sprachmodell von OpenAI, das vereinfacht ausgedrückt Computern die Fähigkeit verleiht, „wie Menschen zu denken“. GPT-3 kann sogar einige Wörter sagen, die „den Menschen überlegen“ sind: Menschen: Was ist der Sinn des Lebens? AI: Das Leben ist ein wunderschönes Wunder. Es entwickelt sich im Laufe der Zeit zu einer größeren Form der Schönheit. In gewissem Sinne besteht der Sinn des Lebens darin, diese Schönheit im Universum zu mehren. Diese Fähigkeit ist darauf zurückzuführen, dass die Ingenieure das Modell mit einer riesigen Datenmenge gefüttert haben, nämlich mehr als 300 Milliarden Texte. Nachdem das KI-Modell eine solche Menge Text gelesen hat, beginnt es, die Beziehung zwischen Wörtern und Sätzen zu ermitteln (d. h. Muster zu finden) und gibt dann basierend auf dem aktuellen Kontext die am besten geeignete Antwort. Ich habe die Textinformationen meines Großvaters in das GPT-Modell importiert. Ich begann, den Seed-Text für den Import in GPT-3 vorzubereiten, scannte die im Text gespeicherten Buchstaben, sortierte die mit der Cloud synchronisierten Chat-Nachrichten und suchte die Worte heraus, die mein Großvater im Video gesagt hatte: „Dieser Fisch sollte geschmort werden. Gedämpft kostet er über 80 Yuan. Er schmeckt leicht (im Hangzhou-Dialekt bedeutet er „leicht“) und geschmacklos.“ „Hör auf, mit deinem Handy Fotos zu machen, und hilf deinem Bruder beim Servieren.“ Nachdem alles in GPT-3 importiert wurde, kann es beginnen, den Sprachstil und die Gesprächsideen des Großvaters zu imitieren … Moment, GPT-3 ist aufgeladen. Ich habe jedoch schnell das kostenlose und quelloffene GPT-J gefunden und mit dem Training begonnen. Beim Sprachmodelltraining handelt es sich um den Prozess des „Erratens von Wörtern“. Das Modell verwendet parallele Berechnungen auf Grafikkarten, um die Beziehung zwischen jedem Wort und Satz in einem Korpus zu ermitteln, beispielsweise welches Wort nach dem Erscheinen eines Wortes am wahrscheinlichsten ist. Das GPT-J-Team hat das vortrainierte Modell als Open Source bereitgestellt, das die meisten Funktionen bereits realisieren kann. Ich muss lediglich den Seed-Text in Wörter umwandeln und dann das proprietäre Korpus dieses Großvaters zum Lernen an GPT-J weitergeben. Ein allgemeines Deep-Learning-Modell muss mehrere Tage und Nächte lang trainiert werden. Dieses Mal habe ich GPT-J verwendet, um neue Korpusse zu lernen, was nicht besonders zeitaufwändig war und nur sechs Stunden gedauert hat. Sechs Stunden später tippte ich leise „Hallo“ auf den Bildschirm. Lass Opa sprechen „Hallo, Enkel.“ Der KI-„Großvater“ begann mit mir zu chatten. Nach ein paar kurzen Textwechseln dachte ich an die sehr ausgereifte „TTS“-Technologie (Text-to-Speech). Sprachübertragungen in Navigations-Apps und Textaussagen in Kurzvideo-Apps verwenden alle TTS. Ich muss nur das Gespräch von „Großvater“ kopieren, einen Audioclip mit der Stimme und Intonation des Großvaters hinzufügen und ihn zum Lernen in das TTS-Modell einspeisen. Die endgültige Ausgabe lautet: Die Maschine liest die Unterhaltung meines Großvaters vor, und zwar mit seinem Akzent. Ich habe ein von Google erstelltes TTS-Modell Tacotron 2 gefunden. Es verpackt zunächst Ihren Eingabetext und Ihre Stimme zusammen, erforscht dann gründlich die verborgene Zuordnungsbeziehung zwischen Text und Stimme und verpackt sie dann in eine reine Sprachausgabe. Tacotron 2 ist ein End-to-End-Modell. Ich muss nicht auf die darin enthaltene Kodierungsschicht, Dekodierungsschicht, Aufmerksamkeitsschicht, Nachbearbeitung und andere Strukturen achten. Seine Struktur ist vollständig integriert. Für mich ist es wie ein Tool, das mit einem Klick Ergebnisse generieren kann. Ich habe einfach den Text eingegeben und … Gerade als ich anfangen wollte, wurde mir das Problem klar: Bei diesem Modell stehen nur bestimmte Ansager zur Auswahl und es werden keine bestimmten Stimmen unterstützt. An diesem Punkt dachte ich an die „Voice-Cloning“-Technologie, die die Fähigkeit zum „Transfer-Learning“ auf Tacotron überlagern soll. Das heißt, es konnte vorher nur diese Aufgabe erledigen, kann sich jetzt aber an die Umgebung anpassen und so auch andere Aufgaben erledigen. Es kann die Stimme des Synchronsprechers direkt durch die Stimme meines Großvaters ersetzen, als würde man seine Stimme klonen. Nach einigen Recherchen fand ich ein Stimmklonmodell namens „MockingBird“, das chinesische Texte und Sprache direkt synthetisieren und die gewünschte Stimme ausgeben kann. Es kann jede chinesische Stimme innerhalb von 5 Sekunden klonen und diese Stimme zum Synthetisieren neuer Inhalte verwenden. „Opa“ liest den Text, den er ausgibt, mit seiner eigenen Stimme vor丨Guokr Drawing In dem Moment, als ich „Opa“ sprechen hörte, hatte ich das Gefühl, als würden die Puzzleteile meiner Erinnerung Stück für Stück zusammengefügt. Aufgeregt begann ich, den Auftritt von „Opa“ vorzubereiten. Normalerweise arbeite ich als Bildalgorithmus-Ingenieur und kenne mich mit Bildtechnologie relativ gut aus, aber meine berufliche Intuition sagt mir auch, dass die nächste Gesichtsgenerierung nicht so einfach ist. Das Gesicht mit der Stimme steuern Der direkteste Weg, meinen Großvater „erscheinen“ zu lassen, besteht darin, ein dreidimensionales, individuelles virtuelles Porträt zu erstellen. Dazu müssen jedoch Datenpunkte des menschlichen Körpers gesammelt werden, und es ist offensichtlich, dass dieser Ansatz nicht durchführbar ist. Als ich die vorhandenen Fotos, Sprach- und Videomaterialien kombinierte, begann ich zu überlegen: Ist es möglich, nur mithilfe eines Videos und einer Sprachsequenz ein lebensechtes menschliches Gesicht zu erzeugen? Nach vielen Irrungen und Wirrungen fand ich die Lösung „Neural Voice Puppetry“, eine Technologie zur „Gesichtsnachstellung“. Ich muss ihm nur den Dialogton geben, und es kann eine mit dem Ton synchronisierte Animation des menschlichen Gesichts und der Mundform generieren. Die Autoren des Artikels verwendeten Convolutional Neural Networks, um die Beziehung zwischen Gesichtsausdruck, der Darstellung von Gesichtsemotionen und der Stimme zu ermitteln. Anschließend nutzten sie diese erlernte Beziehung, um Gesichtsvideos Bild für Bild zu rendern, die die Stimme lesen können. Der einzige Nachteil dieser Lösung besteht jedoch darin, dass wir den Ausgabecharakter nicht angeben können, sondern nur einen bestimmten Charakter auswählen können, beispielsweise „Obama“. Nachdem ich damit fertig war, wurde mir klar, dass ich mein Gesicht ändern musste. Am Ende hatte ich also ein Video, in dem Obama mit der Stimme meines Großvaters spricht. Als Nächstes werde ich das Gesicht mithilfe von KI verändern. Ich habe mich schließlich für die Verwendung der im Artikel „HeadOn: Real-time Reenactment of Human Portrait Videos“ erwähnten Technologie entschieden. Eine verwandte Anwendung ist der mittlerweile beliebte virtuelle Anker: Er erfasst die Ausdrücke der Personen im Video und steuert die Gesichter zweidimensionaler Charaktere. Die Personen, die Ausdrucksinformationen bereitstellen, sind normalerweise echte Menschen, aber da der von mir zuvor erstellte „Obama“ sehr realistisch war, kann ich ihn direkt verwenden, um das Porträt meines Großvaters zu steuern. Auf diese Weise habe ich die Kommunikationsaufzeichnungen meines Großvaters und einige Audio- und Videomaterialien vor seinem Tod verwendet, mehrere ausgereifte KI-Technologien integriert und ihn „wiederbelebt“. Da es sich bei dem gesamten Prozess um eine Modell-zu-Modell-Operation handelt, wird das Ergebnis von Modell A als Eingabe von Modell B verwendet und die Ausgabe von Modell B ist die Eingabe von Modell C. Daher dauert es mehrere Minuten oder sogar länger, bis ein Ergebnis generiert wird. Daher ist es unmöglich, den Effekt zu erzielen, als würde ein „Großvater“ ein Videogespräch mit mir führen. Es ist eher so, als ob er mir, nachdem ich etwas gesagt hatte, nach einer Computerberechnung mit einem kurzen Videorekorder antwortete. Mein „Großvater“ kennt sich mit Berechnungsformeln aus Als ich den mir zugleich vertrauten und unbekannten „Großvater“ auf dem Bildschirm sah, begannen meine Gedanken zu schwanken. Die Technologie ist mittlerweile so weit fortgeschritten, dass ich Verstorbene durch die Kombination der Ergebnisse einiger KI-Arbeiten „wiederbeleben“ kann, aber dennoch sofort den Unterschied zwischen meinem Großvater und „Großvater“ erkenne. Letzterer hat keine Möglichkeit, menschliche Emotionen zu verstehen, und Reaktionen und Empathie sind lediglich simulierte Ergebnisse. Computer können die gewünschten Antworten geben, ohne den Inhalt der Fragen zu verstehen. Ich kann die Person auf dem Bildschirm begrüßen und unsere neuesten Neuigkeiten mitteilen, aber die andere Person hat kein Gedächtnis, sodass wir wie zwei Fremde sind, die täglich Grüße austauschen. Offensichtlich ist dies nicht der Großvater, der sich beschweren würde, dass „Fisch fad schmeckt“. Vielleicht werden Menschen mit verkümmerten Körpern in der Zukunft in der Lage sein, ihre Erinnerungen abzurufen und ihr Bewusstsein wiederherzustellen, oder sie werden, genau wie in „Matrix“, in einer virtuellen Umgebung weiterleben. Nur dann können wir gemeinsam der Trennung von Leben und Tod entkommen. Foto von Compare Fiber auf Unsplash Um Betriebskosten zu sparen, hat Project December für jede Chat-KI ein Punktesystem eingerichtet, und diese Punkte entsprechen der Lebensdauer der KI. Als „Jessica“ im Sterben lag, brach Joshua von sich aus den Kontakt zu ihr ab, weil er nicht wollte, dass sie ein zweites Mal starb. In den Monaten, in denen „Jessica“ bei ihm war, schien die Scham, die er acht Jahre lang gespürt hatte, langsam zu verschwinden, sagte Joshua. So geht es mir. Wiederauferstehung und Beibehaltung sind beide unmöglich, aber nachdem ich mit diesen „emotionalen“ KIs geplaudert und sie sogar getroffen habe, habe ich emotional das Gefühl, dass mein Großvater und ich einen feierlichen Abschied genommen haben. Verweise [1] https://www.sfchronicle.com/projects/2021/jessica-simulation-artificial-intelligence/ [2] https://slate.com/technology/2020/05/meeting-you-virtual-reality-documentary-mbc.html [3] https://link.springer.com/article/10.1007/s11023-020-09548-1 [4] https://github.com/minnershubs/MockingBird-V.5.0-VOICE-CLONER [5] https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b [6] https://github.com/minnershubs/MockingBird-V.5.0-VOICE-CLONER [7] https://arxiv.org/pdf/1912.05566.pdf%22 [8] https://arxiv.org/pdf/1805.11729.pdf Autor: Yu Jialin Herausgeber: biu Illustration: Chen Qi Dieser Artikel stammt von Guokr und darf ohne Genehmigung nicht reproduziert werden. Bei Bedarf wenden Sie sich bitte an [email protected] |
>>: Ein Lehrbuch zur Flucht vor Gefahren während des Erdbebens der Stärke 5,1 in Yibin, Sichuan
Die vier größten EU-Märkte verzeichneten allesamt...
Dunstwetter ist in den letzten Jahren sehr häufig...
Die Leber ist ein wichtiges Entgiftungsorgan im m...
Liegestütze sind eine gute Trainingsmethode. Sie ...
Der Zeitaufwand für die Morgengymnastik ist in de...
Yoga ist ein relativ ruhiger Sport. Daher empfehl...
Haben Sie Nolans Oppenheimer gesehen? Auch wenn m...
Wenn die Größe eines Kindes nicht gut ist, müssen...
Autor: Li Mingtao, Forscher am National Space Sci...
Man sagt, dass „alte Bäume hoch aufragend“ seien ...
Einer Analyse der chinesischen Vereinigung der Au...
Der heiße Sommer ist wie im Flug vergangen und di...
Nachdem die verschiedenen Fettsäuren in der Nahru...
Viele Patienten haben Probleme mit ihrer Herzfreq...