Er untersucht große Modelle an der Westlake University und hofft, KI dabei zu unterstützen, menschliches Glück und Leid zu verstehen.

Er untersucht große Modelle an der Westlake University und hofft, KI dabei zu unterstützen, menschliches Glück und Leid zu verstehen.

Im Internet kursieren zwei Eisberg-Modellbilder von Gesprächen zwischen Männern und Frauen: Was das Mädchen ausdrückt, ist nur die Spitze des Eisbergs all ihrer Gedanken, und der Junge kann nur diesen kleinen Teil verstehen; Während der Junge nur die Spitze des Eisbergs meint, glaubt das Mädchen, dass es unter der Wasseroberfläche Strömungen gibt.

Wie die meisten heterosexuellen Männer ist der schweigsame Lan Zhenzhong oft beunruhigt über die Unterschiede in der Denkweise von Männern und Frauen. Wenn er mit seiner Frau kommuniziert, möchte er ihr instinktiv bei der Lösung des Problems helfen, doch die Ergebnisse sind oft nicht optimal. „Später wurde mir klar, dass sie meistens nur Zuhören und Einfühlungsvermögen braucht und dann in der Lage ist, das Problem selbst zu lösen.“

Kann KI dabei helfen, Empathie zu entwickeln und die Kommunikationseffizienz zu verbessern?

Während seines Doktoratsstudiums an der Carnegie Mellon University begann Lan Zhenzhong darüber nachzudenken, wie man KI populärer machen könnte. Seine Frau war eine Kommilitonin an der Carnegie Mellon und ebenfalls eine Spitzenstudentin. „Sie war akademisch besser als ich.“

Nach seinem Abschluss ging er zu Google und wurde Zeuge einer Welle künstlicher Intelligenz nach der anderen und nahm daran teil. Die Idee, die ihm während seines Doktoratsstudiums kam, konnte er nie vergessen.

Er ist der festen Überzeugung, dass KI sowohl über IQ als auch EQ verfügt, genau wie die KI-Assistentin Samantha im Hollywood-Film „Her“ oder der Roboter Baymax in „Baymax – Riesiges Robowabohu“.

Dabai ist ein warmer Roboter

Ein großes Modell, das die Bedeutung hinter Wörtern verstehen kann

Das Büro von Xihu Xinchen befindet sich im Yunchuang Gallium Valley, weniger als 500 Meter vom Yungu-Campus der Westlake University entfernt. Es ist auch der Pilotpark der Leistungstransformationsbasis der Westlake University/Westlake Laboratory.

Nach seiner Rückkehr von Google nach China besuchte Lan Zhenzhong zunächst die Westlake University und gründete dann Westlake Xinchen. Mit einer Gruppe junger Leute im Durchschnittsalter von 25 Jahren stürzte er sich in die Forschung darüber, wie man KI dazu bringen kann, menschliche Emotionen und Absichten besser zu verstehen. Darunter sind KI-technische Talente von Unternehmen wie Google, Meta und Amazon sowie talentierte Studenten der psychologischen Beratung von der New York University, der Emory University, der Capital Medical University usw.

Ihre neueste Errungenschaft ist das allgemeine End-to-End-Sprachmodell „Xinchen Lingo“, das erstmals am 5. September auf der Bund-Konferenz 2024 vorgestellt wurde. Lan Zhenzhong gewann außerdem den ersten Ant InTech Technology Award. Dieser rein gemeinnützige Preis der Ant Group wird an junge chinesische Wissenschaftler verliehen, die eine Schlüsselrolle bei der Förderung des wissenschaftlichen Forschungsfortschritts im Bereich der Informatik gespielt haben.

Du spielst Black Myth: Wukong: „Ich habe den Big Head Monk erreicht. Ich habe dieses Level mehr als 10 Mal bekämpft.“

Freund A: „Wow, selbst der großköpfige Mönch kann dich zurückhalten, dieses Level ist wirklich berührend.“

Sie fühlen sich niedergeschlagen: „Ich bin etwas unglücklich. Ich hatte heute ein wenig Reibereien mit meinen Kollegen.“

Freund B: „Hey, die Reibereien auf der Arbeit sind wirklich unangenehm. Was ist passiert? War es ein Missverständnis auf der Arbeit oder eine Fehlkommunikation?“

Das Spielen mit dem schlechten Freund A und der vertrauten Schwester B sind einige der Anwendungsszenarien, die in der Demonstration der Echtzeitinteraktion von Lingo mit Menschen gezeigt werden.

„Im Vergleich zu anderer KI kann Lingo menschliches Verhalten, Emotionen und Reaktionsmuster durchgängig simulieren und ist sehr menschenähnlich. “ Lan Zhenzhong sagte, dass Benutzer die Kommunikation jederzeit unterbrechen oder die Charaktereinstellungen (Stimme, berufliche Rolle) ändern könnten.

Was ist End-to-End?

Einige der KI-Sprachtools, die wir bisher kennengelernt haben, basieren größtenteils auf TTS. Dabei handelt es sich um eine Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. Es ermöglicht Maschinen zu sprechen und löst das Problem der Sprachausgabe, beinhaltet jedoch keine Absichtserkennung und kein Dialogverständnis. Die Vorteile des End-to-End-Sprachmodells liegen in seiner extrem geringen Latenz und Steuerbarkeit. Es kann neben Text auch andere Informationen hören, wie Emotionen, Tonfall, Umgebungsgeräusche usw. und hilft so dem großen Modell, den Sprachinhalt umfassender zu verstehen.

„Ob Sie die Lautstärke erhöhen oder eine bestimmte Klangfarbe imitieren möchten, die Steuerung ist relativ einfach.“ Lan Zhenzhong erklärte, dass das End-to-End-Sprachmodell mehrere Verknüpfungen wie Spracherkennung, natürliche Sprachverarbeitung, Absichtserkennung, Dialogverwaltung und Sprachsynthese integriert und so einen vollständigen interaktiven Prozess von der Spracheingabe bis zur Sprachrückmeldung realisiert.

Basierend auf dieser zugrunde liegenden Fähigkeit können verschiedene intelligente Geräte in Kombination mit Lingo die wahren Absichten hinter den Worten des Benutzers lesen und darauf reagieren. Wenn er beispielsweise hört „der Boden auf dem Balkon ist etwas schmutzig“, ergreift der Kehrroboter die Initiative und reinigt ihn; Wenn er hört, dass das Sonnenlicht etwas blendet, passt der intelligente Vorhang-Controller die Verdunkelungsvorhänge automatisch an.

Von der maschinellen Bildverarbeitung zur Verarbeitung natürlicher Sprache

Lan Zhenzhong kommt aus Chaozhou, Provinz Guangdong. Er wurde 1986 in eine Lehrerfamilie geboren. Im Jahr 2007, als er Software-Engineering und Statistik an der Sun Yat-sen-Universität studierte, begann er, sich mit künstlicher Intelligenz zu beschäftigen. Im Jahr 2012 wurde er am Language Technologies Institute (LTI) der School of Computer Science der Carnegie Mellon University aufgenommen, der führenden Computerschule der USA, mit Spezialisierung auf Computer Vision und Multimediaanalyse. Im Jahr 2018 wechselte er zum Google AI Research Institute und war für die Forschung und Entwicklung mehrerer Projekte zur Computervision und natürlichen Sprachverarbeitung verantwortlich. Die Forschungs- und Entwicklungsergebnisse wurden auf Produkte wie Google News und Google Assistant angewendet …

Beim Durchsehen seines Lebenslaufs scheint es schwierig, direkt herauszufinden, warum er seinen „Karriereweg“ vom Sehen zur Sprache geändert und sich auf emotionale Begleitung durch KI spezialisiert hat.

Für den Menschen ist Geselligkeit Konsum. Obwohl er die Kommunikation im Alltag klar in drei Kategorien je nach Zweck einteilen kann: Problemlösung, emotionsorientiert und Beziehungsaufbau, weiß er auch, dass er im ersten Typ gut ist und Hilfe braucht.

Der direktere Grund war, dass er kurz vor seinem Doktorabschluss erfuhr, dass ein Kommilitone seinem jungen Leben aufgrund einer Depression ein Ende gesetzt hatte.

Dieser Vorfall berührte ihn tief. Wenn äußere Kräfte rechtzeitig eingreifen, und sei es nur mit psychologischer Begleitung und grundlegenden Dienstleistungen, werden diejenigen, die unter schweren psychischen Problemen leiden, dann wieder etwas Wärme und Schönheit in dieser Welt spüren können?

Im Jahr 2020 kündigte Lan Zhenzhong bei Google und kehrte nach China zurück, um an der Westlake University zu arbeiten, wo er als Leiter des Deep-Learning-Labors und Doktorvater tätig war. Er wollte einen Gesprächsroboter entwickeln, der Patienten jederzeit und überall begleiten und psychologisch beraten kann. Die Sprachverarbeitung ist der Kern des Konversationssystems.

Im Juli des folgenden Jahres wurde West Lake Xinchen geboren. In diesem Jahr wurde Lan Zhenzhong vom MIT auch als einer der „35 technologischen Innovatoren unter 35 Jahren“ im asiatisch-pazifischen Raum ausgewählt.

Bildquelle: Offizielle Website der Westlake University

Rückblickend auf diese Erfahrung fühlte sich Lan Zhenzhong „sehr glücklich“: Als er 2018 bei Google war, erlebte er zufällig einen Paradigmenwechsel im maschinellen Lernen – vom überwachten Lernen zum selbstüberwachten Lernen. Im Zeitalter des selbstüberwachten Lernens können Maschinen ihren Lernprozess durch das Lesen großer Mengen Text und Bilder abschließen, ohne dass eine manuelle Beschriftung erforderlich ist. Dadurch wird ihre Fähigkeit, Sprache und visuelle Inhalte zu verstehen, erheblich verbessert.

Ich arbeite lieber im Labor, um Technologie zu entwickeln

Das erste Produkt von Xihu Xinchen ist die kostenlose psychologische Beratungsplattform „Liaohui Xiaotian“.

Lan Zhenzhong und sein Team konsultierten Psychologieexperten, Psychiater und andere und führten außerdem Untersuchungen und Interviews mit Patienten durch. Nach der Ansammlung eines großen Korpus und dem Studium echter Fälle psychologischer Beratung, gepaart mit selbst entwickelten Modulen zur Emotionsberechnung und Empathie, kann Xiaotian mit Emotionen zuhören und kommunizieren.

Zum zweiten Jahrestag der Firmengründung veröffentlichte West Lake Xinchen das multimodale allgemeine Großmodell „West Lake Big Model“, das über die Fähigkeiten des Langzeitgedächtnisses, der emotionalen Wahrnehmung und des aktiven Chats verfügt. Durch Iteration auf dieser Grundlage hat Xiaotian nun das Niveau eines psychologischen Beraters mittlerer Ebene erreicht.

Vor einem Monat wurde in Zusammenarbeit mit dem Hangzhou First People’s Hospital der KI-Psychologe „Shiyi Xiaoxi“ ins Leben gerufen. Neben der psychologischen Online-Beratung kann auch eine professionelle Befundinterpretation auf Basis medizinischer Wissensbasis erfolgen.

Jinke Tom Cat, das im vergangenen Jahr zweimal in Westlake Xinchen investiert hat, nutzte kürzlich die Fähigkeiten von Xinchen Lingo, um den „Talking Tom Cat“ zu einem „Chatting Tom Cat“-Roboter aufzurüsten …

Die Szenarien für die Technologieimplementierung erweitern sich ständig.

Einerseits gründet er ein Unternehmen, andererseits betreibt er wissenschaftliche Forschung. Lan Zhenzhong wechselt täglich zwischen den beiden Identitäten und scheint es vorzuziehen, sich im Labor mit der Technologie zu beschäftigen. „Mein Hauptaugenmerk liegt jetzt hier. Die Technologie entwickelt sich zu schnell weiter. Rückblickend gibt es nicht viel Arbeit, die wirklich Spuren hinterlassen kann.“ Deshalb möchte er weiterhin etwas tun, das das „Wesen“ berührt und den Fortschritt der Disziplin fördern kann.

Lan Zhenzhong bewundert He Kaiming, der ebenfalls KI-Wissenschaftler ist, und glaubt, dass seine Arbeit sehr „wichtig“ ist. Das von letzterem vorgeschlagene ResNet ist eine beliebte Architektur im Bereich der Computer Vision.

Im März letzten Jahres postete Lan Zhenzhong auf WeChat Moments eine weithin verbreitete „Heldeneinladung“, in der er einen CEO für das Unternehmen anwarb, der für die Umsetzung wissenschaftlicher Forschungsergebnisse, die Integration von Ressourcen, die Eroberung des Marktes und die Gewinnung von Kunden verantwortlich sein sollte …

Die Person, die diese Position jetzt innehat, ist Xingchen, der früher für die Alibaba Group gearbeitet hat und als Mitglied des Gründungsteams an der Gründung des Lakeside Innovation and Research Center beteiligt war.

Lan Zhenzhong kann sich mehr auf die wissenschaftliche Forschung konzentrieren. Oben in seinen Momenten ist ein Gruppenfoto angeheftet. Auf dem Foto lächelt die vierköpfige Familie strahlend. Die Familie war schon immer das Wichtigste. Außerhalb der Arbeit liebt er Sport, darunter Laufen, Yoga, Basketball, Schwimmen ... Er begann während seines Studiums mit Yoga, „was ihm hilft, sich zu entspannen und Stress abzubauen.“

Dialog mit der „Neuen Jugend“

Versuchen Sie, etwa im Oktober eine KI-Hotline für psychische Gesundheit einzurichten

Nine Thousand Light Years: Wie kamen Sie und Ihr Team auf die Idee, ein großes Sprachmodell zu entwickeln? Was war die größte Herausforderung oder Schwierigkeit während des Prozesses?

Lan Zhenzhong: Wir haben mit Text angefangen, aber bald festgestellt, dass das bei weitem nicht ausreicht. Beim Text gehen viele Informationen verloren und in der psychologischen Beratung kommunizieren viele Menschen lieber telefonisch als per Tastatur. Beim Tippen ist häufig eine Vororganisation der Sprache erforderlich, und dieser Vorgang selbst kann die Denkbelastung der Menschen erhöhen. Wenn Menschen müde oder emotional instabil sind, drücken sie ihre Gefühle eher und ohne Skrupel sprachlich aus.

Ab letztem Jahr bildeten sieben oder acht Personen aus dem Team ein Projektteam und begannen mit dem Training des Sprachmodells. Wie man Daten erhält, wie man die Stabilität des Vortrainings sicherstellt, wie man die Stimme anpasst … das sind alles Probleme. Der schwierigste Teil ist die Integration mit dem „Gehirn“, also die Umwandlung des Textmodells in ein Sprachmodell. Darüber hinaus ist Lingo ein Inhaltsproduzent und muss während der Interaktionen für Sicherheit sorgen, um die Ausgabe unangemessener Sprache zu verhindern.

Jiuqian Guangnian: In welchen anderen Szenarien kann Xinchen Lingo außer in der psychologischen Beratung eingesetzt werden?

Lan Zhenzhong: Es kann allgemeine grundlegende Sprachdienste für verschiedene Bereiche bereitstellen, beispielsweise für den täglichen Verkauf, Bildung und Ausbildung, medizinische Beratung, Interaktion mit intelligenten Geräten, Kinderbetreuung usw. Etwa im Oktober werden wir versuchen, eine KI-Hotline für psychische Gesundheit einzurichten.

KI ist wie ein intelligentes Baumloch

Neuntausend Lichtjahre: Menschliche Emotionen sind so komplex. Kann KI sowohl IQ als auch EQ haben und genügend emotionalen Wert bieten?

Lan Zhenzhong: Sie können sich KI als ein Werkzeug vorstellen, das alles auf der Welt simulieren kann. In vielen Aspekten hat es den Menschen sogar übertroffen. Solange genügend Daten bereitgestellt werden, kann KI unbegrenztes Imitationslernen durchführen.

Viele Zeilen in „Wulin Wai Zhuan“ haben versteckte Bedeutungen. Wir haben versucht, anhand einiger dieser Sätze die Fähigkeit des großen Modells zu testen, chinesische Metaphern zu verstehen, und kamen zu dem Schluss, dass es grundsätzlich die menschliche Ebene erreichen kann.

Auch bei der Bereitstellung emotionaler Unterstützung verfügt KI über einzigartige Vorteile, wie etwa ihre unendliche Geduld. Menschliches Zuhören erfordert oft viel Energie, KI kann jedoch unermüdlich Gesellschaft leisten.

Nine Thousand Light Years: Gibt es Szenarien, in denen Menschen echte emotionale Unterstützung benötigen und die andere Partei möglicherweise enttäuscht ist, wenn ihnen in diesem Moment KI zur Verfügung gestellt wird?

Lan Zhenzhong: Es stimmt, dass der emotionale Austausch zwischen Menschen in manchen Fällen unersetzlich ist. KI eignet sich besser für Szenarien, in denen eine Person allein sein möchte oder Probleme hat, die sie nicht mit anderen teilen möchte. Es ist wie ein intelligentes Baumloch, in dem Sie einseitig sprechen oder mit anderen interagieren können, um Katharsis und Trost zu finden.

Hinter Xiaotian steckt ein komplettes Set an Bewertungs- und Interventionsprozessen

Neuntausend Lichtjahre: Xiaotian nahm vor zwei Jahren am Future Life Festival of Express teil. In der frühen Version war für einige Antwortskripte noch die Anleitung eines psychologischen Beraters erforderlich. Steckt heute noch menschliche Anstrengung dahinter?

Lan Zhenzhong: Nach mehreren Iterationen ist Xiaotian jetzt ein 100 % autonomes Programm. Nach der Verbindung mit Lingo können auch Sprach- und Telefonanrufe getätigt werden. In diesem Jahr wurden bereits 100.000 Benutzer davon registriert und Sie finden es auf Alipay, WeChat und Universitäts-Apps wie der Zhejiang University und der University of Science and Technology.

Nine Thousand Light Years: Gibt es unter den Benutzern, die mit Xiaotian chatten möchten, Besucher mit ernsthaften psychischen Problemen oder sogar Selbstmordtendenzen? Wie würden Sie mit dieser Situation umgehen?

Lan Zhenzhong: Xiaotian ist gut in psychologischer Begleitung und Unterstützung. Es wird jederzeit die Effektivität des Chats bewerten und dann über die Richtung der nächsten Anleitung entscheiden. Wenn festgestellt wird, dass ein Besucher möglicherweise schwerwiegende psychische Probleme oder psychische Störungen hat, wird empfohlen, die andere Partei zur Diagnose und Behandlung in ein entsprechendes Krankenhaus zu überweisen. Sobald eine Suizidneigung festgestellt wird, wird der Besucher an die Suizidinterventions-Hotline verwiesen. Äußert die Gegenseite dies mehrfach, ist ein menschliches Eingreifen erforderlich. Wir verfügen über einen umfassenden Beurteilungs- und Interventionsprozess.

Ein Unternehmen zu gründen ist ein bisschen wie das Rudern eines undichten Bootes

Nine Thousand Light Years: Welche Erkenntnisse können Sie aus Ihrer unternehmerischen Erfahrung der letzten Jahre mit uns teilen?

Lan Zhenzhong: Wir sagen oft, dass der Mensch dazu geboren ist, nach Ordnung zu streben, und sich in einer Umgebung ohne Ordnung unwohl und unsicher fühlt. Der Prozess der Unternehmensgründung ist ein bisschen wie das Rudern eines undichten Bootes. Nur wer schnell genug rudert, kommt sicher ans Ziel.

Auch mit einer Promotion geht eine gewisse Unsicherheit einher, doch viele Menschen können diese Herausforderung meistern. Noch schwieriger ist es, ein Unternehmen zu gründen, da dabei ständig „Geld verbrannt“ wird. Daher müssen Unternehmer lernen, in einem sich ständig verändernden Umfeld Sicherheit zu finden.

Nine Thousand Light Years: Können Sie uns sagen, worauf sich Ihre Forschung als Nächstes konzentrieren wird?

Lan Zhenzhong: Es geht immer noch um den „Gehirnaspekt“, darum, wie man menschliche Emotionen präzise einfängt, mit welchen Worten man reagiert usw. Tatsächlich stand das schon immer im Mittelpunkt.

<<:  Warum bringt Sie das Schneiden einer Zwiebel zum Weinen? Es liegt nicht an den Textzeilen „Schicht für Schicht mein Herz abziehen“ …

>>:  Wissenschaftler könnten Parasiten, die Katzen meiden, in medizinische Waffen umwandeln

Artikel empfehlen

Welche Wirkungen hat Tai Chi?

Wir sehen oft viele ältere Menschen, die im Park ...

Wie man Bodybuilding-Übungen macht

Welche Aerobic-Methoden helfen uns, unseren Körpe...

Sind teurere Matratzen wirklich besser?

Abgesehen von der Fußballweltmeisterschaft haben ...

Kommen Ferrari-Experten zu Zotye Auto, um Ferrari zu bauen?

Vor Kurzem besuchten mehrere Fertigungsexperten d...

Samsung Chinas Erwartung: Chinas Samsung zu werden

Samsung Electronics hat die relevanten Richtlinie...