In letzter Zeit erfreut sich die künstliche Intelligenz ChatGPT auf der ganzen Welt großer Beliebtheit. Menschen aus allen Gesellschaftsschichten haben ihre Gespräche damit gepostet. Einige der Antworten sind erstaunlich, andere hingegen völliger Unsinn. Andere nutzen es als Unterstützung beim Verfassen von Texten und bei der Codeänderung und versuchen, es zu einem guten Helfer für die menschliche Arbeit zu machen. Warum ist ChatGPT ein so vielseitiger Chat-Begleiter und kann alle unsere Fragen beantworten? Geschrieben von | Chen Qingyang Der von OpenAI eingeführte Chatbot chatGPT ist weltweit in den Mittelpunkt der Diskussion gerückt. Das auf dem leistungsstarken GPT-Modell basierende Sprachgenerierungssystem chatGPT verfügt über außergewöhnliche Fähigkeiten zur Textgenerierung in natürlicher Sprache. Nach dem Vortraining anhand eines großen Korpus ist es für verschiedene Aufgaben der natürlichen Sprachverarbeitung geeignet. Es kann nicht nur sehr realistische Texte gemäß den Benutzeranforderungen generieren, wie z. B. Artikel, Pressemitteilungen, Gedichte, Codes usw., sondern auch fast alle Ihre Fragen beantworten – von der Astronomie bis zur Geographie. Warum ist es so leistungsstark? Dieser Artikel gibt eine kurze Einführung in die Prinzipien des Sprachmodells und die Entwicklungsgeschichte hinter chatGPT. Sprachmodellierung: eine grundlegende Aufgabe Hinter chatGPT steckt ein leistungsstarkes Sprachmodell. Was ist ein Sprachmodell? Wir alle haben zum Beispiel die Eingabemethode Sprache-zu-Text-Konvertierung verwendet, und es gibt viele Homophone in der Sprache, wie zum Beispiel Der frittierte Tintenfisch in diesem Restaurant ist wirklich köstlich! Und Das Pfannengericht in diesem Restaurant ist wirklich köstlich! Wie kann eine Maschine anhand der Sprache erkennen, ob jemand „squid“ oder „due“ sagt? Hier kommt ein Sprachmodell ins Spiel. Die Aufgabe des Sprachmodells besteht darin , die Wahrscheinlichkeit zu bestimmen, dass ein Satz bei einem gegebenen Satz tatsächlich vorkommt . Ein gutes Sprachmodell gibt dem ersten Satz (squid) eine hohe Wahrscheinlichkeit und dem zweiten Satz (because) eine niedrige Wahrscheinlichkeit. Diese „hervorragende Übersetzung“ ist offensichtlich das Ergebnis des Fehlens eines guten Sprachmodells. Wie kann also ein Sprachmodell die Wahrscheinlichkeit genau bestimmen, dass ein bestimmter Satz tatsächlich vorkommt? Die Maschine muss Tausende von Büchern lesen, um sich mit der menschlichen Sprache vertraut zu machen und die Gewohnheiten der Wortwahl und des Satzbaus zu verstehen. Das technische Problem besteht hier darin, wie wir einen Algorithmus oder ein Programm entwickeln, das Sprachmuster lernt und es Maschinen ermöglicht, die menschliche Sprache zu „verstehen“. Es gibt eine einfache Methode namens „Bigram“. Die Idee besteht darin, alle Dokumente zu scannen, jedes Wort zu zählen und herauszufinden, welches Wort danach am häufigsten vorkommt. Beispielsweise stellt das Gerät nach dem Scannen vieler Dokumente möglicherweise fest, dass beim Wort „ich“ die Häufigkeit von „ist“ nach „ich“ 30 % beträgt, die Häufigkeit von „rufen“ 20 %, die Wahrscheinlichkeit von „denken“ 30 % usw. Anhand dieser Häufigkeit ermittelt die Maschine die Wahrscheinlichkeit, dass diese beiden Wörter zusammen vorkommen (gemeinsame Wahrscheinlichkeit). Angenommen, der Wortschatz der Sprache ist N. Wenn die Maschine mit dem Lernen fertig ist, erstellt sie eine Tabelle mit N Zeilen und N Spalten, wobei jede Zeile ein Wort row[i] darstellt und jede Spalte row[i][j] die Wahrscheinlichkeit darstellt, dass das Wort nach dem Wort row[i] erscheint. Mit dieser Tabelle kann die Maschine die Arbeit zur Bestimmung des Sprachmodells abschließen. Wir geben ihm einen Satz: „Ich vermisse dich“. Wenn in der Tabelle angenommen wird, dass die Wahrscheinlichkeit, dass nach „I“ „think“ erscheint, 30 % beträgt, die Wahrscheinlichkeit, dass nach „think“ „you“ erscheint, 50 % beträgt und die Wahrscheinlichkeit, dass nach „you“ „le“ erscheint, 10 % beträgt, dann beträgt die Gesamtwahrscheinlichkeit, dass der Satz „I miss you“ erscheint, 30 % * 50 % * 10 % = 0,015. Mit dieser Methode kann die Maschine leicht feststellen, dass die Wahrscheinlichkeit des Auftretens von „squid“ im vorherigen Beispiel höher ist als die von „because“. Dieser einfache Ansatz ist jedoch auch mit vielen Problemen behaftet. Oftmals hängt die Wahrscheinlichkeit, dass ein Wort auf ein anderes folgt, nicht nur von diesem Wort ab, sondern bestimmt zusammen mit den vorherigen k Wörtern die Wahrscheinlichkeit, dass das nächste Wort erscheint (einige der vorherigen k Wörter sind möglicherweise nicht wichtig). Auch die Tabellenspeicherung ist ein Problem. Wenn k=2 ist, hat unsere Tabelle bereits die Größe N*N. Mit zunehmendem k wird die Tabelle exponentiell größer. Darüber hinaus kann diese Methode nicht automatisch Synonyme lernen, um das Modell zu verallgemeinern. Andere Möglichkeiten zum Erstellen eines Sprachmodells sind beispielsweise das manuelle Erstellen einer Wissensdatenbank, in der die Beziehungen zwischen Substantiven aufgezeichnet werden, oder das Entwerfen eines Satzes grammatikalischer Regeln für die Sprache, mit denen grammatikalisch falsche Sätze eliminiert werden können. Tatsächlich verwendete eine der frühen Schulen für Methoden der natürlichen Sprachverarbeitung Linguistik, die einen Großteil der manuellen Annotation erforderte und nicht flexibel genug war (sie konnte nicht aus neuen Texten lernen usw.). Mit der zunehmenden Datenmenge und der Weiterentwicklung von Methoden des maschinellen Lernens, der Rechenleistung und anderer Technologien wurden daher insbesondere nach den 2010er Jahren Methoden auf Basis tiefer künstlicher neuronaler Netzwerke zum Mainstream. Die Menschen verwenden keine manuellen Grammatikregeln oder einfachen statistischen Modelle mehr. Stattdessen verwenden sie tiefe neuronale Netzwerke (Hinweis: Von nun an verwenden wir den Begriff „neuronales Netzwerk“, um uns auf künstliche neuronale Netzwerke zu beziehen, nicht auf biologische neuronale Netzwerke. Maschinelles Lernen unter Verwendung vieler Schichten tiefer neuronaler Netzwerke wird als „Deep Learning“ bezeichnet), um Maschinen zu ermöglichen, den Kontext der Sprache und die intrinsischen Beziehungen zwischen Wörtern aus riesigen Datenmengen (Beispiele natürlicher Sprache) automatisch zu erlernen. Feedforward-Neuronales Netzwerk Zur Lösung dieser zentralen Probleme wird in diesem Dokument ein zweischichtiges neuronales Vorwärtsausbreitungsnetzwerk vorgeschlagen. Dies ist ein relativ einfaches neuronales Netzwerk, weit weniger komplex als spätere Netzwerke, aber es demonstriert die Wirksamkeit der Verwendung neuronaler Netzwerke für die Sprachmodellierung. Die Idee des Modells lässt sich wie folgt zusammenfassen: Jedes Wort hat einen Wortmerkmalsvektor, der gelernt werden kann Satz 1: Die Katze läuft im Schlafzimmer herum; Satz 2: Ein Hund rannte in einem Zimmer. Denn nach viel Lernen werden „Katze“ und „Hund“, „Schlafzimmer“ und „Zimmer“, „Gehen“ und „Laufen“ relativ ähnliche Merkmalsvektoren haben. Selbst wenn die Maschine Satz 2 im Trainingssatz noch nie gesehen hat, weist sie ihm eine ähnliche gemeinsame Wahrscheinlichkeit zu wie Satz 1, und eine kleine Schwankung im Merkmalsvektor hat weniger Auswirkungen auf die endgültige gemeinsame Wahrscheinlichkeit. Interessanterweise wurde in dem Artikel auch ausdrücklich erwähnt, dass die Forscher zum Trainieren eines so „großen Modells“ (aus heutiger Sicht sehr klein) einen parallelen Trainingsalgorithmus entworfen und ihn drei Wochen lang auf 40 CPUs trainiert haben. Transformer: Der Ursprung großer Modelle Mit der Entwicklung des Deep Learning und der Computerrechenleistung wurden neuere neuronale Netzwerkarchitekturen und größere Modelle vorgeschlagen. Ein Meilenstein unter ihnen war das Transformer-Modell [2] (derselbe Name wie der berühmte Film Transformers), das 2017 von Wissenschaftlern bei Google Brain vorgeschlagen wurde und das „T“ in chatGPT darstellt. Durch die Einführung des „Selbstaufmerksamkeitsmechanismus“ und der „Positionskodierung“ kann Transformer lernen, welchen Wörtern in einem Kontext mehr „Aufmerksamkeit“ geschenkt werden sollte. Wie bereits erwähnt, sind Gewichtung und Rolle verschiedener Wörter im Kontext bei der Vorhersage eines Wortes unterschiedlich. Nehmen wir als Beispiel den folgenden Satz: Der Hund rannte in einen Raum, weil er hungrig war. Bezieht sich das „es“ hier auf den Hund oder das Zimmer? Durch den Aufmerksamkeitsmechanismus kann das Transformer-Modell feststellen, dass es in diesem Kontext stark mit Hund, aber weniger mit Raum assoziiert wird. Der spezifische Berechnungsprozess besteht darin, dass die Einbettung (Wortvektor) jedes Wortes im Kontext mit den Wortvektoren anderer Wörter innerproduktiv berechnet wird. Je kleiner das innere Produkt, desto kleiner die Distanz (desto größer die Korrelation). Allgemein gesagt kann das Transformer-Modell ein Wort besser kontextbezogen kodieren, d. h., demselben Wort können in unterschiedlichen Kontexten unterschiedliche Kodierungen (Bedeutungen) zugewiesen werden. Die Kernberechnung des Self-Attention-Mechanismus ist das innere Produkt, also eine Matrixmultiplikation in Stapeln. Bei der Matrizenmultiplikation handelt es sich um eine hochgradig parallele Operation, die die effiziente Berechnung von Abhängigkeiten über große Entfernungen (sehr lange Kontexte) ermöglicht. Der hohe Grad an Parallelität macht das Modell zudem skalierbarer. Beispielsweise kann das Modell in großen Modellen wie GPT-3 Kontexte von bis zu 2048 Wörtern berücksichtigen. Wenn wir im hervorragenden Übersetzungsdiagramm oben ein Transformer-Modell verwenden, kann die Maschine bei der Übersetzung von „seien Sie vorsichtig“ den vorherigen Kontext „seien Sie vorsichtig“ berücksichtigen. Zu diesem Zeitpunkt wird „Seien Sie vorsichtig“ mit „Seien Sie vorsichtig, dass Sie es nicht tun“ statt mit „Seien Sie vorsichtig“ übersetzt. Mit einer so leistungsstarken, flexiblen und effizienten Methode zur Sprachmodellierung ist die KI in das Zeitalter großer Modelle eingetreten. Großes Modell + Vortraining: Mehr allgemeine Intelligenz Das Transformer-Modell hat eine Revolution in der künstlichen Intelligenz ausgelöst und es wurden kontinuierlich neue Transformer-basierte Modelle eingeführt, wie beispielsweise BERT von Google und GPT von OpenAI. Diejenigen, die mit der Google-Suche vertraut sind, haben tatsächlich schon unzählige Male von der Transformer-Technologie profitiert (die Google-Suche verwendet das BERT-basierte Transformer-Modell). Der 2018 von OpenAI eingeführte GPT (Generative Pre-trained Transformer) ist der Vorgänger von chatGPT. Trotz des Aufkommens neuer Technologien wie Transformer besteht bei der Verarbeitung natürlicher Sprache immer noch die Praxis, unterschiedliche Modelle für unterschiedliche Sprachaufgaben (wie Fragenbeantwortung und Übersetzung) zu trainieren. Einfach ausgedrückt: Professionelle Models machen professionelle Dinge. Im Jahr 2018 brachte GPT mit seinem Aufsatz „Improving Language Understanding by Generative Pre-Training“[3] die Generalisierung der maschinellen Intelligenz auf eine neue Ebene. Die Forscher kamen zu dem Schluss, dass es besser ist, ein allgemeines Sprachmodell „vorzutrainieren“, anstatt unterschiedliche Modelle für unterschiedliche Sprachaufgaben zu trainieren. Dieses Modell hat keine spezielle Funktion. Es ist lediglich für den Aufbau eines allgemeinen Verständnisses der menschlichen Sprache verantwortlich, also für das oben erwähnte Sprachmodell, also für die Feststellung, ob ein bestimmter Satz normal oder abnormal klingt. Die Forscher stellten fest, dass nach dem Vortrainieren des Modells im großen Maßstab nur noch eine geringe „Feinabstimmung“ (spezielles Training im kleinen Maßstab) erforderlich ist, damit sich das vortrainierte Modell schnell an eine neue Aufgabe anpassen kann. Die Wirkung ist dabei besser als bei einem Modell, das speziell für eine bestimmte Aufgabe trainiert wurde. In der nachfolgenden Version von GPT 2[4] und 3[5] (chatGPT ist eine optimierte Version von GPT-3 für „Dialogaufgaben“) haben die Forscher die Größe des Modells weiter erhöht (GPT-3 hat 175 Milliarden Parameter und wurde auf einem 57 Milliarden umfassenden Datensatz trainiert), und etwas fast Wunderbares geschah: GPT-3 war in der Lage, äußerst realistische Sätze zu generieren, die sogar noch eloquenter waren als die des Menschen. Dieses groß angelegte Transformer-Modell wird als „großes Sprachmodell“ bezeichnet. In GPT-3 haben die Forscher die Trainingsmethode weiter verbessert, die als „In-Context-Lernen“ bezeichnet wird. Dies bedeutet, dass nur ein umfangreiches Vortraining mit allgemeinem Wissen erforderlich ist und das Lernen vor Ort dann direkt bei der Ausführung spezieller Aufgaben durchgeführt wird! Das heißt, wenn Sie ein paar Beispiele (Kontext) angeben, versteht die Maschine, was Sie meinen, und kann eine recht gute Leistung erbringen. An diesem Punkt hat die künstliche Intelligenz einen weiteren Schritt in Richtung allgemeinerer Intelligenz gemacht. Fazit und Zukunftsvorstellungen chatGPT und große Sprachmodelle sind nicht allmächtig. Sie haben immer noch verschiedene Probleme – von Zeit zu Zeit werden sie Ihnen mit Sicherheit eine falsche Antwort geben. Dies liegt daran, dass es sich um ein generatives Modell handelt, das auf einer Wahrscheinlichkeitsverteilung basiert. Der generierte Text basiert auf seinem Trainingssatz und Ihrem Kontext, um die Wahrscheinlichkeit der Generierung einer Antwort zu maximieren. Daher ist es natürlich unmöglich, zu garantieren, dass die Antwort immer richtig ist. Dennoch haben GPT-3 und chatGPT einen großen Schritt in Richtung allgemeiner Intelligenz gemacht. Stellen wir uns die Zukunft vor. Heute basiert das Verständnis von chatGPT von der Welt hauptsächlich auf menschlicher Sprache und Text, aber die Art und Weise, wie Menschen die Welt verstehen, ist mehrdimensional. Sprache und Text sind nur eine Form. Viele Informationen stammen aus Bildern, Videos und sogar aus Geschmacks- und Geruchssinn. Wird chatGPT in Zukunft nicht einfach zu Hause bleiben, sondern in Form eines Roboters auftreten: mit einer Kamera als Augen, einem Lautsprecher als Mund und mechanischen Händen und Füßen, das Haus verlassen, um die Welt zu sehen, mit Menschen und der Natur in der physischen Welt zu interagieren, Feedback zu erhalten und seine Wahrnehmung zu korrigieren? Wenn der Roboter Blumen, Bäume, Berge, Flüsse, Meere, Sonnenauf- und -untergänge sowie die Freuden und Sorgen der Menschen sieht, kann er dann auch auf irgendeine Weise „Emotionen“ und „Liebe“ ausdrücken? Kann KI uns nicht nur als Assistent des Menschen dienen, sondern uns auch emotionale Gesellschaft leisten? Warten wir es ab. Hinweis: Zu den Kerntechnologien von chatGPT gehört auch das bestärkende Lernen (Reinforcement Learning from Human Feedback), wodurch die Antworten präziser und benutzerfreundlicher werden. Dies sind die Ergebnisse des bestärkenden Lernens. Dieser Artikel stellt nur kurz einige grundlegende Hintergründe zu Sprachmodellen vor. Weitere Lernmaterialien finden Sie in der erweiterten Lektüre und den Referenzen. Weiterführende Literatur 1. Sprachmodelle trainieren, Anweisungen mit menschlichem Feedback zu befolgen 2. Veranschaulichung des Reinforcement Learning aus menschlichem Feedback (RLHF) 3. Der Weg zur AGI: Technische Grundlagen des Large Language Model (LLM): Verweise [1] Ein neuronales probabilistisches Sprachmodell, https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf [2] Aufmerksamkeit ist alles, was Sie brauchen, https://arxiv.org/abs/1706.03762 [3] Verbesserung des Sprachverständnisses durch generatives Vortraining,https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf [4] Sprachmodelle sind unüberwachte Multitasking-Lerner, https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf [5] Sprachmodelle sind Few-Shot-Lerner, https://arxiv.org/abs/2005.14165 Dieser Artikel wird vom Science Popularization China Starry Sky Project unterstützt Produziert von: Chinesische Vereinigung für Wissenschaft und Technologie, Abteilung für Wissenschaftspopularisierung Hersteller: China Science and Technology Press Co., Ltd., Beijing Zhongke Xinghe Culture Media Co., Ltd. Besondere Tipps 1. Gehen Sie zur „Featured Column“ unten im Menü des öffentlichen WeChat-Kontos „Fanpu“, um eine Reihe populärwissenschaftlicher Artikel zu verschiedenen Themen zu lesen. 2. „Fanpu“ bietet die Funktion, Artikel nach Monat zu suchen. Folgen Sie dem offiziellen Account und antworten Sie mit der vierstelligen Jahreszahl + Monat, also etwa „1903“, um den Artikelindex für März 2019 zu erhalten, usw. Copyright-Erklärung: Einzelpersonen können diesen Artikel gerne weiterleiten, es ist jedoch keinem Medium und keiner Organisation gestattet, ihn ohne Genehmigung nachzudrucken oder Auszüge daraus zu verwenden. Für eine Nachdruckgenehmigung wenden Sie sich bitte an den Backstage-Bereich des öffentlichen WeChat-Kontos „Fanpu“. |
<<: Neueste Nachrichten! Die Besatzung der Shenzhou 15 plant, im Juni nach Hause zurückzukehren
>>: Wie fliegt der Vogel, der in der Luft zu schweben scheint?
Heutzutage wollen männliche Freunde unbedingt ein...
Seit N1 ist das Design der rotierenden Linse zu O...
Hallo, hier ist Science Popularization China. Ich...
Wenn wir den historischen Ruhm Henans spüren möch...
Sobald es heiß wird, beginnt der Kampf um die Kli...
Rudern ist eine beliebte Rückentrainingsübung. Um...
"Chang'an 30.000 Meilen" ist in let...
Q Wo kann Wasserstoffenergie außer in Flugzeugen ...
Die Leute fragen oft: Oh, ich träume nachts zu vi...
Ich glaube, jeder kennt Aerobic, aber viele Freun...
Gemischtes Wissen Speziell entwickelt, um Verwirr...
Seit unserer Kindheit wird uns beigebracht, dass ...
Manche Leute finden Aerobic sehr schwierig und de...
Ich glaube, dass alle Mütter nach der Geburt mit ...