Es gibt viele KI-Modelle. Wird es leichter sein, erfolgreich zu sein, wenn wir uns nur auf eines konzentrieren?

Es gibt viele KI-Modelle. Wird es leichter sein, erfolgreich zu sein, wenn wir uns nur auf eines konzentrieren?

Anfang 2023 schien Chat GPT einen Trend zu großen KI-Modellen ausgelöst zu haben. Seit Februar haben auch mehrere heimische Unternehmen eigene Großmodelle auf den Markt gebracht.

Wir kennen Wenxin Yiyan von Baidu, Tongyi Qianwen von Alibaba, Pangu von Huawei, Hunyuan von Tencent und so weiter. Darüber hinaus stellen viele Technologieunternehmen und akademische Einrichtungen ihre eigenen großen Modelle her. Beispielsweise gibt es WuDao 2.0 von der Beijing Academy of A-Systems, Zidong Taichu vom Institute of Automation der Chinesischen Akademie der Wissenschaften, MOSS von der Fudan-Universität und ChatGLM von der Tsinghua-Universität.

Die Namen so vieler großer Models machen einen schwindelig. Wenn sich alle diese Institutionen auf die Schaffung eines Modells konzentrieren würden, wäre es für sie dann nicht einfacher, erfolgreich zu sein?

Bildquelle: unsplash.com

An diesem Gedanken ist sicherlich etwas Wahres dran. Aber schauen wir uns die Geschichte der Entwicklung künstlicher Intelligenz an. Die gemeinsame Erforschung mehrerer Technologien und Wege ist auch einer der Gründe, warum sich künstliche Intelligenz schnell entwickeln und immer wieder den „Winter“ durchbrechen kann.

Um die Vorteile der technologischen Vielfalt für die Entwicklung künstlicher Intelligenz zu verstehen, müssen wir zunächst mit Symbolik und Konnektionismus beginnen.

Computer intelligenter machen

Auf der Dartmouth-Konferenz im Jahr 1956 wurde künstliche Intelligenz als aufstrebende Disziplin etabliert. Eine Generation nach der anderen hat sich der Forschung gewidmet, um Computer „intelligenter“ zu machen. Aber „schlauer werden“ ist zu abstrakt. Wie können wir das konkret erreichen?

Tatsächlich hatte man sich schon lange vor der Dartmouth-Konferenz mit diesem Thema befasst. In diesem Prozess entstanden mehrere unterschiedliche Richtungen, unter denen „Symbolismus“ und „Konnektionismus“ zwei wichtige und repräsentative Richtungen sind.

Die Idee des Symbolismus besteht darin, dass sich die menschliche Intelligenz hauptsächlich im Denken auf hoher Ebene widerspiegelt: „Die Grundlage der Intelligenz ist Wissen, und der Kern der Intelligenz ist die Darstellung und das Denken von Wissen.“ Wissen und logisches Denken lassen sich in mathematische Symbole umsetzen und auch die Denk- und Rechenvorgänge lassen sich durch mathematische Formelsymbole ausdrücken (deshalb nennt man diese Denkrichtung auch „Symbolismus“).

Die typischste Technologie der Symbolik ist das „Expertensystem“. Die Idee hinter dem Expertensystem besteht darin, das Wissen und die Logik eines bestimmten Bereichs in Form von Symbolen auszudrücken und diese in einer Wissensbasis und Inferenzmaschine zu organisieren. Basierend auf den Eingabebedingungen kann das Expertensystem das Wissen in der Wissensbasis und die etablierten logischen Schlussfolgerungsmethoden in der Inferenzmaschine nutzen, um Schritt für Schritt zu schlussfolgern und so korrekte Ergebnisse zu erhalten, die nicht in der Wissensbasis enthalten sind.

1955 erschien ein Programm namens „Logic Theorist“. Dieses Programm kann 38 der 52 Theoreme in „Principia Mathematica“ ableiten und bietet für einige Theoreme auch prägnantere Beweismethoden.

Manche bezeichnen dieses Programm sogar als „erstes Programm für künstliche Intelligenz“. Seit der Entstehung künstlicher Intelligenz nimmt die Symbolik seit langem eine wichtige Stellung im Bereich der künstlichen Intelligenz ein. Sogar der Begriff „künstliche Intelligenz“ ist eine neue Bezeichnung, die vor allem von Wissenschaftlern der symbolischen Schule geprägt wurde.

Während sich der Symbolismus stark weiterentwickelt hat, sind natürlich auch andere Versuche, Computern „Intelligenz“ zu verleihen, nicht zum Stillstand gekommen, wie etwa der Konnektionismus, der sich parallel dazu ebenfalls weiterentwickelt hat.

Konnektionismus und künstliche neuronale Netze

Der Konnektionismus ähnelt in gewisser Weise der Bionik, die die Struktur des menschlichen Gehirns von Grund auf untersucht und nachahmt, um das intellektuelle Verhalten des Menschen zu erklären.

Der Konnektionismus geht davon aus, dass die Aktivitäten zwischen mikroskopischen Ganglien letztendlich zu makroskopischer kognitiver Intelligenz führen. Diese Idee steht auch eher im Einklang mit der Bottom-up-Methodik in anderen wissenschaftlichen Bereichen: beispielsweise der Verwendung grundlegender physikalischer Kenntnisse zur Erklärung komplexer chemischer Reaktionsprinzipien. Seine Entwicklung hat eine der wichtigsten Technologien im heutigen Bereich der künstlichen Intelligenz hervorgebracht: künstliche neuronale Netzwerke.

Bildquelle: unsplash.com

Im Jahr 1943 schlugen Warren McCulloch und Walter Pitts ein mathematisches Modell vor, das biologischen Neuronen ähnelte – das MP-Neuronenmodell. Dieses Modell imitiert tatsächlich Neuronenzellen, verarbeitet Eingangssignale und liefert spezifische Informationen.

Im Jahr 1949 entdeckte der Neuropsychologe Hebb, dass die Stärke der zwischen Neuronen im menschlichen Gehirn übertragenen Signale nicht festgelegt, sondern „plastisch“ ist. Diese Theorie, später als „Hebb-Regel“ bekannt, spielte eine wichtige Rolle bei der Entwicklung künstlicher neuronaler Netze.

Basierend auf dem MP-Neuronenmodell und der Hebb-Regel entwickelte Rosenblatt 1958 das Perzeptron-Modell, das als das erste künstliche neuronale Netzwerk mit „Lernfähigkeit“ gilt. Die US-Marine setzt große Hoffnungen in dieses neuronale Netzwerk und hat massiv in den Bau der Hardware-Maschine investiert, in der Hoffnung, dass daraus eine neue Generation neuronaler Computer entstehen kann. Dieses Projekt ist ein wichtiges Projekt für die US Navy.

Aufgrund der damaligen begrenzten Rechenleistung und Technologie stellte man jedoch bald fest, dass die Funktionen des Perzeptrons zu begrenzt waren und nur sehr einfache lineare Klassifizierungsprobleme lösen konnten.

Marvin Minsky und Seymour Papert vom MIT (die auch die ersten Befürworter der Kinderprogrammierung waren) schrieben ein Buch, in dem sie öffentlich erklärten, dass „künstliche neuronale Netzwerke nur sehr begrenzt einsetzbar sind und nicht einmal einfache ‚XOR‘-Probleme lösen können.“

In den späten 1960er Jahren erreichte die Forschung an künstlichen neuronalen Netzwerken einen Tiefpunkt. Fast gleichzeitig begannen die Anleger zu erkennen, dass die erwartete „Explosion der künstlichen Intelligenz“ ausgeblieben war.

So glaubten beispielsweise einige Wissenschaftler im Jahr 1958, dass wir innerhalb von zehn Jahren Computer zu Schachmeistern machen könnten (tatsächlich gelang dies erst 1997, also fast 30 Jahre später als erwartet). Im Jahr 1970 glaubten einige Wissenschaftler, dass wir „innerhalb von drei bis acht Jahren einen Roboter mit der Intelligenz eines gewöhnlichen Menschen haben werden“. Aber das ist offensichtlich unmöglich, und bis heute ist es uns nicht gelungen, eine solche Maschine zu bauen.

Diese „strahlenden Zukunftsaussichten“ bewahrheiteten sich nicht, was die Regierung und Investoren dazu veranlasste, die Forschungs- und Entwicklungsfinanzierung erheblich zu kürzen, und die künstliche Intelligenz erlebte ihren ersten kalten Winter.

AI Winter

Doch glücklicherweise gibt es im Bereich der künstlichen Intelligenz mehrere technische Wege. Im kalten Winter hatten konnektionistische künstliche neuronale Netzwerke Schwierigkeiten bei der Entwicklung, symbolische Expertensysteme hingegen verzeichneten einen stillen Aufschwung.

1972 erschien ein Expertensystem namens MYCIN, das auf der Grundlage der Symptome des Patienten geeignete Behandlungspläne ableiten konnte.

Bildquelle: unsplash.com

Beispielsweise erfasst MYCIN die Symptome und Ursachen einer Vielzahl internistischer Erkrankungen sowie die Frage, welche Medikamente für die jeweilige Krankheit geeignet sind und welche Medikamente miteinander interagieren. Wenn eine Person Durchfall hat, geben Sie einfach die entsprechenden Symptome ein (wie Körpertemperatur, Blutuntersuchungsdaten, Dauer usw.), MYCIN kann daraus die Krankheit ableiten und das entsprechende Medikament verschreiben.

Der von MYCIN angegebene „Akzeptanzwert“ des Behandlungsplans entspricht fast dem der menschlichen Experten (MYCIN liegt bei 65 % und die fünf menschlichen Experten bei 42,5 % bis 62,5 %).

Zusätzlich zu MYCIN hilft ein weiteres Expertensystem namens XCON DEC dabei, jedes Jahr Kosten in zweistelliger Millionenhöhe einzusparen (XCON kann als professionelles Auftragsabwicklungssystem verstanden werden). Da Expertensysteme echte wirtschaftliche Vorteile mit sich brachten, begannen in den 1980er Jahren auch andere Unternehmen, diesem Beispiel zu folgen und eigene Expertensysteme zu entwickeln, um Kosten zu sparen.

Mit der zunehmenden Verbreitung von Expertensystemen wurden jedoch auch deren Nachteile nach und nach deutlich. Beispielsweise wird das Wissen in der Wissensdatenbank des Expertensystems nicht automatisch aktualisiert und die Wartungskosten des Expertensystems sind sehr hoch.

Expertensysteme gerieten bald in eine Sackgasse und zu dieser Zeit läuteten konnektionistische künstliche neuronale Netzwerke ihre eigene „Renaissance“ ein.

In den 1970er und 1980er Jahren entdeckten Wissenschaftler die Bedeutung des „Backpropagation-Algorithmus“. 1982 wandte Paul Webbs den Backpropagation-Algorithmus auf das mehrschichtige Perzeptron an, was für die Entwicklung künstlicher neuronaler Netzwerke von großer Bedeutung war. Heute sind unsere künstlichen neuronalen Netze nahezu untrennbar mit dem Backpropagation-Algorithmus verbunden.

Daraus können wir ersehen, dass die Forschung zu Symbolismus und Konnektionismus sowohl im kalten Winter als auch in der Renaissance der künstlichen Intelligenz fortgesetzt wird, was die Voraussetzungen dafür schafft, dass die Technologie der künstlichen Intelligenz große Sprünge und Durchbrüche erzielt. Ohne diese vielfältigen Forschungsgrundlagen bleibt die KI-Forschung möglicherweise auf einem bestimmten Kurs stecken und kann nur schwer vorankommen.

Natürlich werden neben der künstlichen Intelligenztechnologie selbst auch Durchbrüche in anderen Branchen die Entwicklung des Bereichs der künstlichen Intelligenz vorantreiben. So entwickelte sich beispielsweise nach den 1990er Jahren die Chiptechnologie rasant und die Rechenleistung der Computer nahm rapide zu, was auch für die Entwicklung der künstlichen Intelligenz von entscheidender Bedeutung ist.

Beispielsweise war es vor den 1990er Jahren selbst mit dem Backpropagation-Algorithmus sehr schwierig, tiefe neuronale Netzwerke mit einer großen Anzahl von Schichten (mehr als 5 Schichten) zu trainieren, sodass künstliche neuronale Netzwerke einst durch Support Vector Machines ersetzt wurden. Um das Jahr 2000 herum erhöhte das Aufkommen von GPUs die Trainingsgeschwindigkeit künstlicher neuronaler Netzwerke (hauptsächlich tiefer neuronaler Netzwerke) erheblich. Darüber hinaus brachte die zunehmende Verbreitung des Internets große Datenmengen mit sich, die für das Lernen der KI erforderlich waren, und die Entwicklung der Deep-Learning-Technologie begann.

BERT und GPT

Angesichts der rasanten Entwicklung der künstlichen Intelligenz kann eine diversifizierte Forschung auch heute noch zu unerwarteten Durchbrüchen führen. Beispielsweise profitiert ChatGPT, das wir heute kennen, von mehreren parallel laufenden Forschungsprojekten.

Im Jahr 2017 veröffentlichten Wissenschaftler von Google Brain ein Papier mit dem Titel „Attention Is All You Needed“ und schlugen das Transformer-Modell vor.

Einfach ausgedrückt ist Transformer ein Modell, das es Computern ermöglicht, die menschliche Sprache besser zu „verstehen“. Es führt in die Mechanismen der „Aufmerksamkeit“ und der „Selbstaufmerksamkeit“ ein, die denen beim Lesen eines Buches ähneln: Wir konzentrieren uns auf die schwieriger zu verstehenden Fragmente, Wörter und Sätze und integrieren die Bedeutung des Kontexts, um diese Fragmente und Wörter zu verstehen.

Die Entwicklung einer Vielzahl großer Modelle auf Basis von Transformer hat weitergeführt und 2018 brachte Google das BERT-Modell auf den Markt. Im selben Jahr führte Open AI auch das GPT-Modell ein. Die beiden Modelle weisen viele Gemeinsamkeiten, aber auch einige Unterschiede auf.

Einfach ausgedrückt: BERT ist besser darin, die Bedeutung von Wörtern in Texten zu verstehen, während GPT besser darin ist, Text zu generieren.

BERT ist in der Lage, die Bedeutung eines Wortes sowohl von der Vorder- als auch von der Rückseite zu verstehen, ähnlich wie das Ausfüllen von Lücken in einer Prüfung. Beispiel: „Mein Haustier bellt () und kaut gern auf Knochen herum.“ BERT kann anhand der Wörter vor und nach dem Leerzeichen sehr gut erkennen, dass es sich hier höchstwahrscheinlich um das Wort „Hund“ handelt.

GPT ist unidirektional, analysiert von links nach rechts, wie wir lesen, und sagt das nächste Wort voraus. Beispielsweise kann GPT im Satz „Mein Haustier ist ein bellender Hund und es liebt ()“ den folgenden Inhalt basierend auf den vorherigen Informationen vervollständigen.

Nach dem Aufkommen von BERT hat es sich aufgrund seiner hervorragenden Leistung beim semantischen Verständnis in der Verarbeitung natürlicher Sprache hervorgetan. Von 2018 bis 2020 erhielt das GPT-Modell nicht so viel Aufmerksamkeit wie heute, aber die Forschung dazu war damit nicht beendet.

In den Jahren 2019 und 2020 hat Open AI nacheinander GPT 2.0 und GPT 3.0 auf den Markt gebracht. In GPT 3.0 erreichten die GPT-Parameter 175 Milliarden und die Trainingsbeispiele überstiegen 40 TB. GPT 3.0 zeigte ein besseres Verständnis und bessere Generierungsfähigkeiten als frühere GPT-Modelle.

In GPT3.5 wurde eine von Menschen markierte Trainingsmethode hinzugefügt und die Leistung weiter verbessert. Seit dem Aufkommen von Chat GPT haben immer mehr Menschen von der GPT-Technologie erfahren, die künstliche Intelligenz erneut in den Mittelpunkt der technologischen Entwicklung der Menschheit gerückt hat.

Jede Studie verdient Aufmerksamkeit

Daraus können wir ersehen, dass im gesamten Prozess der Entwicklung künstlicher Intelligenz vielfältige Forschungs- und Entwicklungsarbeiten der Technologie künstlicher Intelligenz mehr Möglichkeiten eröffnet haben. Beispielsweise entwickelten sich von den 1960er bis in die 1990er Jahre Expertensysteme, künstliche neuronale Netzwerke und Support Vector Machines gleichzeitig. Wenn eine Technologie Probleme bekam, kamen andere Technologien auf den Markt.

Dies gilt für den gesamten Bereich der künstlichen Intelligenz und auch, wenn wir uns auf Bereiche wie große Modelle konzentrieren. Im Bereich der natürlichen Sprachverarbeitung haben Wissenschaftler GPT nicht nur wegen der hervorragenden Ergebnisse von BERT vernachlässigt. Dies gibt Chat GPT die Möglichkeit, im Jahr 2023 jedem bekannt zu werden.

Neben GPT und BERT werden im Bereich der großen Modelle viele Modelle erforscht und entwickelt. Bestimmte Technologien und Errungenschaften dieser Modelle könnten in Zukunft zu disruptiven Veränderungen in der natürlichen Sprachverarbeitung und sogar in der KI-Branche führen.

Um also auf die ursprüngliche Frage zurückzukommen: Wenn alle Unternehmen und Institutionen ihre Anstrengungen und Ressourcen auf das Trainieren eines Modells konzentrieren, besteht tatsächlich die Chance, ein sehr großes Modell zu erstellen. Dabei kann jedoch ein Teil der wertvollen „technologischen Vielfalt“ verloren gehen. Auch die kommerziellen Überlegungen verschiedener Unternehmen können die diversifizierte Entwicklung der KI objektiv fördern.

Verweise

[1] Enzyklopädie von China

https://www.zgbk.com/ecph/words?SiteID=1&ID=216644&SubID=81535

[2] Stanford Encyclopedia of Philosophy

https://plato.stanford.edu/archives/fall2018/entries/connectionism/#DesNeuNet

[3]MCCULLOCH WS, PITTS W. Eine logische Berechnung der der Nervenaktivität immanenten Ideen[J].Bulletin of Mathematical Biophysics, 1943, 5: 115-133.

[4]HEBB DO Die Organisation des Verhaltens: Eine neuropsychologische Theorie[M]. Lawrence Erlbaum Associates, New Jersey, 1949.

[5]ROSENBLATT F. Das Perzeptron: Wahrscheinlichkeitsmodell für die Speicherung und Organisation von Informationen im Gehirn[J].Psychological Review, 1958, 65(6): 386-408.

[6]Simon & Newell 1958, S. 11. 7−8 zitiert in Crevier 1993, S. 108.

[7]Yu VL, Fagan LM, Wraith SM, Clancey WJ, Scott AC, Hannigan J, Blum RL, Buchanan BG, Cohen SN. Antimikrobielle Auswahl durch einen Computer. Eine verblindete Bewertung durch Experten für Infektionskrankheiten. JAMA. 1979 Sep 21;242(12):1279-82. PMID: 480542.

[8]Vaswani A, Shazeer N, Parmar N, et al. Aufmerksamkeit ist alles, was Sie brauchen[J]. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2017, 30.

Planung und Produktion

Autor: Qin Zengchang, Professor der Universität für Luft- und Raumfahrt in Peking

Tian Dawei, populärwissenschaftlicher Autor

Audit丨Yu Yang, Leiter des Tencent Security Xuanwu Lab

Planung von Xu Lai Cui Yinghao

Herausgeber: Yinuo

<<:  Ernte in China | Satellitenbild der Herbsternte: Überall gute Ernte

>>:  Ein chinesischer Schriftsteller hat erneut den Hugo Award gewonnen. Wer ist der Maler von „Der Maler von Raum und Zeit“?

Artikel empfehlen

Japanische Smart-TVs stehen in der Kritik: Großes Display zum hohen Preis

Dank ihrer hervorragenden Benutzeroberfläche und d...

Welche Übungen gibt es für Jungen, um ihren Po schlanker zu machen?

Nicht nur Mädchen haben hohe Ansprüche an ihre Kö...

Wie lange können Sie unter Wasser maximal die Luft anhalten?

Jeden Sommer gehen viele Menschen gerne am Strand...

Lernen Sie drei Möglichkeiten, Darmabfälle zu reinigen und 99 Jahre alt zu werden

„Wenn du lange leben willst, halte deinen Darm sa...

Welche Übungen helfen am schnellsten beim Abnehmen?

Sport zur Gewichtsabnahme gilt seit jeher als ein...

Welche Möglichkeiten gibt es, die Bauchmuskeln zu trainieren?

Viele Freunde werden beim Fitnesstraining festste...

Wie baut man Brustmuskeln auf?

Jeder Mann möchte perfekte Brustmuskeln haben, ab...

Brechen Sie den Weltrekord! Der Insight-HXMT-Satellit „sah“ …

Kürzlich entdeckte das Insight-HXMT-Satellitentea...

Die Gesundheit der Männer wird immer besser, das hängt definitiv damit zusammen

Jeder Mann möchte einen starken Körper haben. Wie...

Die effektivste Bauchmuskelübung

Das Training der Bauchmuskeln ist einfacher als d...