In der letzten Ausgabe haben wir das GAN-Modell vorgestellt und gezeigt, wie es realistische Bilder erzeugen kann. Das GAN-Modell weist jedoch auch schwerwiegende Probleme auf. Aufgrund seines von Natur aus komplexen gegnerischen Verhaltens ist das Training von GANs schwierig. Manchmal bleibt das Modell während des Lernens hängen oder stürzt ab, und die Leistung kehrt zum Ausgangspunkt zurück. Darüber hinaus weist GAN eine geringe Vielseitigkeit auf. Wenn Sie einen bestimmten Bildtyp generieren möchten, müssen Sie im Voraus eine große Anzahl realer ähnlicher Bilder als Trainingsdaten finden, was auch die groß angelegte Anwendung von GAN in verschiedenen Szenarien behindert. Bildquelle: pixabay 1. Zivilistenfreundliche, vortrainierte generative Modelle Das neue Modell löst dieses Problem weitgehend. Im Januar 2021 veröffentlichte das amerikanische Forschungsinstitut OPEN AI DALL·E, und im April 2022 kündigte OPEN AI anschließend DALL·E 2 an. Im Vergleich zu GAN ist DALL·E ein vortrainiertes großes Modell, das auch die menschliche Sprache verstehen kann, sodass der Benutzer nur einen Text eingeben muss, um direkt das entsprechende Bild zu generieren, und es nicht jedes Mal entsprechend dem entsprechenden Datensatz neu trainiert werden muss. Da für das Trainieren von Modellen keine Fachkenntnisse mehr erforderlich sind und durch einfache Texteingabe beeindruckende Bilder generiert werden können, hat DALL·E 2 in ausländischen sozialen Netzwerken für großes Aufsehen gesorgt. Die Leute versuchten, alle möglichen seltsamen Texte in das Modell einzugeben und veröffentlichten dann die generierten Bilder, die zu einem Internet-Meme wurden. DALL·E 2 kann nicht nur verschiedene Objekte wie Tiere, Pflanzen, Gebäude und Menschen präzise erzeugen, sondern auch den Malstil nach Bedarf ändern, von realistischen Fotos bis hin zu digitaler Kunst, von Ölgemälden bis hin zu einfachen Zeichnungen, von Van Gogh bis Andy Hall, von traditionellen chinesischen Gemälden bis hin zu japanischem Ukiyo-e und von Wollstoffen bis hin zu Plastilinstilen. Fügen Sie einfach ein oder zwei Wörter hinzu, die den Stil im Eingabetext beschreiben, und DALL·E 2 kann automatisch Bilder generieren, die diesem Stil entsprechen. Noch überraschender ist, dass DALL·E die Konnotationen der Sprache oft sehr genau versteht und daher auch bei völlig fiktiven Szenen erstaunliche Bilder mit komplexer Logik erzeugen kann. Zum Beispiel: 2. Wie wurde DALL·E 2 trainiert? Zunächst hat OPEN AI Hunderte Millionen Bilder und entsprechende Bildunterschriften erhalten und ein Modell namens CLIP trainiert. Dieses Modell kann Text und Bilder gleichzeitig in einen komplexen hochdimensionalen Raum projizieren. Wenn zwischen dem Bild und dem Text eine entsprechende Beziehung besteht, liegen die Punkte, die die beiden im Raum darstellen, sehr nahe beieinander. Andernfalls entsteht eine große Distanz zwischen ihnen. Intuitiv kann dieses Modell die Semantik der menschlichen Sprache und von Bildern erfassen und basierend auf dem gegebenen Text auch Bilder finden, die der Semantik des Textes entsprechen. Das CLIP-Modell kann semantisch ähnliche Bilder und Texte Punkten zuordnen, die in einem hochdimensionalen Raum nahe beieinander liegen. Die resultierende Bilddarstellung wird dann durch ein Diffusionsmodell namens GLIDE geleitet, um zufälliges Rauschen hinzuzufügen und zu entfernen. Da dem gesamten Prozess Zufallsfaktoren hinzugefügt werden, kann ein Satz Eingabetext mehrere unterschiedliche Bilder erzeugen – jedes Bild entspricht der Semantik des Textes. Neben OpenAI brachte Google später auch sein eigenes Modell Disco Diffusion auf den Markt. Es ist vom technischen Prinzip her DALLE sehr ähnlich, ermöglicht Künstlern jedoch neben der Eingabe von Motivtexten auch die Steuerung einiger Bildparameter. Was ist besser, DALLE·2 oder Disco Diffusion? Es scheint, dass jeder von ihnen seine eigenen Stärken und Schwächen hat und es ist derzeit schwer zu sagen, wer besser ist. Arbeiten, die die beiden vergleichen, sind in ausländischen Technologie- und Designkreisen zur Populärkultur geworden. Insgesamt sind ihre Stile ziemlich unterschiedlich. Die von DALLE generierten Bilder sind logischer und realistischer. Bilder im Fotostil wirken aufgrund der Verzerrung weniger anstößig. Disco-Diffusion-Bilder hingegen sind fantasievoller, haben ihren eigenen Stil und sind „künstlerischer“. Obwohl diese Modelle leistungsstark sind, können sie kein Chinesisch verstehen und haben Schwierigkeiten, Bilder mit chinesischen Merkmalen zu erzeugen, wie etwa traditionelle chinesische Gemälde. Daher bilden viele chinesische Institutionen auch Models mit kreativen Fähigkeiten aus. Baidu hat im August 2022 Wenxin Yige veröffentlicht, das nicht nur chinesische Eingaben akzeptiert, sondern auch chinesische Gemälde oder Bilder mit der künstlerischen Konzeption antiker Poesie generiert. Baidus Wenxinyige hat das Bild „Jiangnan Water Village“ erstellt. 3. Nachteile generierter Bilder Bei aller Wertschätzung der Arbeit von KI können wir natürlich die Probleme nicht ignorieren, die beim Malen mit künstlicher Intelligenz entstehen. Das erste ist die Frage der Qualität der Arbeit. Obwohl KI-Arbeiten voller Wirkung und visueller Spannung sind, sind sie wie fast alle anderen Deep-Learning-Modelle nicht gut genug, wenn es um das Verständnis von Wissen, Schlussfolgerungen und Logik geht. Beispielsweise ergibt „Zeichnen Sie ein Bild der größten Katze der Welt“ oder auch „Ein Hund sitzt links von einer Katze“ kein Bild, das logisch ist oder Sinn ergibt. Bei der Erzeugung realistischer Menschenbilder kann es aufgrund kleiner Abweichungen manchmal zu einem Uncanny-Valley-Effekt kommen, der für die Betroffenen ein Unbehagen hervorruft. Ein weiteres weithin bekanntes Problem besteht darin, dass KI häufig seltsam geformte Hände erzeugt. Dieses Phänomen ist wahrscheinlich darauf zurückzuführen, dass die Hand eine der formenreichsten Strukturen des menschlichen Körpers ist. Eine menschliche Hand hat mehr als 20 Gelenke (im Vergleich zu nur einem im Gesicht). Darüber hinaus sind die Hände in den meisten Bildern, die zum Training verwendet werden, oft nicht der zentrale Teil, sodass die Winkel, Abstände und Gesten unterschiedlich sind und sie auch durch Schatten und andere Objekte blockiert werden. Bildunterschrift: Die Hände haben verschiedene Haltungen Es gibt noch bizarrere „Hände“ mit unterschiedlichen Formen und Fingerzahlen. Diese Bilder wurden mit „Hände“ beschriftet, damit das Modell ihre Formen – und die durchschnittliche Form ihrer Formen – für wahrscheinlich angemessen hielt, was zu einer Vielfalt robuster Hände führte. Auch diese können als „Hände“ bezeichnet werden Neben Qualitätsproblemen können KI-generierte Inhalte auch verschiedene ethische Probleme aufwerfen. So spiegeln sich beispielsweise die in Sprachmodellen häufig vorkommenden Vorurteile und Stereotypen auch in der Bildgenerierung wider. Wenn beispielsweise das Bild des „Geschäftsführers eines großen Unternehmens“ erstellt wird, erscheint wahrscheinlich ein reifer weißer Mann. Eine größere Sorge besteht darin, dass die Technologie die Erstellung falscher Inhalte erleichtern kann. Ein Beispiel ist ein Unternehmen, dessen Teamfotos fast vollständig mithilfe von KI-Technologie erstellt wurden. Wer genau hinschaut, kann dennoch einige Hinweise finden. Beispielsweise trägt die zweite Person in der ersten Reihe nur einen Ohrring und die Ohrkontur der zweiten Person von links in der zweiten Reihe ist nicht normal. Der Artikel wurde vom Science Popularization China-Starry Sky Project (Erstellung und Kultivierung) erstellt. Bei Nachdruck bitten wir um Quellenangabe. Autor: Guan Xinyu, populärwissenschaftlicher Autor Rezensent: Yu Yang, Leiter des Tencent Xuanwu Lab |
Viele Menschen treiben während ihrer Periode gern...
Künstliche Intelligenz (KI) wird derzeit in viele...
Mit der Diversifizierung der Reisemöglichkeiten d...
Viele Leute sagen, dass die Entlassungen auf die ...
Experte dieses Artikels: Lin Wenjie, Ingenieur, l...
In den Sommerferien werden große Mengen Obst auf ...
Der September hätte eigentlich die Hochsaison für...
Das stimmt, die intelligente Transformation hat s...
Krähe, ich glaube, es gibt niemanden, der diesen ...
Es ist stark und schnell, verfügt über die Kraft,...
In modernen Autos werden nach und nach autonome F...
Der letzte Woche veröffentlichte Halbjahresfinanz...
Die heutige Generation führt ein zunehmend hektis...
Seit kurzem läuft der Film „Little Me“ in den Kin...
Der Sommer ist da und Schwimmen ist die häufigste...