Vom Pinsel zum Pixel: Eine kurze Einführung in die Vergangenheit und Gegenwart der KI-Malerei

Vom Pinsel zum Pixel: Eine kurze Einführung in die Vergangenheit und Gegenwart der KI-Malerei

Einige Dinge, die Sie über KI-Malerei wissen müssen.

Letzte Woche wurde der mit Spannung erwartete Midjourney V5 AI Art Generator offiziell veröffentlicht und veränderte erneut die Welt der KI-gesteuerten Kunstkreation. Es bietet eine deutlich verbesserte Bildqualität, vielfältigere Ausgabe, eine größere Auswahl an Stilen sowie Unterstützung für nahtlose Texturen, breitere Seitenverhältnisse, verbesserte Bildhinweise, einen erweiterten Dynamikbereich und mehr.

Die folgenden Bilder werden von Midjourney V4 und Midjourney V5 mit der Aufforderung „Elon Musk stellt Tesla vor, ein Werbespot aus den 90ern“ generiert.

Was die Erwartungen der Leute dieses Mal erfüllt, ist, dass Midjourney V5 realistischere Bilderzeugungseffekte, ausdrucksstärkere Winkel oder Szenenübersichten und endlich richtig gezeichnete „Hände“ bietet. Ein Witz, der einst in der KI-Maler-Community weit verbreitet war, lautete: „Fragen Sie eine Frau niemals nach ihrem Alter oder warum ein KI-Modell seine Hände versteckt.“

Das liegt daran, dass KI-Kunstgeneratoren schlechte Maler sind. Sie können zwar visuelle Muster erfassen, nicht jedoch die zugrunde liegende biologische Logik. Mit anderen Worten: Ein KI-Kunstgenerator kann zwar herausfinden, dass eine Hand Finger hat, es ist jedoch schwer zu erkennen, dass eine Person normalerweise nur fünf Finger an einer Hand haben sollte oder dass diese Finger eine festgelegte Länge und ein festes Verhältnis zueinander haben sollten.

Im vergangenen Jahr ist der „Defekt“, dass ein KI-Kunstgenerator Hände nicht korrekt darstellen kann, zu einem kulturellen Klischee geworden. Das Handproblem hängt teilweise mit der Fähigkeit von KI-Kunstgeneratoren zusammen, Informationen aus den riesigen Bilddatensätzen abzuleiten, mit denen sie trainiert werden.

Es ist erwähnenswert, dass Midjourney V5 sehr gut realistische menschliche Hände erzeugen kann. Meistens sind die Hände richtig angeordnet, mit 5 Fingern an einer Hand, nicht 7-10.

Die Veröffentlichung von Midjourney V5 hat bei Benutzern auf der ganzen Welt ein wachsendes Interesse geweckt. Der enorme Datenverkehr führte dazu, dass der Midjourney-Server kurzzeitig abstürzte, sodass viele Benutzer nicht darauf zugreifen konnten. Darüber hinaus waren DALL·E 2 von OpenAI, Stable Diffusion von Stability AI und andere „Kulturgraph“-Modelle ebenfalls heiß diskutierte Themen in der Branche .

Wenn Menschen beliebigen Text in diese „Text-Bild“-Modelle eingeben, können sie relativ genaue Bilder generieren, die der Beschreibung entsprechen. Die generierten Bilder können in jedem beliebigen Stil gestaltet werden, beispielsweise als Ölgemälde, CGI-Renderings, Fotos usw. In vielen Fällen ist die menschliche Vorstellungskraft die einzige Einschränkung .

Vorheriges Leben: Ein Traum, der von DeepDream ausging

Im Jahr 2018 wurde das erste KI-generierte Porträt, Edmond de Belamy, von einem Generative Adversarial Network (GAN) als Teil der Serie „La Famille de Belamy“ von Obvious Art erstellt und schließlich bei einer Kunstauktion von Christie’s für 432.500 US-Dollar verkauft.

Im Jahr 2022 gewann Jason Allens KI-generiertes Werk „Théâtre D'opéra Spatial“ den ersten Platz beim jährlichen Kunstwettbewerb der Colorado State Fair.

In den letzten Jahren sind, entfacht durch die Erwartungen der Menschen, nacheinander verschiedene „Wenshengtu“-Modelle auf den Markt gekommen. Als neuronale Netzwerke bestimmte Ergebnisse bei der Bildverarbeitung erzielten, begannen Forscher, Visualisierungstechniken zu entwickeln, um besser zu verstehen, wie diese neuronalen Netzwerke die Welt sehen und klassifizieren, und erstellten so ein „Venedig-Graph“-Modell nach dem anderen.

DeepDream generiert Bilder basierend auf den vom neuronalen Netzwerk erlernten Darstellungen. Nach der Aufnahme des Eingabebildes führt es das trainierte Convolutional Neural Network (CNN) rückwärts aus und versucht, die Aktivierung der gesamten Schicht durch Anwenden eines Gradientenanstiegs zu maximieren. Die folgende Abbildung (links) zeigt das ursprüngliche Eingabebild und seine DeepDream-Ausgabe.

Überraschenderweise enthalten die Ausgabebilder viele Tiergesichter und -augen, da DeepDream mithilfe der ImageNet-Datenbank (mit Beispielen verschiedener Hunderassen und Vögel) trainiert wurde . Für manche Menschen ähneln die von DeepDream erzeugten Bilder traumhaften psychedelischen Erlebnissen . Dennoch hat DeepDream den Einsatz von KI als Werkzeug zur Erstellung künstlerischer Bilder beschleunigt.

Neural Style Transfer ist eine auf Deep Learning basierende Technik, die den Inhalt eines Bildes mit dem Stil eines anderen kombinieren kann, wie oben (rechts) gezeigt, wo Van Goghs „Sternennacht“ auf ein Zielbild angewendet wird. Um dies zu erreichen, definiert Neural Style Transfer die Verlustfunktion in CNN neu – indem das Zielbild durch Aktivierungen von CNN auf hoher Ebene beibehalten und der Stil anderer Bilder durch mehrere Aktivierungsebenen erfasst wird. Dadurch behält das Ausgabebild den Stil und Inhalt des Eingabebildes.

Im Jahr 2017 haben Wei Ren Tan et al. schlug das Modell „ ArtGAN “ vor, das, obwohl seine Ausgabebilder überhaupt nicht wie die Werke von Malern aussehen, dennoch die grundlegenden Merkmale von Kunstwerken erfasst. Infolgedessen hat ArtGAN mehr Forscher dazu inspiriert, GAN zur Erstellung künstlerischer Bilder zu verwenden .

Kurz darauf schrieben Ahmed Elgammal et al. schlug das Creative Adversarial Neural Network ( CAN ) vor, um GANs zu trainieren, Bilder zu generieren, die vom Diskriminator als künstlerisch angesehen werden, aber keinem bestehenden künstlerischen Stil entsprechen. Die von CAN erstellten Bilder ähneln meist einem abstrakten Gemälde und verleihen ihnen eine einzigartige Ausstrahlung .

Im Jahr 2017 haben Phillip Isola et al. hat das bedingte GAN pix2pix erstellt, das ein Eingabebild nimmt und eine transformierte Version generiert. Nehmen wir beispielsweise im wirklichen Leben an, wir hätten ein RGB-Bild. Dann könnten wir es problemlos in eine BW-Version (Schwarzweiß-Binärbild) konvertieren. Wenn Sie jedoch ein Schwarzweißbild in ein Farbbild umwandeln möchten, ist die manuelle Kolorierung sehr zeitaufwändig. pix2pix automatisiert diesen Prozess und kann auf jeden Datensatz von Bildpaaren angewendet werden, ohne dass der Trainingsprozess oder die Verlustfunktion angepasst werden müssen.

pix2pix stellt einen großen Durchbruch in der generativen KI dar, erfordert jedoch zum Training entsprechende Bildpaare, was nicht für alle Anwendungen machbar ist. Ohne ein entsprechendes Foto für jedes von Monet geschaffene Gemälde wäre pix2pix beispielsweise nicht in der Lage, die Eingabe in ein Monet-Gemälde umzuwandeln.

Zu diesem Zweck schlugen Jun-Yan Zhu, Taesung Park und andere „CycleGAN“ vor, das pix2pix erweitert, indem es zwei bedingte GANs und einen „Zyklus“ zwischen ihnen kombiniert. Dieses Modell kann Bilder in andere Modalitäten konvertieren, ohne gepaarte Bilder im Trainingssatz zu sehen.

Dieses Leben: Der Kampf zwischen Transformator und Diffusion

Ein wichtiger Wendepunkt ereignete sich im Jahr 2021, als eine Reihe von „Venshengtu“-Modellen auftauchten . OpenAI veröffentlicht DALL·E – benannt nach Pixars Animationsfilm Wall-E und dem surrealistischen Maler Salvador Dali. DALL·E kombiniert einen diskreten Variational Autoencoder (dVAE), der lernt, Bilder auf Token mit niedriger Dimension abzubilden, und ein autoregressives Transformer-Modell zum Modellieren von Text- und Bild-Token. Bei einer Texteingabe kann DALL·E Bild-Token vorhersagen und sie während der Inferenz in Bilder dekodieren.

DALL·E kann auch Konzepte kombinieren, die es einzeln gelernt, aber noch nie in einem einzigen generierten Bild gesehen hat . Beispielsweise gibt es im Trainingsset Abbildungen von Robotern und Drachen, aber keine Roboter in Drachenform. Auf die Aufforderung „Roboterdrache“ konnte das Modell dennoch das entsprechende Bild erzeugen.

Obwohl DALL·E gute Bilder im Comic- und Künstlerstil erzeugen kann, ist es nicht in der Lage, realistische Fotos zu erstellen. Aus diesem Grund hat OpenAI viele Ressourcen investiert, um ein verbessertes Textgraphenmodell zu erstellen – DALL·E 2 .

DALL·E 2 verwendet den Textencoder CLIP (Dataset of Image-Text Pairs) . DALL·E 2 nutzt die Beziehung zwischen Textbeschreibungen und Bildern, um eine Einbettung für das Diffusionsmodell bereitzustellen, die die Texteingabe widerspiegelt und besser für die Bildgenerierung geeignet ist. Im Vergleich zu DALL·E verbessert DALL·E 2 die Bildqualität und ermöglicht dem Benutzer außerdem , den Hintergrund vorhandener oder computergenerierter Bilder zu erweitern . Platzieren Sie beispielsweise Figuren aus berühmten Werken in einem benutzerdefinierten Hintergrund.

Kurz darauf veröffentlichte Google ein textbasiertes Graphenmodell namens Imagen. Dieses Modell verwendet den vortrainierten Encoder des NLP-Modells T5-XXL, dessen Einbettungen in das Diffusionsmodell eingespeist werden. Dadurch konnte das Modell Bilder mit Text genauer generieren (ein Problem, mit dem das Modell von OpenAI Schwierigkeiten hatte).

Die größte Revolution im Bereich der „Vintage-Diagramme“ dürfte jedoch das vollständig quelloffene Stable Diffusion von Stability AI sein. Die Rechenleistung der stabilen Diffusion ist viel höher als bei anderen Wensheng-Graphmodellen. Frühere Wensheng-Graphmodelle erforderten Hunderte von Tagen an GPU-Berechnungen, während Stable Diffusion viel weniger Berechnungen erfordert und daher für Personen mit begrenzten Ressourcen akzeptabler ist. Darüber hinaus können Benutzer vorhandene Bilder ändern, indem sie zwischen Bildern konvertieren (z. B. eine Skizze in digitale Kunst umwandeln) oder malen (etwas aus einem vorhandenen Bild entfernen oder hinzufügen).

Deep Learning und seine Bildverarbeitungsanwendungen befinden sich heute in einem völlig anderen Stadium als noch vor einigen Jahren. Zu Beginn des letzten Jahrhunderts war es bahnbrechend, dass tiefe neuronale Netzwerke natürliche Bilder klassifizieren konnten. Heute können diese wegweisenden Modelle, die entweder Transformer verwenden oder auf Diffusionsmodellen basieren, äußerst realistische und komplexe Bilder auf der Grundlage einfacher Textaufforderungen generieren, wodurch das Feld der „Textbilder“ erstrahlt und zu einem neuen Pinselstrich in der Kunstwelt wird .

„Bedrohung“ oder „Symbiose“, wohin werden die menschlichen Maler gehen?

Der KI-Künstler ist seit seiner Entstehung von Kontroversen geplagt. Urheberrechtsstreitigkeiten, die Ausgabe fehlerhafter Informationen, algorithmische Verzerrungen usw. haben die Anwendung „künstlerisches Bild“ immer wieder in den Mittelpunkt von Kontroversen gerückt. So reichten beispielsweise im Januar dieses Jahres drei Künstler Klage gegen Stability AI und Midjourney, die Entwickler von Stable Diffusion und Midjourney, sowie DeviantArt, die Künstlerportfolio-Plattform von DreamUp, ein. Sie behaupten, dass die Organisationen die Rechte von „Millionen von Künstlern“ verletzt hätten , indem sie KI-Modelle mit 5 Milliarden Bildern trainiert hätten, die „ohne die Zustimmung der ursprünglichen Künstler“ aus dem Internet zusammengekratzt worden seien.

Künstler haben vor allem Angst, dass sie durch Roboter ersetzt werden und ihre Lebensgrundlage verlieren, weil die KI Modelle ihres einzigartigen Stils imitiert. Im vergangenen Dezember luden Hunderte von Künstlern Bilder auf ArtStation hoch, eine der größten Kunst-Communitys im Internet, und sagten „Nein zu KI -generierten Bildern “. Gleichzeitig sind einige Künstler pessimistisch und glauben, dass „wir dem Tod der Kunst zusehen, der sich vor unseren Augen vollzieht“. Das Urheberrecht der in Trainingsdaten verwendeten Bilder ist weiterhin umstritten.

Natürlich gibt es auch einige Künstler, die KI aktiv nutzen und das Wensheng-Bildmodell als Malassistenten verwenden, um sich repetitive und langweilige Arbeit zu sparen. Gleichzeitig nutzen einige Künstler KI als „Motor“ der Vorstellungskraft und in der Interaktion mit Benutzern in Software und Communities ähnlich wie Midjourney zerreißen sie sich gegenseitig und produzieren eine neue und interessante menschliche Ästhetik, die dann in die reale Welt übergeht. Midjourney beschreibt es so: „KI ist keine Nachbildung der realen Welt, sondern eine Erweiterung der menschlichen Vorstellungskraft.“

Derzeit holen die Regulierungsbehörden gegenüber den KI-Künstlern auf . Das US-amerikanische Copyright Office erklärte kürzlich in einem Brief, dass Bilder in einer Graphic Novel, die mit dem KI-System Midjourney erstellt wurde, keinen Urheberrechtsschutz erhalten sollten. Die Entscheidung ist eine der ersten eines US-Gerichts oder einer US-Behörde zum Umfang des Urheberrechtsschutzes für durch KI geschaffene Werke. Darüber hinaus haben einige Wissenschaftler ein System namens Glaze vorgeschlagen, das es Künstlern ermöglicht, sorgfältig berechnete Störungen auf ihre Kunst anzuwenden, um Künstler vor Stilimitationen durch das Vincent-Graph-Differenzierungsmodell zu schützen.

Eine Reihe von „Vintage“-Anwendungen ermöglichen es Künstlern und der Öffentlichkeit ohne Programmierkenntnisse, diese leistungsstarken Modelle zu verwenden, um visuell beeindruckende Bilder zu erzeugen. „Indem wir der KI die Macht geben, etwas zu erschaffen“, können diese Werkzeuge Künstlern dabei helfen, ihre Kreativität auszudrücken, sei es in der Malerei oder in anderen Bereichen, und möglicherweise die Zukunft der Kunst prägen.

Die Rolle der KI in der Kunst wird von ihrer Verwendung und den Zielen und Werten derjenigen abhängen, die sie verwenden. Dabei ist es wichtig, sich daran zu erinnern, dass die Verwendung dieser Modelle von ethischen und verantwortungsvollen Erwägungen geleitet sein sollte.

Referenzlinks:

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

<<:  Wo ist der schönste Frühling? 12 Karten verraten es Ihnen!

>>:  Was ist mit dem Sandsturm passiert, der meinen Freundeskreis zerstört hat?

Artikel empfehlen

Was sind kosmische Strahlungsteilchen, die theoretische Grenzen überschreiten?

Ultrahochenergetische kosmische Strahlung ist ein...

Können Dehnübungen wirklich beim Abnehmen helfen?

Viele Menschen tun alles, um abzunehmen, insbeson...

Was sind Dehnübungen für die Taille?

Einschlägige Umfragen und Studien haben ergeben, ...

Nvidia: KI-Computing nimmt Fahrt auf

NVIDIA hielt seine Investorenkonferenz zum Geschä...

Wann ist die beste Zeit zum Trainieren?

Sport ist eine sehr gute Form der Unterhaltung. M...

Warum laufen wir gegen den Uhrzeigersinn?

Bei genauer Beobachtung stellen viele Menschen fe...

Lenovo und Hisense drängen auf LeTV, und der Smart-TV-Krieg heizt sich auf

Der erbitterte Wettbewerb auf dem Smart-TV-Markt ...