Letzten Monat hat Stability AI Stable Diffusion 3 herausgebracht, die dritte Generation seines Wenshengtu-Megamodells. Das Modell weist eine leistungsstarke Leistung auf, die vorhandene Systeme zur Text-zu-Bild-Generierung übertrifft und einen großen Durchbruch in der Technologie zur Text-zu-Bild-Generierung darstellt. Vor Kurzem hat Stability AI endlich den technischen Bericht zu Stable Diffusion 3 veröffentlicht, der uns einen Einblick in die technischen Details von Stable Diffusion 3 gibt. Die wichtigsten Punkte des Berichts sind: Stable Diffusion 3 ist bekannt für seine herausragenden Leistungen in Bereichen wie Typografie und Cue-Following und übertrifft hochmoderne Text-zu-Bild-Generierungssysteme wie DALL·E 3, Midjourney v6 und Ideogram v1 . In: Im Vergleich zu anderen offenen Modellen und Closed-Source-Systemen zeichnet sich Stable Diffusion 3 in Bereichen wie visueller Ästhetik, Cue-Following und Typografie aus. Stable Diffusion 3 verwendet eine neu gewichtete rechteckige Strömungsform, um die Modellleistung zu verbessern. Im Vergleich zu anderen rechteckigen Strömungsformen weist es eine stabilere Leistung auf. Die neue Architektur des Multimodal Diffusion Transformer (MMDiT) verwendet unabhängige Gewichtssätze zur Verarbeitung von Bild- und Sprachdarstellungen und verbessert so das Textverständnis und die Rechtschreibfähigkeiten im Vergleich zu früheren Versionen. Die MMDiT-Architektur kombiniert DiT- und Rectangle-Flow-Formalismen (RF). Es verwendet zwei unabhängige Transformatoren zur Verarbeitung von Text- und Bildeinbettungen und kombiniert die Sequenzen der beiden Modalitäten in einer Aufmerksamkeitsoperation. Die MMDiT-Architektur eignet sich nicht nur für die Text-zu-Bild-Generierung, sondern kann auch auf multimodale Daten wie Videos erweitert werden. Durch das Entfernen des speicherintensiven T5-Textencoders wird der Speicherbedarf von SD3 bei nur geringem Leistungsverlust erheblich reduziert. Abbildung | Hochauflösende Beispiele des rektifizierten 8B-Modells demonstrieren seine Fähigkeiten in den Bereichen Typografie, präzises Verfolgen von Hinweisen und räumliches Denken, Liebe zum Detail und hohe Bildqualität in einer Vielzahl von Stilen. Link zum vollständigen technischen Bericht: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf Als nächstes werfen wir einen Blick auf die technischen Details hinter Stable Diffusion 3 basierend auf dem Bericht. MMDiT-Architektur: die Schlüsseltechnologie hinter Stable Diffusion 3 Die MMDiT-Architektur ist eine der Schlüsseltechnologien hinter Stable Diffusion 3. Im Vergleich zu herkömmlichen Verarbeitungsmethoden mit einer einzigen Modalität kann die MMDiT-Architektur die Beziehung zwischen Text und Bildern besser verarbeiten und so eine genauere und qualitativ hochwertigere Bilderzeugung erreichen. Abbildung|Modellarchitektur. Diese Architektur verwendet unabhängige Gewichtssätze zur Verarbeitung von Bild- und Sprachdarstellungen. Dies bedeutet, dass MMDiT für zwei verschiedene Eingabemodalitäten, Text und Bilder, unterschiedliche Gewichtsparameter zur Kodierung und Verarbeitung verwendet, um die Eigenschaften und Informationen jeder Modalität besser zu erfassen. In der MMDiT-Architektur werden die Darstellungen von Text und Bildern separat durch vortrainierte Modelle kodiert. Insbesondere verwendet MMDiT drei verschiedene Text-Embedder (zwei CLIP-Modelle und ein T5-Modell) und ein verbessertes Autoencoder-Modell zum Kodieren von Bild-Token. Diese Encoder können Text- und Bildeingaben in ein Format konvertieren, das das Modell verstehen und verarbeiten kann, und bilden so die Grundlage für den nachfolgenden Bildgenerierungsprozess. Abbildung | T5 ist wichtig für komplexe Hinweise, beispielsweise mit einem hohen Detaillierungsgrad oder langem Text (Zeilen 2 und 3). Bei den meisten Hinweisen wird jedoch durch das Entfernen von T5 zum Zeitpunkt der Inferenz immer noch eine konkurrenzfähige Leistung erzielt. Hinsichtlich der Modellstruktur basiert die MMDiT-Architektur auf dem Diffusion Transformer (DiT). Da die Darstellungen von Text und Bildern konzeptionell unterschiedlich sind, verwendet MMDiT zwei unabhängige Sätze von Gewichtsparametern, um diese beiden Modalitäten zu verarbeiten. Auf diese Weise kann das Modell im Darstellungsraum von Text und Bild getrennt arbeiten und gleichzeitig die Korrelation zwischen ihnen berücksichtigen, wodurch eine bessere Informationsübertragung und -integration erreicht wird. Die Leistung übertrifft andere Wensheng-Graphmodelle Beim Leistungsvergleich mit anderen Text-zu-Bild-Generierungsmodellen zeigt Stable Diffusion 3 einen klaren Vorteil. In Bezug auf visuelle Ästhetik, Textkonformität und Typografie übertrifft Stable Diffusion 3 modernste Systeme wie DALL·E 3, Midjourney v6 und Ideogram v1. Dieser Vorteil ist hauptsächlich auf die unabhängige Verarbeitung von Bild- und Textdarstellungen durch die MMDiT-Architektur zurückzuführen, die es dem Modell ermöglicht, Texthinweise besser zu verstehen und auszudrücken und entsprechend qualitativ hochwertige Bilder zu generieren. Im Vergleich mit Beispielausgaben menschlicher Gutachter schneidet Stable Diffusion 3 im Hinblick auf die visuelle Schönheit besser ab als andere Modelle . Die Gutachter wurden gebeten, das beste Ergebnis anhand der Ästhetik des Bildes auszuwählen. Die Ergebnisse zeigen, dass Stable Diffusion 3 andere Modelle hinsichtlich der Ästhetik der generierten Bilder übertrifft. Bild: Dieses skurrile und kreative Bild zeigt eine Kreatur, die eine Mischung aus Waffel und Nilpferd ist. Dieses fantasievolle Wesen hat den charakteristischen, massigen Körper eines Nilpferds, sein Aussehen ähnelt jedoch einer knusprigen, goldbraunen Waffel. Die Haut der Kreatur war waffelartig und hatte einen sirupartigen Glanz. Dies geschieht in einer surrealen Umgebung, die auf interessante Weise den natürlichen Wasserlebensraum des Nilpferds mit einem Frühstückstisch kombiniert, einschließlich übergroßem Besteck oder Tellern als Hintergrund. Die Bilder wecken ein spielerisches Gefühl von Absurdität und kulinarischer Fantasie. Der Prüfer bewertete die Textverfolgungsfähigkeit des Modells anhand der Konsistenz der Modellausgabe mit den gegebenen Eingabeaufforderungen. Den Testergebnissen zufolge schneidet Stable Diffusion 3 bei der Textkonformität gut ab und kann anhand von Eingabeaufforderungen entsprechende Bildinhalte genauer generieren. Unter Typografie versteht man das Layout, die Formatierung und das Erscheinungsbild von Text in vom Modell generierten Bildern. Laut der Auswahl der Tester schneidet Stable Diffusion 3 auch in der Typografie gut ab, stellt die Textinformationen in der gegebenen Eingabeaufforderung besser dar und macht die generierten Bilder lesbarer und ansprechender. Darüber hinaus weist Stable Diffusion 3 auch eine hervorragende Flexibilität hinsichtlich der Leistung auf verschiedenen Hardwaregeräten auf . Beispielsweise kann auf Geräten wie RTX 4090 das größte Modell (8B-Parameter) während der Bildgenerierung innerhalb von 34 Sekunden ein Bild mit einer Auflösung von 1024 x 1024 generieren und in der ersten Vorschauphase auch eine Vielzahl von Parametermodelloptionen bereitstellen, die von 800 m bis zu 8B-Parametermodellskalen reichen, um Hardwarebeschränkungen weiter zu beseitigen. Auf Hardware auf Verbraucherebene verfügt Stable Diffusion 3 immer noch über eine schnelle Inferenzgeschwindigkeit und eine hohe Ressourcenauslastung. Darüber hinaus bietet die Technologie eine Vielzahl von Modellskalierungsoptionen, um den Anforderungen verschiedener Benutzer und Anwendungsszenarien gerecht zu werden und so ihre Skalierbarkeit und Anwendbarkeit zu verbessern . Stable Diffusion 3 konzentriert sich nicht nur auf die Qualität der Bilderzeugung, sondern auch auf die Ausrichtung und Konsistenz mit dem Text. Durch die verbesserte Funktion „Prompt Following“ kann das Modell den Eingabetext besser verstehen und darauf basierend Bilder erstellen, anstatt einfach nur Bilder zu generieren. Diese Flexibilität ermöglicht es Stable Diffusion 3, auf der Grundlage unterschiedlicher Eingabetexte unterschiedliche Bilder zu generieren, um verschiedenen Themen und Anforderungen gerecht zu werden. Stable Diffusion 3 verwendet eine verbesserte Rectified Flow (RF)-Methode, die Daten und Rauschen durch lineare Trajektorien verbindet, wodurch der Inferenzpfad geradliniger wird und somit eine Probenahme in einer kleinen Anzahl von Schritten möglich ist. Gleichzeitig führt Stable Diffusion 3 auch einen neuen Trajektorien-Sampling-Zeitplan ein, der dem mittleren Teil der Trajektorie mehr Gewicht zuweist und so den Schwierigkeitsgrad der Vorhersageaufgabe verbessert. Dieser innovative Ansatz verbessert die Leistung des Modells und erzielt bessere Ergebnisse bei Aufgaben zur Text-zu-Bild-Generierung. Im Bereich der Text-zu-Bild-Generierung stellt die Einführung von Stable Diffusion 3 einen bedeutenden technologischen Fortschritt dar. Durch die Innovation der MMDiT-Architektur, die Optimierung des Rectified Flow und die flexible Anpassung von Hardwaregeräten und Modellmaßstab zeichnet sich Stable Diffusion 3 durch visuelle Ästhetik, Textkonformität und Typografie aus und übertrifft das aktuelle System zur Text-zu-Bild-Generierung. Die Einführung von Stable Diffusion 3 verbessert nicht nur die Qualität und Genauigkeit der generierten Bilder, sondern bietet auch neue Möglichkeiten für zukünftige Kreativbranchen, die personalisierte Inhaltserstellung, unterstützende Erstellungstools sowie Augmented-Reality- und Virtual-Reality-Anwendungen. Da sich diese Technologie in Zukunft weiterentwickelt und immer beliebter wird, können wir mit weiteren innovativen Anwendungsszenarien und Lösungen rechnen. Referenzlinks: https://stability.ai/news/stable-diffusion-3-research-paper |
>>: Warum wird manchen Menschen bei Ausflügen schnell schlecht?
An einem Frühlingstag, wenn das Wetter noch kalt ...
Tesla wird dieses Jahr ein neues Modell auf den M...
1. Gerüchtetitel: In vielen Ländern wurden spezie...
Für viele Menschen ist die Kiwi die perfekte Fruc...
Heutzutage tragen Schüler gerne Segeltuchschuhe, ...
Viele Leser wissen, dass viele Liebhaber von Hibi...
In der heutigen Zeit, in der Bildung eine überaus...
Ich habe in letzter Zeit viel Fett am Bauch anges...
Heutzutage machen viele Mädchen, egal ob sie dick...
Von dem Zeitpunkt an, als ich begann, auf die Ang...
Ich glaube, jeder kennt Yoga. Wir sehen oft, wie ...
Als einer der Drehorte für „Black Myth: Wukong“ e...
Fitness-Yogabälle sind derzeit ein sehr beliebter...
Am 11. November 2016 gaben NTT DoCoMo und DeNA be...
Autor: Li Lu und Wu Cunshuang, Chefapotheker des ...