Neue Möglichkeit, mit KI-Bildern zu spielen! Tsinghua-Team schlägt Methode zur „hochauflösenden“ Bilderzeugung vor

Neue Möglichkeit, mit KI-Bildern zu spielen! Tsinghua-Team schlägt Methode zur „hochauflösenden“ Bilderzeugung vor

Im heißen Bereich der „KI-Bilderzeugung“ ist ein nahtloses Diffusionsmodell mit beliebiger Auflösung entstanden .

Kürzlich haben Forschungsteams der Tsinghua-Universität und von Zhipu AI gemeinsam ein neues Kaskadenmodell vorgeschlagen: Relay Diffusion (RDM). Es wird berichtet, dass mit diesem Modell der Diffusionsprozess bei jeder neuen Auflösung oder jedem neuen Modell nahtlos durchgeführt werden kann, ohne dass er aus reinem Rauschen neu generiert werden muss .

Das zugehörige Forschungspapier mit dem Titel „Relay Diffusion: Unifying diffusion process across resolutions for image synthesis“ wurde auf der Preprint-Website arXiv veröffentlicht und der zugehörige Code wurde auf GitHub freigegeben.

In den letzten Jahren haben Diffusionsmodelle große Erfolge bei der Bildsynthese erzielt und die Qualität der Bildsynthese deutlich verbessert. Allerdings steht das Diffusionsmodell bei der Synthese hochauflösender Bilder immer noch vor großen Herausforderungen . Erstens ist es schwierig, die Rauschplanung mit niedriger Auflösung direkt auf die hohe Auflösung anzuwenden. Forscher müssen die Rauschplanungstabelle für hochauflösende Szenen sorgfältig anpassen, und es ist immer noch schwierig, gute Ergebnisse zu erzielen. Zweitens erfordert der hochauflösende Trainingsprozess viele Ressourcen und ist mit einem hohen Rechenaufwand verbunden.

Eine derzeit häufig verwendete Lösung besteht darin, im latenten Raum zu trainieren und es dann wieder in den Pixelraum abzubilden, wie es die latente (stabile) Diffusion vorschlägt. Allerdings ist diese Methode zwangsläufig von Artefakten auf niedriger Ebene betroffen. Eine andere Lösung besteht darin, eine Reihe von Superauflösungs-Diffusionsmodellen mit unterschiedlichen Auflösungen zu trainieren, um eine Kaskade zu bilden. Die vorhandene Kaskadenmethode ist effektiv, erfordert jedoch in jeder Phase eine vollständige Abtastung des Rauschens, was ineffizient ist und der Effekt stark von Trainingstechniken wie der bedingten Verbesserung abhängt.

Um die oben genannten Probleme besser zu lösen, schlug das Forschungsteam das Kaskadenmodell Relay Diffusion vor. Es bietet die Vorteile der ursprünglichen Kaskadenmethode und kann mithilfe der Unschärfediffusion und des Blockrauschens nahtlos zwischen beliebigen unterschiedlichen Auflösungen verbinden, genau wie bei einem „Staffellauf“, wodurch die Kosten für Training und Sampling erheblich reduziert werden .

Dem Artikel zufolge wurde durch die diskrete Kosinustransformationsspektrumanalyse festgestellt, dass das Signal-Rausch-Verhältnis (SNR), das der gleichen Rauschintensität bei einer höheren Auflösung im Frequenzraum entspricht, im niederfrequenten Teil höher ist, was bedeutet, dass die niederfrequenten Informationen natürlicher Bilder nicht so gut zerstört werden.

Zu diesem Zweck wurde in der Studie ein Blockrauschen mit Korrelation zwischen den Pixeln vorgeschlagen, dessen entsprechendes SNR bei hoher Auflösung dem SNR des Gaußschen Rauschens bei niedriger Auflösung im Niederfrequenzbereich entspricht .

Am Beispiel von 64 × 64 und 256 × 256 sieht der Gesamtprozess der Relay-Diffusion folgendermaßen aus: Zuerst wird durch den Standarddiffusionsprozess ein Bild mit niedriger Auflösung erzeugt, dann wird es durch Upsampling zu einem unscharfen Bild mit hoher Auflösung mit demselben Pixelwert in jedem 4 × 4-Raster hochgerechnet und dann wird auf jedem 4 × 4-Raster unabhängig ein Unschärfediffusionsprozess (Blurring Diffusion) durchgeführt.

Dadurch wird der Endzustand des Vorwärtsprozesses mit dem hochgesampelten unscharfen Bild ausgerichtet, sodass die zweite Stufe der Relay-Diffusion direkt mit dem unscharfen Bild beginnen kann und nicht mit reinem Gaußschen Rauschen wie bei der vorhandenen Kaskadenmethode.

Experimentelle Ergebnisse zeigen, dass im Vergleich zum herkömmlichen Kaskadendiffusionsmodell bei der Relay-Diffusion der Teil der Generierung niederfrequenter Informationen bei der Generierung hochauflösender Bilder weggelassen wird, was die Rechenkosten erheblich senkt. Es ist außerdem einfacher und erfordert keine Bilder mit niedriger Auflösung als Bedingungen und verschiedene Techniken zur Bedingungsverbesserung und erfordert keine Neugestaltung oder Anpassung des Rauschplans.

Darüber hinaus kann durch Relay Diffusion nicht nur Kosten gespart, sondern auch schneller eine bessere Stromerzeugungsleistung erreicht werden. Es erreicht den FID von SoTA im bedingungslosen Datensatz CelebA-HQ-256 sowie den sFID und den wettbewerbsfähigen FID von SoTA im bedingten Datensatz ImageNet-256 und übertrifft damit Modelle wie ADM, LDM und DiT deutlich. Relay Diffusion zeigt auch starke Leistungsvorteile, wenn keine Klassifikatorführung (CFG) verwendet wird.

Das Forschungsteam sagte, dass das in dieser Studie vorgeschlagene Kaskadenmodell dazu beitragen wird, fortschrittlichere Text-zu-Bild-Modelle zu erstellen .

In Zukunft werden sie die relevanten Technologien der Relay Diffusion weiterhin auf das allgemeine Gebiet der literarischen Graphenmodelle anwenden, um die weitere Forschung auf diesem Gebiet voranzutreiben.

Link zum Artikel:

https://arxiv.org/abs/2309.03350

GitHub-Adresse:

https://github.com/THUDM/RelayDiffusion

<<:  Sie sagen, die Erde sei rund. Wo sind die Beweise?

>>:  Die Alchemie neu erfinden! Kann man reich werden, indem man sich nur auf Mikroorganismen verlässt?

Artikel empfehlen

Recycling und Wertsteigerung: Der Weg der Energiebatterien in den Ruhestand

Dieses Jahr ist das Jahr, in dem das Phänomen der...

Welche Vorteile hat das Springseil?

Viele Menschen denken nur, dass Seilspringen beim...

Welche Gefühle braucht man, um Internetdenken zu spielen?

Die heutige Internetbranche wird immer künstleris...

WeChat Pay: Ein Porträt des bargeldlosen Lebens auf WeChat

Am 10. August veröffentlichte WeChat Pay kürzlich...

Ist es in Ordnung, zuerst zu trainieren und dann zu laufen?

Wir alle wissen, dass Fitness und Laufen beides s...

Gibt es wirklich eine Po-Lifting-Operation?

Frauen mit kurvigen Figuren gelten oft als die at...

El Niño kommt, sind Sie bereit?

Den jüngsten Beobachtungen des National Climate C...