Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Heutzutage verändern KI-Tools zur Videoerstellung Branchen wie Design, Marketing, Unterhaltung und Bildung, indem sie realistische Videoinhalte produzieren. Insbesondere bei Videomodellen wie Sora und Gen-3 müssen Sie nur wenige Zeilen Eingabetext eingeben, um realistische, kontinuierliche und qualitativ hochwertige Videoblöcke zu generieren.

Diese Technologie hat Kreativen auf der ganzen Welt zwar zahllose Möglichkeiten eröffnet, für die Öffentlichkeit ist sie jedoch auch mit zahlreichen Schäden und Risiken verbunden , insbesondere im Hinblick auf die Verbreitung falscher Informationen, Propaganda, Betrug und Phishing.
Daher ist die Frage, wie KI-generierte Videos genau identifiziert werden können, zu einem Thema geworden, das jeden interessieren sollte.

Vor Kurzem hat das Team von Professor Junfeng Yang an der Columbia University ein Videoerkennungstool namens DIVID (DIffusion-generated VIdeo Detector) entwickelt. Bei Videos, die von Modellen wie SORA, Gen-2 und Pika generiert wurden, erreichte die Erkennungsgenauigkeit 93,7 % .

Das Forschungspapier, das Open-Source-Code und einen Datensatz enthält, wurde letzten Monat auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle vorgestellt.

Wie ist DIVID entstanden?

Vorhandene Deepfake-Detektoren sind bei der Identifizierung von durch GANs generierten Samples gut, aber nicht robust genug bei der Erkennung von durch Diffusionsmodelle generierten Videos.

In dieser Arbeit verwendete das Forschungsteam ein neues Tool namens DIVID, um KI-generierte Videos zu erkennen. Berichten zufolge basiert DIVID auf der Arbeit, die das Team Anfang des Jahres veröffentlicht hat – Raidar, das von KI generierten Text erkennt, indem es den Text selbst analysiert, ohne auf die internen Operationen des großen Sprachmodells (LLM) zuzugreifen.

Raidar verwendet LLM, um einen gegebenen Text neu zu formulieren oder zu überarbeiten und misst dann die Anzahl der Änderungen, die das System an diesem Text vornimmt. Mehr Bearbeitungen bedeuten, dass der Text mit größerer Wahrscheinlichkeit von einem Menschen geschrieben wurde. weniger Bearbeitungen bedeuten, dass der Text eher maschinell erstellt wurde.

Sie haben DIVID nach dem gleichen Konzept entwickelt. DIVID funktioniert, indem das Video rekonstruiert und das neu rekonstruierte Video mit dem Originalvideo verglichen wird. Es verwendet DIRE-Werte, um durch Diffusion erzeugte Videos zu erkennen, da die Methode auf der Annahme basiert, dass die vom Diffusionsmodell erzeugten rekonstruierten Bilder einander sehr ähnlich sein sollten, da sie aus der Verteilung des Diffusionsprozesses entnommen werden. Wenn es erhebliche Änderungen gibt, wurde das Originalvideo wahrscheinlich von einem Menschen erstellt, andernfalls wahrscheinlich mithilfe von KI.

Abbildung | Der Erkennungsprozess von DIVID. In Schritt 1 verwendet das Forschungsteam zunächst ein Diffusionsmodell, um aus einer Sequenz von Videobildern eine rekonstruierte Version jedes Bildes zu generieren. Anschließend wird der DIRE-Wert durch Rekonstruktion des Frames und des entsprechenden Eingabeframes berechnet. In Schritt 2 wird der CNN+LSTM-Detektor basierend auf der DIRE-Wertesequenz und dem ursprünglichen RGB-Frame trainiert.

Das Framework basiert auf der Idee, dass KI-generierte Tools Inhalte basierend auf der statistischen Verteilung großer Datensätze erstellen, was zu „statistischen Mittelwerten“ von Inhalten wie Pixelintensitätsverteilung, Texturmustern und Rauscheigenschaften in Videobildern sowie kleinen Inkonsistenzen führt, die zwischen Bildern unnatürlich variieren, oder anomalen Mustern, die eher in durch Diffusion generierten Videos auftreten.

Abbildung | Erkennungsleistung im In-Domain-Testsatz. DIVID übertrifft die Basisarchitektur in Bezug auf Genauigkeit (Acc.) und durchschnittliche Präzision (AP). RGB repräsentiert die Pixelbildwerte im Originalvideo.

Im Gegensatz dazu weisen von Menschen erstellte Videos Individualität und Abweichungen von statistischen Normen auf. DIVID erreicht in seinem Benchmark-Datensatz eine Erkennungsgenauigkeit von bis zu 93,7 % bei Videos, die von Stable Vision Diffusion, Sora, Pika und Gen-2 generiert wurden.

Zukunftsaussichten

Derzeit ist DIVID ein Befehlszeilentool, das Videos analysiert und ausgibt, unabhängig davon, ob sie von KI oder Menschen generiert wurden, und ist nur für Entwickler verfügbar. Die Forscher weisen darauf hin , dass ihre Technik das Potenzial hat, als Plug-In in Zoom integriert zu werden, um Deepfake-Anrufe in Echtzeit zu erkennen . Das Team erwägt außerdem, eine Website oder ein Browser-Plugin zu entwickeln, um DIVID normalen Benutzern zur Verfügung zu stellen.

Die Forscher arbeiten derzeit daran, das Framework von DIVID zu verbessern, um verschiedene Arten synthetischer Videos aus Open-Source-Tools zur Videogenerierung verarbeiten zu können. Sie verwenden DIVID auch, um Videos zu sammeln und den DIVID-Datensatz zu erweitern.

„Unser Framework macht erhebliche Fortschritte bei der Erkennung von KI-generierten Inhalten“, sagte Dr. Yun-Yun Tsai, einer der Autoren des Papiers. „Es gibt zu viele Kriminelle, die KI zur Videogenerierung nutzen. Der Schlüssel liegt darin, ihnen das Handwerk zu legen und die Gesellschaft zu schützen.“

Referenzlinks:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<: Gewitter, Sturm oder Hagel sind im Anmarsch, bitte treffen Sie in diesen Gebieten Vorsichtsmaßnahmen →

>>: Was ist das „Piping“-Phänomen, das durch den Deichbruch des Dongting-Sees verursacht wird? Wie kann eine Notfallrettung durchgeführt werden?

Die elektronische Servolenkung kann plötzlich ausfallen. Geely wird 40.000 Borui-Fahrzeuge zurückrufen

Nehmen Sie während der Grippesaison nicht willkürlich Erkältungsmittel ein! Arzt: Diese Medikamente dürfen nicht zusammen mit Erkältungsmitteln eingenommen werden!

Artikel

Wenn der Regenwurm rosa würde und Beine bekäme, wäre er süß?

Warum fühlt es sich in meinem Hals immer so an, als würde ich „eine Rasierklinge verschlucken“, obwohl ich jeden Tag eine Tasse Kaffee trinke?

Frau Zhang, eine Büroangestellte in Hangzhou, ist...

Da nur die Hälfte der Mittel der Konkurrenz in Forschung und Entwicklung gesteckt wird, stellt sich die Frage, welchen Vorsprung Ecovacs nach dem Abstieg vom blauen in den roten Ozean noch halten kann.

Seit Juli ist der Aktienkurs von Ecovacs kontinui...

Die NASA wartete 11 Jahre auf die Beobachtung, wurde jedoch durch einen Wasserrohrbruch zum Abbruch gezwungen

Wir haben viele schockierende Bilder der Sonne ge...

Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Die elektronische Servolenkung kann plötzlich ausfallen. Geely wird 40.000 Borui-Fahrzeuge zurückrufen

Die Myopierate bei Kindern steigt immer weiter an. Wie können wir die Präventions- und Kontrolllinie aufrechterhalten?

Wie trainieren Jungen die Bauchmuskeln?

Nehmen Sie während der Grippesaison nicht willkürlich Erkältungsmittel ein! Arzt: Diese Medikamente dürfen nicht zusammen mit Erkältungsmitteln eingenommen werden!

Wenn der Regenwurm rosa würde und Beine bekäme, wäre er süß?

360-Grad-Erlebnis für sicheres Routing: mehr als nur mehr Sicherheit

Wie verwendet man Trekkingstöcke richtig?

Tag der Brustpflege – Vorsicht vor dem „Killer Nummer eins“ der Frauengesundheit! Kennen Sie Ihre Brüste wirklich?

Das neue Layout von Evergrande: Interessiert sich Xu Jiayin eher für Jia Yuetings Grundstück als für Elektroautos?

Da steckt eine große „Wurst“ im Wasser fest. Wenn Sie es wagen, es zu essen, wird Ihr Mund mit Braten bedeckt sein!

Artikel empfehlen

Wie kann ich trainieren, um Oberschenkelfett zu verlieren?

SEMI: Der globale Markt für Halbleitermaterialien erreichte 2015 einen Produktionswert von 43,4 Milliarden US-Dollar

Was sind einige einfache Fitnessübungen?

Wie können die CO2-Emissionen in Gebäuden reduziert werden? Verfolgung des CO2-Fußabdrucks eines Gebäudes

Sind romantische Tulpen giftig? Ist es für die Haltung im Innenbereich geeignet?

Welche Körperpartien werden beim Radfahren trainiert?

Wer hat Farbe in den Himmel geworfen? Der „wahre Mörder“ stellte sich als… heraus｜Environmental Trumpet

Warum fühlt es sich in meinem Hals immer so an, als würde ich „eine Rasierklinge verschlucken“, obwohl ich jeden Tag eine Tasse Kaffee trinke?

War das Krokodil, das Han Yu vertrieb, das Han Yu-Krokodil?

Haben Gletscher auch einen Schmetterlingseffekt? Vom „gewaltsamen Transport“ zur „sanften Ernährung“

Wie erfolgt die Hand-Fuß-Koordination beim Brustschwimmen?

Win8 offiziell eingestellt! Rollback auf Win7 oder Upgrade auf Win10?

Trainingsmethode für die Taillenmuskulatur

Da nur die Hälfte der Mittel der Konkurrenz in Forschung und Entwicklung gesteckt wird, stellt sich die Frage, welchen Vorsprung Ecovacs nach dem Abstieg vom blauen in den roten Ozean noch halten kann.

Die NASA wartete 11 Jahre auf die Beobachtung, wurde jedoch durch einen Wasserrohrbruch zum Abbruch gezwungen