Heutzutage verändern KI-Tools zur Videoerstellung Branchen wie Design, Marketing, Unterhaltung und Bildung, indem sie realistische Videoinhalte produzieren. Insbesondere bei Videomodellen wie Sora und Gen-3 müssen Sie nur wenige Zeilen Eingabetext eingeben, um realistische, kontinuierliche und qualitativ hochwertige Videoblöcke zu generieren. Diese Technologie hat Kreativen auf der ganzen Welt zwar zahllose Möglichkeiten eröffnet, für die Öffentlichkeit ist sie jedoch auch mit zahlreichen Schäden und Risiken verbunden , insbesondere im Hinblick auf die Verbreitung falscher Informationen, Propaganda, Betrug und Phishing. Vor Kurzem hat das Team von Professor Junfeng Yang an der Columbia University ein Videoerkennungstool namens DIVID (DIffusion-generated VIdeo Detector) entwickelt. Bei Videos, die von Modellen wie SORA, Gen-2 und Pika generiert wurden, erreichte die Erkennungsgenauigkeit 93,7 % . Das Forschungspapier, das Open-Source-Code und einen Datensatz enthält, wurde letzten Monat auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle vorgestellt. Wie ist DIVID entstanden? Vorhandene Deepfake-Detektoren sind bei der Identifizierung von durch GANs generierten Samples gut, aber nicht robust genug bei der Erkennung von durch Diffusionsmodelle generierten Videos. In dieser Arbeit verwendete das Forschungsteam ein neues Tool namens DIVID, um KI-generierte Videos zu erkennen. Berichten zufolge basiert DIVID auf der Arbeit, die das Team Anfang des Jahres veröffentlicht hat – Raidar, das von KI generierten Text erkennt, indem es den Text selbst analysiert, ohne auf die internen Operationen des großen Sprachmodells (LLM) zuzugreifen. Raidar verwendet LLM, um einen gegebenen Text neu zu formulieren oder zu überarbeiten und misst dann die Anzahl der Änderungen, die das System an diesem Text vornimmt. Mehr Bearbeitungen bedeuten, dass der Text mit größerer Wahrscheinlichkeit von einem Menschen geschrieben wurde. weniger Bearbeitungen bedeuten, dass der Text eher maschinell erstellt wurde. Sie haben DIVID nach dem gleichen Konzept entwickelt. DIVID funktioniert, indem das Video rekonstruiert und das neu rekonstruierte Video mit dem Originalvideo verglichen wird. Es verwendet DIRE-Werte, um durch Diffusion erzeugte Videos zu erkennen, da die Methode auf der Annahme basiert, dass die vom Diffusionsmodell erzeugten rekonstruierten Bilder einander sehr ähnlich sein sollten, da sie aus der Verteilung des Diffusionsprozesses entnommen werden. Wenn es erhebliche Änderungen gibt, wurde das Originalvideo wahrscheinlich von einem Menschen erstellt, andernfalls wahrscheinlich mithilfe von KI. Abbildung | Der Erkennungsprozess von DIVID. In Schritt 1 verwendet das Forschungsteam zunächst ein Diffusionsmodell, um aus einer Sequenz von Videobildern eine rekonstruierte Version jedes Bildes zu generieren. Anschließend wird der DIRE-Wert durch Rekonstruktion des Frames und des entsprechenden Eingabeframes berechnet. In Schritt 2 wird der CNN+LSTM-Detektor basierend auf der DIRE-Wertesequenz und dem ursprünglichen RGB-Frame trainiert. Das Framework basiert auf der Idee, dass KI-generierte Tools Inhalte basierend auf der statistischen Verteilung großer Datensätze erstellen, was zu „statistischen Mittelwerten“ von Inhalten wie Pixelintensitätsverteilung, Texturmustern und Rauscheigenschaften in Videobildern sowie kleinen Inkonsistenzen führt, die zwischen Bildern unnatürlich variieren, oder anomalen Mustern, die eher in durch Diffusion generierten Videos auftreten. Abbildung | Erkennungsleistung im In-Domain-Testsatz. DIVID übertrifft die Basisarchitektur in Bezug auf Genauigkeit (Acc.) und durchschnittliche Präzision (AP). RGB repräsentiert die Pixelbildwerte im Originalvideo. Im Gegensatz dazu weisen von Menschen erstellte Videos Individualität und Abweichungen von statistischen Normen auf. DIVID erreicht in seinem Benchmark-Datensatz eine Erkennungsgenauigkeit von bis zu 93,7 % bei Videos, die von Stable Vision Diffusion, Sora, Pika und Gen-2 generiert wurden. Zukunftsaussichten Derzeit ist DIVID ein Befehlszeilentool, das Videos analysiert und ausgibt, unabhängig davon, ob sie von KI oder Menschen generiert wurden, und ist nur für Entwickler verfügbar. Die Forscher weisen darauf hin , dass ihre Technik das Potenzial hat, als Plug-In in Zoom integriert zu werden, um Deepfake-Anrufe in Echtzeit zu erkennen . Das Team erwägt außerdem, eine Website oder ein Browser-Plugin zu entwickeln, um DIVID normalen Benutzern zur Verfügung zu stellen. Die Forscher arbeiten derzeit daran, das Framework von DIVID zu verbessern, um verschiedene Arten synthetischer Videos aus Open-Source-Tools zur Videogenerierung verarbeiten zu können. Sie verwenden DIVID auch, um Videos zu sammeln und den DIVID-Datensatz zu erweitern. „Unser Framework macht erhebliche Fortschritte bei der Erkennung von KI-generierten Inhalten“, sagte Dr. Yun-Yun Tsai, einer der Autoren des Papiers. „Es gibt zu viele Kriminelle, die KI zur Videogenerierung nutzen. Der Schlüssel liegt darin, ihnen das Handwerk zu legen und die Gesellschaft zu schützen.“ Referenzlinks: https://arxiv.org/abs/2406.09601 https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html |
Die Frühlingsfestferien sind vorbei. Haben Sie wi...
Bearbeiten: Danke Eine der Lieblingsbeschäftigung...
Seilspringen ist eine Aerobic-Übung, die Ihnen be...
In der heutigen Gesellschaft streben viele Freund...
Schwimmen ist ein Ganzkörpertraining, das Ihnen n...
Schwimmen ist eine der schönsten Sportarten. Es b...
Fahren Sie von Austin, der Hauptstadt von Texas, ...
Die größte Neuigkeit in der Finanzwelt ist dieser...
Apropos Yoga: Jeder sollte damit vertraut sein, o...
Im „Weißbuch zu Hyperurikämie- und Gichttrends in...
Abnehmen ist ein langsamer Prozess und es gibt ke...
Bauchmuskeltraining erfordert zwar langfristige A...
Wenn Sie sich nicht richtig ernähren, können leic...
Menschen, die nicht regelmäßig Sport treiben, lei...
Wenn man neben einem Ferrari steht, kann man, sol...