Wikimedia Foundation: KI-Crawler lassen Bandbreitenbedarf von Wikimedia Commons um 50 % ansteigen

Wikimedia Foundation: KI-Crawler lassen Bandbreitenbedarf von Wikimedia Commons um 50 % ansteigen

Die Wikimedia Foundation, die Verwaltungsorganisation von Wikipedia und mehr als einem Dutzend anderer Crowdsourcing-Wissensprojekte, gab am Montag bekannt, dass der Bandbreitenverbrauch für das Herunterladen von Multimediadateien von Wikimedia Commons seit Januar 2024 um 50 % gestiegen sei.

Der Grund dafür liege nicht in der steigenden Nachfrage wissenshungriger Menschen, sondern in der Nachfrage automatisierter, datenhungriger Crawler, die Modelle künstlicher Intelligenz trainieren möchten, schrieb das Unternehmen am Dienstag in einem Blogbeitrag.

„Unsere Infrastruktur ist darauf ausgelegt, plötzlichen Anstiegen des menschlichen Datenverkehrs bei hochkarätigen Veranstaltungen standzuhalten, doch das durch Bots erzeugte Datenverkehrsvolumen ist beispiellos und bringt zunehmende Risiken und Kosten mit sich“, heißt es in dem Beitrag.

Wikimedia Commons ist ein frei zugängliches Archiv von Bildern, Videos und Audiodateien, die unter offenen Lizenzen verfügbar sind oder gemeinfrei sind.

Bei genauerem Hinsehen stellte Wikipedia fest, dass fast zwei Drittel (65 %) des „teuersten“ Datenverkehrs – also des ressourcenintensivsten Datenverkehrs im Hinblick auf die Art der konsumierten Inhalte – von Bots stammten. Allerdings stammten nur 35 % aller Seitenaufrufe von diesen Bots. Laut Wikipedia liegt der Grund für diesen Unterschied darin, dass häufig aufgerufene Inhalte näher am Benutzer im Cache gespeichert werden, während andere, weniger häufig aufgerufene Inhalte weiter entfernt in „Kernrechenzentren“ gespeichert werden, von wo aus die Bereitstellung der Inhalte teurer ist. Dies ist die Art von Inhalten, nach denen Bots normalerweise suchen.

„Während menschliche Leser dazu neigen, sich auf bestimmte (oft ähnliche) Themen zu konzentrieren, neigen Crawler-Bots dazu, eine große Anzahl von Seiten ‚stapelweise zu lesen‘ und weniger beliebte Seiten zu besuchen“, schreibt Wikipedia. „Das bedeutet, dass diese Art von Anfragen eher an das zentrale Rechenzentrum weitergeleitet werden, was den Ressourcenverbrauch für uns teurer macht.“

Alles in allem muss das Site Reliability Team der Wikimedia Foundation viel Zeit und Ressourcen darauf verwenden, Bots zu blockieren, um Störungen für normale Benutzer zu vermeiden. Und dabei sind die Cloud-Kosten für die Stiftungen noch gar nicht berücksichtigt.

Tatsächlich ist es Teil eines schnell wachsenden Trends, der die Existenz des offenen Internets bedroht. Letzten Monat beschwerte sich der Softwareentwickler und Open-Source-Befürworter Drew DeVault, dass KI-Crawler „robots.txt“-Dateien ignorieren, die zum Schutz vor automatisiertem Datenverkehr entwickelt wurden. Und auch der „pragmatische Ingenieur“ Gergely Orosz beschwerte sich letzte Woche darüber, dass KI-Crawler von Unternehmen wie Meta den Bandbreitenbedarf seiner eigenen Projekte erhöhten.

Während die Open-Source-Infrastruktur besonders im Vordergrund steht, wehren sich die Entwickler mit „Einfallsreichtum und aller Macht“. Auch einige Technologieunternehmen leisten ihren Beitrag zur Lösung des Problems. Cloudflare beispielsweise hat vor Kurzem AI Labyrinth eingeführt, das KI-generierte Inhalte nutzt, um Crawler zu verlangsamen.

Allerdings handelt es sich dabei eher um ein Katz-und-Maus-Spiel, das viele Herausgeber letztlich dazu zwingen könnte, sich hinter Logins und Paywalls zu verstecken – was für alle, die heute das Internet nutzen, nachteilig wäre.

Von der chinesischen Industrieinformationsstation

<<:  Testbericht zum 360WiFi6-Router für das ganze Haus: Er kann nicht nur die volle Bandbreite im Badezimmer und auf dem Balkon nutzen, sondern ist auch ein Netzwerksicherheitsmanager

>>:  Entdecken Sie spannende Unterhaltung, die Huawei VR Glass-Brille bietet Ihnen ein echtes Spaßerlebnis!

Artikel empfehlen

Ist es gesünder, vor oder nach dem Training zu essen?

Körperliche Gesundheit ist untrennbar mit Bewegun...

Wie lange sollte ich Seilspringen, um abzunehmen?

Viele Menschen nutzen Seilspringen, um abzunehmen...

Was? Ist Hails Lieblingsort zum Einchecken das Qinghai-Tibet-Plateau?

Wussten Sie? Hagel mag „Bergstraßen“ Je komplexer...

Was ist eine Fitnessdiät für Männer?

Eine Diät ist kein schneller Weg, um Fett zu verl...