Die Wikimedia Foundation, die Verwaltungsorganisation von Wikipedia und mehr als einem Dutzend anderer Crowdsourcing-Wissensprojekte, gab am Montag bekannt, dass der Bandbreitenverbrauch für das Herunterladen von Multimediadateien von Wikimedia Commons seit Januar 2024 um 50 % gestiegen sei. Der Grund dafür liege nicht in der steigenden Nachfrage wissenshungriger Menschen, sondern in der Nachfrage automatisierter, datenhungriger Crawler, die Modelle künstlicher Intelligenz trainieren möchten, schrieb das Unternehmen am Dienstag in einem Blogbeitrag. „Unsere Infrastruktur ist darauf ausgelegt, plötzlichen Anstiegen des menschlichen Datenverkehrs bei hochkarätigen Veranstaltungen standzuhalten, doch das durch Bots erzeugte Datenverkehrsvolumen ist beispiellos und bringt zunehmende Risiken und Kosten mit sich“, heißt es in dem Beitrag. Wikimedia Commons ist ein frei zugängliches Archiv von Bildern, Videos und Audiodateien, die unter offenen Lizenzen verfügbar sind oder gemeinfrei sind. Bei genauerem Hinsehen stellte Wikipedia fest, dass fast zwei Drittel (65 %) des „teuersten“ Datenverkehrs – also des ressourcenintensivsten Datenverkehrs im Hinblick auf die Art der konsumierten Inhalte – von Bots stammten. Allerdings stammten nur 35 % aller Seitenaufrufe von diesen Bots. Laut Wikipedia liegt der Grund für diesen Unterschied darin, dass häufig aufgerufene Inhalte näher am Benutzer im Cache gespeichert werden, während andere, weniger häufig aufgerufene Inhalte weiter entfernt in „Kernrechenzentren“ gespeichert werden, von wo aus die Bereitstellung der Inhalte teurer ist. Dies ist die Art von Inhalten, nach denen Bots normalerweise suchen. „Während menschliche Leser dazu neigen, sich auf bestimmte (oft ähnliche) Themen zu konzentrieren, neigen Crawler-Bots dazu, eine große Anzahl von Seiten ‚stapelweise zu lesen‘ und weniger beliebte Seiten zu besuchen“, schreibt Wikipedia. „Das bedeutet, dass diese Art von Anfragen eher an das zentrale Rechenzentrum weitergeleitet werden, was den Ressourcenverbrauch für uns teurer macht.“ Alles in allem muss das Site Reliability Team der Wikimedia Foundation viel Zeit und Ressourcen darauf verwenden, Bots zu blockieren, um Störungen für normale Benutzer zu vermeiden. Und dabei sind die Cloud-Kosten für die Stiftungen noch gar nicht berücksichtigt. Tatsächlich ist es Teil eines schnell wachsenden Trends, der die Existenz des offenen Internets bedroht. Letzten Monat beschwerte sich der Softwareentwickler und Open-Source-Befürworter Drew DeVault, dass KI-Crawler „robots.txt“-Dateien ignorieren, die zum Schutz vor automatisiertem Datenverkehr entwickelt wurden. Und auch der „pragmatische Ingenieur“ Gergely Orosz beschwerte sich letzte Woche darüber, dass KI-Crawler von Unternehmen wie Meta den Bandbreitenbedarf seiner eigenen Projekte erhöhten. Während die Open-Source-Infrastruktur besonders im Vordergrund steht, wehren sich die Entwickler mit „Einfallsreichtum und aller Macht“. Auch einige Technologieunternehmen leisten ihren Beitrag zur Lösung des Problems. Cloudflare beispielsweise hat vor Kurzem AI Labyrinth eingeführt, das KI-generierte Inhalte nutzt, um Crawler zu verlangsamen. Allerdings handelt es sich dabei eher um ein Katz-und-Maus-Spiel, das viele Herausgeber letztlich dazu zwingen könnte, sich hinter Logins und Paywalls zu verstecken – was für alle, die heute das Internet nutzen, nachteilig wäre. |
Körperliche Gesundheit ist untrennbar mit Bewegun...
Autor: Sheng Juan, stellvertretender Chefarzt des...
Vor kurzem hat das Auftreten des neuen mutierten ...
Viele Menschen nutzen Seilspringen, um abzunehmen...
Heute ist die Frage „Warum fühlen sich manche Men...
Ich weiß nicht, ob Sie diese Erfahrung schon einm...
Wussten Sie? Hagel mag „Bergstraßen“ Je komplexer...
Ein Mann aus Wissenschaft und Technik, der sich d...
Acht Stunden am Arbeitsplatz vor dem Computer sit...
Vielleicht trifft das Sprichwort „Der frühe Vogel...
Heutzutage ist Kunststoff zu einem unverzichtbare...
An diesen beiden Tagen, als wir die olympischen A...
Bild aus: People's Daily Gerade erst war „Nez...
Eine Diät ist kein schneller Weg, um Fett zu verl...