AI zabíjí internet. Nebezpeční boti ohrožují i Wikipedii

Platformy jako Wikimedia a projekty s otevřeným zdrojovým kódem bojují o přežití tváří v tvář překračování nákladů způsobenému automatickými crawlery, které krmí modely umělé inteligence.

Internet je pod útokem. Ne kyberzločinci, ale záplavou botů s umělou inteligencí, kteří bezprecedentním tempem spotřebovávají šířku pásma. Cílem těchto botů je procházet a sbírat masivní obsah, který slouží jako zdroj pro jazykové modely a generátory obrázků. Na to však doplácejí mimo jiné pilíře otevřených znalostí, jako je Wikimedia a tisíce vývojářů svobodného softwaru.

Svobodné znalosti, infrastruktura na hranici možností

Od začátku roku 2024 zaznamenala nadace Wikimedia Foundation 50% nárůst spotřeby přenosového pásma(zejména ve svém multimediálním repozitáři Wikimedia Commons). Občas, například po smrti bývalého amerického prezidenta Jimmyho Cartera, měl tento nadměrný provoz za následek nasycení připojení a pomalé načítání pro čtenáře.

Bohužel se nejedná o explozi zájmu ze strany jejích lidských uživatelů: většina provozu pochází od automatizovaných botů – z nichž mnozí nejsou identifikováni – extrahují obrázky, texty a videa pro trénování modelů umělé inteligence. V praxi to znamená, že stále více připojení k jeho centrálním serverům (v tuto chvíli 65 %) zabírají crawlery, které ignorují zavedené limity, jako je soubor robots.txt, který tradičně slouží k regulaci automatizovaného přístupu.

Wikimedia je založena na modelu „znalosti jako služba“. Její obsah je zdarma a volně opakovaně použitelný, což bylo klíčové pro vývoj vyhledávačů, hlasových asistentů a nyní i modelů umělé inteligence. Jak však uvedla sama nadace:

„Obsah je zdarma, ale naše infrastruktura nikoli.“

Běžná hrozba pro vývojáře

Situace je podobná – nebo dokonce kritičtější – ve světě malých open source projektů, které udržují komunity nebo jednotliví vývojáři, jsou svědky toho, že jejich zdroje jsou vyčerpávány provozem generovaným roboty AI, což způsobuje prudký nárůst nákladů nebo dočasné vypnutí projektů.

Gergely Orosz, vývojář a autor knihy The Software Engineer’s Guidebook, zaznamenal u jednoho ze svých projektů během několika týdnů sedminásobný nárůst využití dat, což ho donutilo platit pokuty za nadměrný provoz.

Vývojář Xe Iaso mezitím vytvořil nástroj Anubis, který funguje jako reverzní proxy a nutí návštěvníky webových stránek, aby před přístupem k obsahu vyřešili „výpočetní test“. Tímto testem mohou projít (a tedy přistupovat k obsahu) pouze lidé, boti nikoliv. Líčí jeho omezenou užitečnost:

„Je zbytečné snažit se blokovat roboty s umělou inteligencí. Lžou, mění identitu, používají rezidenční IP adresy (tj. nejsou napojeny na datová centra) a vracejí se znovu a znovu.“

Did you know AI crawlers have nearly doubled the bandwidth needs for Wikimedia Commons? How are you adapting to this surge? Share your strategies for managing AI traffic! #TechNews #BandwidthManagement #Wikimedia pic.twitter.com/8XyKi2yRwC
— Andrii (@Andrii899482) April 4, 2025

Tento nástroj se však mezi členy open source komunity stal virálním a inspiroval mnoho dalších k implementaci podobných řešení.

Agresivní taktika

Kromě obranných opatření se někteří vývojáři rozhodli pro agresivnější metody. Nástroje navržené komunitou (např. Nepenthes) nebo velkými společnostmi, jako je Cloudflare (případ AI Labyrinth), chytají roboty do „pastí“ neboli labyrintů z falešného nebo irelevantního obsahu (paradoxně také generovaného umělou inteligencí), což je nutí při každém pokusu o vyškrábání plýtvat zdroji namísto získávání relevantních informací.

Paradox otevřeného webu

V pozadí této krize je zásadní rozpor: samotná otevřenost, která umožnila rozvoj umělé inteligence, ohrožuje životaschopnost prostorů, které ji umožnily. Společnosti vyvíjející UI těží z otevřeného obsahu, ale nepřispívají k údržbě jeho infrastruktury. Tato externalizace nákladů ohrožuje udržitelnost otevřeného ekosystému.

„Svoboda přístupu neznamená svobodu od následků,“ varuje Wikimedia ve svém prohlášení.

Na cestě ke společnému řešení

Shoda mezi dotčenými platformami je jasná: jsou zapotřebí nová pravidla koexistence a také dohody mezi společnostmi zabývajícími se umělou inteligencí a poskytovateli otevřeného obsahu, které by zahrnovaly:

Společné financování infrastruktury.
Optimalizovaná a udržitelná rozhraní API.
Přísné dodržování standardů, jako je robots.txt.
Uznávání a uvádění použitého obsahu.

Pokud těchto konsenzů nebude dosaženo, není největším rizikem, že AI dojdou data, ale že otevřené prostory, které ji živí, nakonec zavřou své dveře kvůli vyčerpání.

AI zabíjí internet. Nebezpeční boti ohrožují i Wikipedii

Svobodné znalosti, infrastruktura na hranici možností

Běžná hrozba pro vývojáře

Agresivní taktika

Paradox otevřeného webu

Na cestě ke společnému řešení

OpenAI se chystá spustit nový open source. Předchozí podobný projekt byl přitom na hraně bezpečnosti

Čínská AI revoluce je podvrh, Peking na rozvoj umělé inteligence vynakládá nemalé zdroje

Video se Scarlett Johansson a dalšími herci není pravé: herečka vyzývá k boji proti AI deepfakes

Větrná energie se brzy radikálně změní: Amerika řeší 100 let sta...

Google zvyšuje minimální požadavky na úložiště pro provoz systém...

ChatGPT je již nyní nejstahovanější aplikací na světě. Předstihl...

Nefunguje váš telefon Xiaomi tak hladce jako dříve? Pomocí tohot...

Herní vývojář využívá pro svou práci AI. Nemohu si ji vynachváli...

Větrná energie se brzy radikálně změní: Amerika řeší 100 let starý matematický problém

Google zvyšuje minimální požadavky na úložiště pro provoz systému Android 15 v telefonech a tabletech

ChatGPT je již nyní nejstahovanější aplikací na světě. Předstihla dvě aplikace, které se zdály být nepřekonatelné

Nefunguje váš telefon Xiaomi tak hladce jako dříve? Pomocí tohoto jednoduchého triku můžete zlepšit jeho výkon

Větrná energie se brzy radikálně změní: Amerika řeší 100 let starý matematický problém

Google I/O 2024: Nejdůležitější událost roku společnosti Google má nyní své datum

Nový ASUS ZenFone 11 Ultra: Snapdragon 8 Gen 3 a 144Hz displej, který může konkurovat těm nejlepším

Odlišnost prodává: nového telefonu Nothing Phone (2a) se již dodalo více než 100 000 kusů.

Dokumenty

AI zabíjí internet. Nebezpeční boti ohrožují i Wikipedii

Svobodné znalosti, infrastruktura na hranici možností

Související článek

Herní vývojář využívá pro svou práci AI. Nemohu si ji vynachválit, tvrdí

Běžná hrozba pro vývojáře

Agresivní taktika

Paradox otevřeného webu

Na cestě ke společnému řešení

Dokumenty