Platformy jako Wikimedia a projekty s otevřeným zdrojovým kódem bojují o přežití tváří v tvář překračování nákladů způsobenému automatickými crawlery, které krmí modely umělé inteligence.
Internet je pod útokem. Ne kyberzločinci, ale záplavou botů s umělou inteligencí, kteří bezprecedentním tempem spotřebovávají šířku pásma. Cílem těchto botů je procházet a sbírat masivní obsah, který slouží jako zdroj pro jazykové modely a generátory obrázků. Na to však doplácejí mimo jiné pilíře otevřených znalostí, jako je Wikimedia a tisíce vývojářů svobodného softwaru.
Svobodné znalosti, infrastruktura na hranici možností
Od začátku roku 2024 zaznamenala nadace Wikimedia Foundation 50% nárůst spotřeby přenosového pásma(zejména ve svém multimediálním repozitáři Wikimedia Commons). Občas, například po smrti bývalého amerického prezidenta Jimmyho Cartera, měl tento nadměrný provoz za následek nasycení připojení a pomalé načítání pro čtenáře.
Bohužel se nejedná o explozi zájmu ze strany jejích lidských uživatelů: většina provozu pochází od automatizovaných botů – z nichž mnozí nejsou identifikováni – extrahují obrázky, texty a videa pro trénování modelů umělé inteligence. V praxi to znamená, že stále více připojení k jeho centrálním serverům (v tuto chvíli 65 %) zabírají crawlery, které ignorují zavedené limity, jako je soubor robots.txt, který tradičně slouží k regulaci automatizovaného přístupu.
Wikimedia je založena na modelu „znalosti jako služba“. Její obsah je zdarma a volně opakovaně použitelný, což bylo klíčové pro vývoj vyhledávačů, hlasových asistentů a nyní i modelů umělé inteligence. Jak však uvedla sama nadace:
„Obsah je zdarma, ale naše infrastruktura nikoli.“
Běžná hrozba pro vývojáře
Situace je podobná – nebo dokonce kritičtější – ve světě malých open source projektů, které udržují komunity nebo jednotliví vývojáři, jsou svědky toho, že jejich zdroje jsou vyčerpávány provozem generovaným roboty AI, což způsobuje prudký nárůst nákladů nebo dočasné vypnutí projektů.
Gergely Orosz, vývojář a autor knihy The Software Engineer’s Guidebook, zaznamenal u jednoho ze svých projektů během několika týdnů sedminásobný nárůst využití dat, což ho donutilo platit pokuty za nadměrný provoz.
Vývojář Xe Iaso mezitím vytvořil nástroj Anubis, který funguje jako reverzní proxy a nutí návštěvníky webových stránek, aby před přístupem k obsahu vyřešili „výpočetní test“. Tímto testem mohou projít (a tedy přistupovat k obsahu) pouze lidé, boti nikoliv. Líčí jeho omezenou užitečnost:
„Je zbytečné snažit se blokovat roboty s umělou inteligencí. Lžou, mění identitu, používají rezidenční IP adresy (tj. nejsou napojeny na datová centra) a vracejí se znovu a znovu.“
— Andrii (@Andrii899482) April 4, 2025
Did you know AI crawlers have nearly doubled the bandwidth needs for Wikimedia Commons?
How are you adapting to this surge? Share your strategies for managing AI traffic!
#TechNews #BandwidthManagement #Wikimedia pic.twitter.com/8XyKi2yRwC
Tento nástroj se však mezi členy open source komunity stal virálním a inspiroval mnoho dalších k implementaci podobných řešení.
Agresivní taktika
Kromě obranných opatření se někteří vývojáři rozhodli pro agresivnější metody. Nástroje navržené komunitou (např. Nepenthes) nebo velkými společnostmi, jako je Cloudflare (případ AI Labyrinth), chytají roboty do „pastí“ neboli labyrintů z falešného nebo irelevantního obsahu (paradoxně také generovaného umělou inteligencí), což je nutí při každém pokusu o vyškrábání plýtvat zdroji namísto získávání relevantních informací.
Paradox otevřeného webu
V pozadí této krize je zásadní rozpor: samotná otevřenost, která umožnila rozvoj umělé inteligence, ohrožuje životaschopnost prostorů, které ji umožnily. Společnosti vyvíjející UI těží z otevřeného obsahu, ale nepřispívají k údržbě jeho infrastruktury. Tato externalizace nákladů ohrožuje udržitelnost otevřeného ekosystému.
Na cestě ke společnému řešení
Shoda mezi dotčenými platformami je jasná: jsou zapotřebí nová pravidla koexistence a také dohody mezi společnostmi zabývajícími se umělou inteligencí a poskytovateli otevřeného obsahu, které by zahrnovaly:
- Společné financování infrastruktury.
- Optimalizovaná a udržitelná rozhraní API.
- Přísné dodržování standardů, jako je robots.txt.
- Uznávání a uvádění použitého obsahu.
Pokud těchto konsenzů nebude dosaženo, není největším rizikem, že AI dojdou data, ale že otevřené prostory, které ji živí, nakonec zavřou své dveře kvůli vyčerpání.