Skandál ve společnosti Meta: Používání pirátských knih pro AI trénink

Sžíravý hlad po datech, který vývojáři umělé inteligence mají, je vede ke kontroverzním rozhodnutím.

V posledních měsících se společnost Meta, kterou vede Mark Zuckerberg, zapletla do kontroverze (no, do dvou, pokud počítáme nedávný spor o moderování obsahu). Pokud jde o případ, který nás zajímá, nedávno odtajněné dokumenty v případu Kadrey vs. Meta odhalují, že společnost údajně použila autorská díla z platformy Library Genesis, která je známá neautorizovaným šířením knih, a to vše za účelem trénování jazykového modelu chatbota společnosti Meta, LlaMa, s jejich obsahem.

Pro žalobce v případu Kadrey (včetně samotného spisovatele Richarda Kadreyho a dalších autorů, jako jsou Sarah Silvermanová a Ta-Nehisi Coates) představuje používání této databáze společností Meta hrubé porušení jejich práv.

Co je LibGen

Library Genesis, populárně známá jako „LibGen“, je vyhledávač, který poskytuje volný přístup ke knihám, vědeckým článkům a dalšímu obsahu chráněnému autorskými právy. Přestože byl jeho přístup v několika zemích zablokován a čelil několika soudním žalobám, LibGen nadále funguje prostřednictvím alternativních domén, jako je Sci-Hub nebo Z-Library.

V právních dokumentech se uvádí, že Meta nejenže přistupovala k pirátskému obsahu, ale také úmyslně odstraňovala z použitých materiálů označení autorských práv, včetně metadat a symbolů autorských práv. Toto jednání by umožnilo trénovat modely LlaMa, aniž by uživatele nebo regulační orgány upozornilo na povahu použitých dat.

Jedním z nejvíce šokujících odhalení je však pravděpodobně to, že Mark Zuckerberg sám schválil použití LibGen navzdory obavám, které vyjádřili někteří členové týmu umělé inteligence společnosti Meta. Varování před tím, jak by tato strategie mohla podkopat vyjednávací pozici společnosti Meta s regulačními orgány, však generálního ředitele neodradila od toho, aby dal projektu zelenou.

Kromě toho se Meta údajně uchýlila k používání torrentů ke stahování obsahu LibGen. Tato metoda, která spočívá ve sdílení souborů prostřednictvím decentralizovaných sítí, proměnila společnost v další distribuční uzel pro chráněný obsah, což zhoršilo obvinění z porušování autorských práv.

Obhajoba společnosti Meta

Společnost Meta hájila své postupy tvrzením, že na používání materiálů se vztahuje zásada „spravedlivého použití“ podle amerického práva. Tento argument byl však zpochybněn, protože Meta nejenže díla použila bez povolení, ale také provedla opatření k zakrytí jejich nezákonného původu.

Předchozí případy nabízejí smíšený obraz účinnosti této obhajoby. V roce 2023 soud zamítl podobné žaloby proti společnosti Meta s odůvodněním, že žalobci neprokázali jasnou škodu. Tentokrát by však rozsah a záměr jednání společnosti Meta mohl vychýlit misky vah v její neprospěch.

Běžná praxe v odvětví AI

Ačkoli je Meta v centru pozornosti, není jedinou technologickou společností obviněnou z používání neoprávněně chráněného obsahu k trénování svých modelů umělé inteligence: OpenAI, Google a další společnosti čelily podobným žalobám. V některých případech začaly tyto společnosti vyjednávat s vydavateli a tvůrci o licencích na jejich obsah, což znamená možnou změnu dynamiky odvětví.

Problém však spočívá v nenasytné potřebě dat, která slouží k napájení a zlepšování modelů umělé inteligence. Tento nenasytný apetit vedl k pochybným praktikám, od využívání pirátských knih až po masivní získávání obsahu z veřejných platforem, jako je YouTube, a dokonce i soukromých fotografií zveřejněných na sociálních sítích.