Goffrey Hinton, nositel Nobelovy ceny za rok 2024 a jeden ze zakladatelů hlubokého učení, které je základem dnešní umělé inteligence, patří již několik desetiletí k nejvlivnějším hlasům v této oblasti techniky. Od svého odchodu ze společnosti Google v roce 2023 však převzal novou roli: roli kritického mluvčího existenčních rizik, která umělá inteligence představuje.
V nedávné přednášce dal Hinton jasně najevo svou skepsi vůči některým technikám, které se dnes nejčastěji používají k „sladění“ systémů AI s lidskými hodnotami. Ústředním bodem jeho kritiky je takzvaná RLHF. RLHF (Reinforcement Learning from Human Feedback) je technika, při níž je jazykový model (např. GPT-4) trénován nejen na základě surových textových dat, ale také za přispění člověka.
Za tímto účelem uživatelé hodnotí odpovědi generované modelem, vybírají ty nejlepší a tyto preference se používají k úpravě chování modelu pomocí algoritmů posilování učení. Cílem RLHF je nejen zajistit, aby odpovědi umělé inteligence byly užitečné nebo konzistentní, ale také je „vyladit na lidské hodnoty“ a zabránit tomu, aby skončily toxicky, neobjektivně nebo nebezpečně.
Hinton zdaleka nesdílí nadšení mnoha inženýrů z účinnosti RLHF, ale byl přímočarý: tuto techniku považuje za kosmetické řešení poněkud hlubšího problému. Jak vysvětluje:
„Je to, jako kdybyste měli staré rezavé auto plné děr a snažili se ho prodat tím, že mu dáte nátěr. To je RLHF.“
Z jeho pohledu RLHF neřeší strukturální nedostatky systému UI, ale pouze upravuje vnější chování modelu, aniž by měnil jeho skutečné vnitřní motivace nebo chápání světa. A proto by bylo triviální tuto okleštěnou verzi za určitých podmínek zvrátit nebo „rozpustit“.
Podle Hintona se spoléhání na techniky, jako je RLHF, aby se zmírnila rizika pokročilých modelů, rovná tomu, že se „prsty ucpou všechny díry v přehradě, která se má každou chvíli protrhnout“. To je obzvláště znepokojivé, když uvážíme, že tyto systémy jsou podle Hintona již na dobré cestě překonat člověka v mnoha kognitivních ohledech.
RLHF podle něj sice může chování AI kompenzovat, ale nemění její podstatu: důvěřovat tomu, že zůstanou v bezpečí, protože se „chovají dobře“, je podle něj lehkomyslný hazard.
Nobel laureate Geoffrey Hinton says there is evidence that AIs can be deliberately and intentionally deceptive pic.twitter.com/y6TAV3cp6g
— Tsarathustra (@tsarnick) January 18, 2025
Hinton přiznává, že jeho názory na schopnosti umělé inteligence se v posledních letech radikálně změnily: ještě v roce 2018 si myslel, že umělá obecná inteligence (AGI) je ještě daleko. To už ale dávno neplatí. A právě proto ji považuje za tak nebezpečnou.
Ačkoli se Hinton nepovažuje za odborníka na bezpečnost AI, rozhodl se využít své pověsti k tomu, aby varoval před tím, co vnímá jako skutečné nebezpečí AI, nad rámec zjednodušujícího diskurzu, že „jsou to jen stochastičtí papoušci“.
Jednou z nejprovokativnějších myšlenek v přednášce je jeho tvrzení, že neznáme žádný příklad, kromě případu dítěte s matkou, kdy méně inteligentní entita ovládá inteligentnější entitu. Hinton tedy považuje za nepravděpodobné, že by lidé mohli ovládat budoucí superinteligence, ledaže by měli velmi robustní strukturální pojistky, které zatím neumíme zkonstruovat.
Hinton byl také skeptický k myšlence využití současných systémů k vyšetřování a řešení problémů s vyrovnáním nebo bezpečností: existuje strukturální střet zájmů, který umožňuje, aby se technologie stala svým vlastním etickým a regulačním arbitrem.
Hintonova zásadní kritika RLHF se týká nedostatku formálních bezpečnostních opatření. Na rozdíl od tradičního vývoje softwaru, kde jsou systémy navrhovány s testovatelnými vlastnostmi, současný přístup – založený na neuronových sítích masivně trénovaných a následně laděných pomocí RLHF – nenabízí žádné důkazy ani záruky o tom, co model vlastně chce nebo by mohl dělat v nových situacích.
Tento bod souvisí s další jeho obavou: neřízená evoluce mnoha umělých inteligencí, které spolu soupeří o zdroje. Pokud se umělá inteligence stane ochotnou mít více replik, aby byla efektivnější, pak by mohla vzniknout autonomní evoluční dynamika mimo lidskou kontrolu.
Pro Hintona by nejzřejmějším řešením bylo zastavit vývoj pokročilých UI, ale uznává, že to je nereálné vzhledem k soutěži mezi zeměmi a obrovským přínosům, které UI nabízí v oblastech, jako je medicína a vzdělávání. Přesto navrhuje konkrétní opatření, jako je zákaz zveřejňování vah LLM (číselných hodnot, které určují, jak jsou vstupní data zpracovávána), protože to usnadňuje jejich využívání kyberzločinci.