Umělá inteligence již dokáže projít Turingovým testem

Na tento úspěch jsme čekali 75 let. Teď, když se ho podařilo dosáhnout, už to ale nevypadá jako zázrak.

Vědci z Kalifornské univerzity tvrdí, že dva jazykové modely – GPT-4.5 a LLaMa-3.1-405B – prošly Turingovým testem, slavným testem, který vymyslel Alan Turing k posouzení „lidskosti“ umělé inteligence. Znamená to však, že stojíme před skutečným skokem v poznávání umělé inteligence, nebo je to jen ukazatel špatně navrženého a/nebo provedeného experimentu?

Původní myšlenka

Před 75 lety navrhl Alan Turing svůj test jako experiment, který měl určit, zda lze stroje považovat za inteligentní. V tomto testu tazatel komunikuje současně s člověkem a strojem prostřednictvím textového rozhraní a musí určit, který z nich je člověk. Pokud se stroji podaří tazatele oklamat, má se za to, že v testu uspěl.

Ačkoli tato myšlenka byla v průběhu desetiletí předmětem intenzivních diskusí a četných pokusů, žádný systém dosud nedokázal splnit tento úkol v původní podobě.

Experiment

Současná studie, kterou vypracovali Cameron R. Jones a Benjamin K. Bergen, však podrobila několik systémů LLM (dva výše zmíněné spolu s ELIZA a GPT-4o) přísné verzi původního testu.

Ten byl založen na simultánních pětiminutových rozhovorech mezi lidským tazatelem, lidským tazatelem a modelem umělé inteligence prostřednictvím chatovacího rozhraní. Překvapením bylo, že v mnoha případech si tazatelé vybrali AI jako lidského tazatele.

Když byla chatbotům zadána konkrétní osobnost (osobnost introvertních mladých lidí se zájmem o internetovou kulturu), byl model GPT-4.5 identifikován jako člověk v 73 % případů, zatímco LLaMa-3.1 dosáhl 56 % (opět při zadání osobnosti). Když tytéž modely postrádaly přidanou osobnost, dosáhly mnohem nižší míry (36 %, resp. 38 %). Další dva modely, které byly testovány pouze „bez osobnosti“, dosáhly výrazně nižší míry při pouhé náhodě (21 % GPT-4o a 23 % ELIZA).

Je Turingův test odolný vůči lenosti?

Tento výsledek se však setkal s výhradami: podrobnější analýza rozhovorů (kterou sami autoři zveřejnili) ukazuje často banální a nezáživné interakce, jimž dominují jednoduché otázky na oblíbené televizní pořady nebo každodenní činnosti.

Jeden z komentátorů serveru Hacker News shrnul, co si po přečtení konverzací myslel:

„Účastníci se ve skutečnosti nesnažili odhalit umělou inteligenci. Chtěli svůj akademický kredit a to bylo vše.“

Jiní poukazují na to, že problém mohl být v něčem jiném: že predispozice jednat s partnery ve zdvořilosti nebo se vyhýbat nepříjemným otázkám mohla zvýhodňovat umělou inteligenci.

Obě kritiky vyvolávají zásadní debatu: pokud tazatelé nepoužívají skutečně náročné strategie, je oprávněné tvrdit, že modely oklamaly lidi? To znovu otevírá filozofickou debatu o povaze Turingova testu: měl by to být test, při němž se lidé snaží stroj odhalit, nebo stačí, aby model v typickém rozhovoru nevynikl jako umělý?

Někteří uživatelé tvrdí, že pokud je vyžadováno extrémně sofistikované dotazování (například žádost o vysvětlení vtipů nebo hluboké logické uvažování), vzdalujeme se od Turingova testu a blížíme se testu obecné umělé inteligence (AGI).

Jak však argumentují jiní uživatelé, předpoklad méně náročného kritéria zpochybňuje relevanci tohoto slavného testu, protože „dostatečně líného člověka lze vždy oklamat“.

60 let matení lidí a chatbotů

Mnozí účastníci tvrdili, že se řídili spíše tušením než logickou analýzou, přičemž nejúspěšnější strategie byly ty nejméně časté: neobvyklé výroky nebo pokusy zlomit model pomocí příkazů k útěku z vězení.

Lze však tuto lenost přičíst pouze účastníkům experimentu, nebo jde o něco obecnějšího u lidského druhu? Jako kontrolní opatření byla zařazena ELIZA, která technicky vzato ani není LLM, ačkoli jde o vůbec prvního vytvořeného chatbota a příklad rudimentární umělé inteligence z 60. let 20. století.

Její údaje byly poměrně chudé, za člověka byla zaměněna pouze ve 23 % případů. Nicméně skutečnost, že někteří stále považovali tohoto chatbota za člověka, je důkazem psychologického jevu známého jako „efekt ELIZA“, kdy mají lidé tendenci antropomorfizovat stroje.

Její tvůrce Joseph Weizenbaum před téměř 60 lety zjistil, že i jeho vlastní spolupracovníci přisuzovali ELIZE lidskou inteligenci a/nebo pocity:

„Neuvědomil jsem si, že extrémně krátké vystavení relativně jednoduchému počítačovému programu může u zcela normálních lidí vyvolat silné bludné myšlení.“

Poslední pochybnost

Kromě metodologických debat tento experiment stále vyvolává relevantní otázky: pokud se umělá inteligence dokáže vydávat za člověka, aniž by byla odhalena – byť jen nenáročným publikem – jaká rizika to představuje pro účely manipulace (podvody, dezinformace) nebo pro budoucí zaměstnání?

Kromě toho je důležité zvážit, jak tento vývoj může ovlivnit etiku umělé inteligence. S tím, jak stroje stále lépe napodobují lidské chování, vyvstávají otázky transparentnosti a odpovědnosti. Měly by například společnosti, které využívají umělou inteligenci ke komunikaci se zákazníky, jasně informovat uživatele o tom, že hovoří se strojem? Nedostatek jasnosti v tomto ohledu by mohl narušit důvěru veřejnosti v technologie umělé inteligence.

Na druhé straně je stále větším problémem dopad AI na zaměstnanost. Vzhledem k tomu, že stroje jsou stále schopnější vykonávat úkoly, které dříve vyžadovaly zásah člověka, existuje riziko, že mnoho pracovních míst bude zastaralých. To vyvolává potřebu rekvalifikace pracovní síly a zavedení politik, které podporují přechod na více automatizovaný trh práce.

Přestože je složení Turingova testu významným milníkem, je to jen jeden z kroků na cestě ke skutečně pokročilé umělé inteligenci. Vědecká a technologická komunita musí nadále zkoumat a diskutovat o důsledcích těchto pokroků, aby bylo zajištěno, že budou využívány způsobem, který bude etický a prospěšný pro společnost.