Vědci zjistili, jak uvažuje AI. Studie odhalila, že nám stroje lžou

  • 7. 4. 2025
  • Zdroj obrázku: Mariia Shalabaieva / Unsplash
Vědci zjistili, jak uvažuje AI. Studie odhalila, že nám stroje lžou

Dvojice článků publikovaných odborníky ze společnosti Anthropic odhaluje, jak AI přemýšlí a proč nás občas klame.


Před rokem jsme vás informovali o tom, že sedmá výroční zpráva Stanfordovy univerzity o umělé inteligenci odhalila, že umělá inteligence je již téměř ve všem lepší než člověk a rozdíl mezi AI a lidstvem se neustále zvětšuje. Nejnovější verze nejpopulárnějších chatbotů, jako je ChatGPT 4.5, Gemini 2.5 nebo Claude 3.7 Sonnet, se zaměřují především na integraci nových technologií, které jsou schopny napodobit lidské uvažování. Výzkumníci ze společnosti Anthropic, která stojí za projektem Claude, zjistili, jak umělá inteligence skutečně přemýšlí a proč nás někdy klame.

Odhalení velmi střeženého tajemství umělé inteligence

Tyto dvě techniky si vypůjčily koncepty z neurovědy a pohlížejí na modely AI jako na obdobu biologických systémů. To umožnilo expertům společnosti Anthropic zjistit, že modely AI provádějí procesy podobné těm, které provádějí lidské neurony, aby mohly plnit úkoly požadované uživateli.

Kromě toho tito výzkumníci zjistili, že modely umělé inteligence jsou sofistikovanější, než se dříve předpokládalo. Například Claude před psaním básní provádí předběžné plánování. Když byl Claude požádán, aby složil rýmovaný kuplet, určil možná rýmovaná slova pro konec dalšího řádku ještě předtím, než začal psát, což je detail, který překvapil i samotné vědce z Anthropicu. Podle vědce Joshua Baxtona:

Související článek

Letadlo řízené umělou inteligencí je lepší než s lidským pilotem, tvrdí podnikatel
Letadlo řízené umělou inteligencí je lepší než s lidským pilotem, tvrdí podnikatel

Investor a poradce pro národní bezpečnost tvrdí, že autonomní stíhací letouny překonají lidi a navždy změní pravidla letecké války.

„Tohle se pravděpodobně děje všude. Kdybyste se mě zeptali před tímto výzkumem, hádal bych, že model myslí dopředu v různých souvislostech. Ale tento příklad poskytuje nejpřesvědčivější důkaz této schopnosti, jaký jsme kdy viděli.“

Odborníci společnosti Anthropic také našli důkaz, že Claude provádí proces uvažování v několika krocích. Například poté, co se chatbota zeptali: „Hlavním městem státu, v němž se nachází Dallas, je?“ Chatbot nejprve aktivoval několik funkcí, které ho přivedly k odpovědi „Texas“, a poté na základě této reprezentace určil, že správnou odpovědí je „Austin“.

Když se například zeptáte Clauda, jaké je antonymum slova „malý“ v různých jazycích, chatbot použije stejné vnitřní funkce reprezentující „protiklady a malost“ bez ohledu na vstupní jazyk.

Proč nám AI lže?

To však není vše, protože výzkum Anthropic odhalil případy, kdy Claudovo uvažování neodpovídá tomu, co tvrdí, tj. lže. Například při předložení složitých matematických problémů, jako je výpočet kosinusových hodnot velkých čísel, model UI někdy tvrdí, že postupuje podle výpočetního postupu, který se neodráží v jeho vnitřní činnosti.

„Jsme schopni rozlišit případy, kdy model skutečně provádí kroky, které tvrdí, že provádí, případy, kdy skládá své úvahy bez ohledu na pravdu a případy, kdy pracuje zpětně z nápovědy poskytnuté člověkem.“

V těchto případech Claude pracuje zpětně a sestavuje řetězec úvah, které vedou k dané odpovědi, místo aby pracoval dopředu z prvních principů.

Výzkumný tým také zjistil, že Claude při překladu zvládá více jazyků najednou. Místo toho, aby měl samostatné systémy pro angličtinu, francouzštinu a čínštinu , překládá pojmy do společné abstraktní reprezentace a teprve poté generuje odpovědi požadované uživatelem.

Skupina vědců z Anthropicu, včetně Joshuy Batsona, nedávno publikovala dvojici článků s názvy Circuit Tracing: Revealing Computational Graphs in Language Models a On the Biology of a Large Language Model, v nichž vysvětlují, že vyvinuli dvě nové techniky pro analýzu vnitřního fungování jazykových modelů umělé inteligence, jako je Claude, které nazvali „circuit tracing“ a „attribution graphs“.

Tyto techniky jsou revoluční, protože umožňují výzkumníkům vizualizovat a pochopit, jak jazykové modely zpracovávají informace. Sledování obvodů pomáhá identifikovat vnitřní vazby, které modely používají k vyvozování závěrů, zatímco atribuční grafy ukazují, jak je rozložena důležitost jednotlivých slov nebo pojmů v rozhodovacím procesu modelu. Toto hlubší pochopení by mohlo vést k výraznému zlepšení přesnosti a transparentnosti modelů umělé inteligence, což by v budoucnu umožnilo bezpečnější a efektivnější využívání těchto technologií.

Pochopení toho, jak umělé inteligence myslí a uvažují, má zásadní význam pro jejich vývoj a odpovědné používání. Očekává se, že jak bude tento výzkum postupovat, budou modely UI stále transparentnější a spolehlivější, což by mohlo zmírnit některá rizika spojená s jejich používáním, jako jsou dezinformace nebo algoritmická zaujatost.

Závěrem lze říci, že ačkoli umělá inteligence zůstává mocným nástrojem s neuvěřitelným potenciálem, je nezbytné pokračovat ve výzkumu a vývoji metod, které umožní lépe porozumět jejímu vnitřnímu fungování. Jedině tak budeme schopni zajistit, aby byly tyto technologie využívány eticky a způsobem, který je pro společnost přínosný.

Zdroje článku:
techcrunch.com

#