Společnost Anthropic analyzovala 10 různých chování Clauda a tvrdí, že její zjištění nám pomohou lépe porozumět dalším AI.
Výzkumníci ze společnosti Anthropic, která se zabývá umělou inteligencí neboli AI a která je tvůrcem Claude, tvrdí, že se jim podařil „zásadní průlom v pochopení“, jak přesně fungují velké jazykové modely (LLM). Konkrétně tvrdí, že nyní mohou lépe porozumět jejich černým skříňkám.
Jedním z problémů nástrojů umělé inteligence, které používáme a které jsou založeny na velkých jazykových modelech (LLM), je to, že tyto modely jsou černé skříňky. Můžeme vědět, jaké instrukce jim dáváme a „jaké výsledky produkují, ale jak přesně dospějí ke konkrétní odpovědi, je záhadou“, a to i pro výzkumné pracovníky a vývojáře různých řešení umělé inteligence, která často používáme.
Například v případě společnosti Google její generální ředitel Sundar Pichai již v minulosti vysvětlil, že „v oboru říkáme černá skříňka, když něčemu plně nerozumíme“. To znamená, že ani její tvůrci nedokážou dost dobře říci, proč umělá inteligence něco udělala, proč došlo k chybě v procesu vedoucímu k výsledku. V případě problému černé skříňky je obtížné předpovědět, jaká je pravděpodobnost, že model poskytne chybnou informaci.
Jak na konci roku 2023 uvedl časopis Scientific American, černé skříňky umělé inteligence označují vnitřní fungování „systémů umělé inteligence, které jsou pro uživatele neviditelné“: umělá inteligence „může poskytovat informace a získávat výsledky, ale nemůže prozkoumat kód systému nebo logiku, která vedla k výsledku.
Nyní Anthropic tvrdí, že má v této otázce více jasno. Firma provedla výzkum, který nabízí způsob, jak některé z těchto problémů vyřešit, a za tímto účelem vědci vytvořili nástroj pro dešifrování toho, jak LLM myslí. Tento výzkum je užitečný pro pochopení jejich nástrojů, stejně jako jakékoli jiné umělé inteligence.
Co Anthropic analyzoval
To, co výzkumníci společnosti Anthropic vytvořili pro pochopení AI, se v podstatě podobá skenům fMRI, které „neurologové používají ke skenování mozků lidských výzkumných subjektů“ a zjišťují, které oblasti mozku zřejmě hrají nejdůležitější roli v různých aspektech poznávání.
Po vynalezení tohoto nástroje podobného fMRI jej společnost Anthropic aplikovala na model Claude 3.5 Haiku společnosti Anthropic. Přitom se jim „podařilo vyřešit několik klíčových otázek o tom, jak Claude funguje“, a na základě sdílených informací se domnívají, že jej lze použít pro většinu LLM.
Vědci v Anthropicu a dalších centrech studují velké lingvistické modely, jako by šlo o přírodní jevy, a ne o počítačové programy vytvořené člověkem. Je to proto, že modely jsou trénovány, nikoliv programovány, jak vysvětluje Massachusettský technologický institut (MIT).
Chtěli například vědět, pokud Claude umí mluvit desítkami jazyků, který jazyk ve svých procesech používá nejčastěji. Také se ptali, jak Claude formuluje text, zda se soustředí pouze na předvídání dalšího slova, nebo zda vůbec plánuje.
Na druhé straně se rozhodli nahlédnout do Claudova nitra 3.5 Haiku a provedli hloubkové studie jednoduchých úloh reprezentujících deset klíčových chování modelu, včetně používání jazyka a toho, jak rozvíjí texty.
Další z jejich testů byl založen na porozumění tomu, jak provádět matematické výpočty a vědci demonstrovali pomocí grafu složitý proces, který Claude používá k provádění matematických výpočtů a získávání výsledků.
Co Anthropic zjistil
Jak uvádí MIT, Anthropic u Clauda analyzoval 10 různých způsobů chování. Jedním z nich je používání různých jazyků. Má Claude část, která mluví francouzsky, a část, která mluví čínsky, a tak dále, zněla jedna z položených otázek.
Tým zjistil, že Claude používal nezávislé složky jakéhokoli jazyka, aby odpověděl na otázku nebo vyřešil problém, a při odpovědi pak zvolil konkrétní jazyk. Otázku co je opakem slova malý mu položili v angličtině, francouzštině a čínštině a zjistili, že Claude při odpovědi nejprve použije komponenty nezávislé na jazyce.
Poté si k odpovědi vybere konkrétní jazyk. To naznačuje, že velké jazykové modely se mohou naučit věci v jednom jazyce a použít je v jiných jazycích.
Anthropic také pozoroval, jak Claude řeší jednoduché matematické problémy. Tým zjistil, že model si zřejmě vyvinul vlastní vnitřní strategie, odlišné od těch, které viděl ve svých tréninkových datech.
Třetí úlohou, kterou Anthropic studoval, bylo psaní básní. Výzkumníci chtěli zjistit, zda model jednoduše improvizuje a předpovídá jedno slovo za druhým. To se však nestalo a oni zjistili, že Claude se nějakým způsobem dívá dopředu a vybírá slovo na konci dalšího řádku.
Podle společnosti: Tato zjištění jsou zajímavá nejen z vědeckého hlediska, ale jsou významným pokrokem na cestě k našemu cíli, kterým je pochopení systémů umělé inteligence a zajištění jejich spolehlivosti.
Kromě toho firma uvádí, že si klade za cíl a doufá, že se ukáží jako užitečné i pro další skupiny a potenciálně i v jiných oborech: například techniky interpretovatelnosti byly použity v oborech, jako je lékařské zobrazování a genomika, protože pitvání vnitřního fungování modelů vycvičených pro vědecké aplikace může odhalit nové poznatky ve vědě.
Společnost byla překvapena mnoha zjištěními
Společnost Anthropic ve svých závěrech uvádí, že „byla překvapena mnoha svými zjištěními. Například v případové studii poezie jsme si dali za cíl ukázat, že model neplánuje dopředu, a zjistili jsme, že ano“.
Dalším příkladem je, že v reakci na příklad útěku z vězení jsme zjistili, že model rozpoznal, že byl požádán o nebezpečné informace dlouho předtím, než byl schopen přesměrovat konverzaci.
Přestože je firma přesvědčena, že její zjištění jsou nyní velmi užitečná pro tvůrce dalších umělé inteligence a pro další objasnění toho, jak vypadá celý proces, který vede k výsledkům, uvědomujeme si omezení našeho současného přístupu. Dokonce i u krátkých a jednoduchých narážek naše metoda zachycuje pouze zlomek celkového výpočtu prováděného Claudem a mechanismy, které vidíme, mohou mít některé artefakty založené na našich nástrojích, které neodrážejí to, co se děje v základním modelu.
Říká, že „v současné době trvá několik hodin lidského úsilí, než pochopíme obvody, které vidíme, a to i ve směrech s pouhými desítkami slov.Abychom se dostali k tisícům slov, která podporují složité myšlenkové řetězce, jež moderní modely používají, budeme muset zlepšit jak metodu, tak (možná s pomocí umělé inteligence) způsob, jakým dáváme smysl tomu, co s její pomocí vidíme“.
Co se děje v OpenAI a Google s černými skříňkami
V červnu loňského roku udělala společnost OpenAI významný krok vpřed ve výzkumu umělé inteligence, když objevila způsob, jak lépe porozumět fungování svých jazykových modelů. Konkrétně firma, která vytvořila ChatGPT, vyvinula nové metodiky, které jí umožňují škálovat její řídké autoenkodéry na desítky milionů funkcí v pokročilých modelech AI.
Jak tehdy vysvětlila společnost OpenAI, nervové aktivace modelů mají nepředvídatelné vzorce, které znesnadňují jejich studium. Přišly řídké kodéry, aby vnesly trochu světla. Dokázali z modelů získat desítky milionů funkcí, aby jim lépe porozuměli. Od června 2024 však OpenAI nesdílí žádné nové relevantní informace na toto téma.
Pokud jde o společnost Google, její vlastní vedoucí pracovníci otevřeně vysvětlili, že je normální, že nerozumíme všem procesům, kterými umělá inteligence dospívá k výsledku. V dubnu 2023 odborníci společnosti Google vysvětlili, že nástroje AI společnosti se učí dovednostem, které se od nich neočekávaly.
Například program umělé inteligence společnosti Google se po zadání dotazu v jazyce Bangladéše, k jehož znalosti nebyl vyškolen, sám přizpůsobil. Na to se tazatel CBS zeptal: „Vy plně nerozumíte tomu, jak to funguje, a přesto jste to dali k dispozici společnosti?“ Generální ředitel Sundar Pichai odpověděl, že o nic nejde, a prohlásil: „Myslím, že ani my plně nerozumíme tomu, jak funguje lidská mysl“.
Složitost černých skříněk v umělé inteligenci
Termín „černá skříňka“ v umělé inteligenci odkazuje na obtížnost pochopení toho, jak modely umělé inteligence dospívají ke svým závěrům. Jedná se o běžný problém při vývoji hlubokých neuronových sítí, což jsou modely AI, které napodobují fungování lidského mozku prostřednictvím vrstev vzájemně propojených uzlů. Každý uzel provádí výpočty a předává informace dalším uzlům, ale přesný proces, kterým se přijímají rozhodnutí, zůstává pro výzkumníky do značné míry záhadou. Podle článku v časopise Nature je tato netransparentnost jednou z hlavních překážek důvěry a přijetí umělé inteligence v kritických aplikacích.
Snahy o rozluštění těchto černých skříněk zahrnují vývoj technik interpretovatelnosti a vysvětlitelnosti, jejichž cílem je učinit modely AI srozumitelnějšími pro člověka. To má zásadní význam v odvětvích, jako je medicína, kde rozhodnutí AI mohou mít přímý dopad na životy lidí. Článek v časopise Artificial Intelligence zdůrazňuje, že interpretovatelnost nejen zvyšuje důvěru uživatelů, ale také pomáhá identifikovat a korigovat zkreslení v modelech AI.