Dnešní AI svou inteligencí hravě překonává jeden test za druhým. Vědci již pracují na nových

Dnešní AI svou inteligencí hravě překonává jeden test za druhým. Vědci již pracují na nových

Existuje benchmark, který se snaží hodnotit inteligenci modelů AI s jednou zvláštností: „jeho rozlišení je extrémně obtížné pro modely AI, ale snadné pro lidské uvažování“.


V první soutěži o nejlepší skóre tohoto benchmarku (ARC-AGI) byl model OpenAI o3 (low) poražen o 75,7 % a o 87,5 % (o3 high). Společnosti OpenAI trvalo čtyři roky, než se dostala z 0 % v roce 2020 s GPT-3 na 5 % v roce 2024 s GPT-4o. A protože modely hlubokého uvažování jsou stále sofistikovanější, ARC-AGI se vrací s vylepšenou verzí svého benchmarku, která současným modelům umělé inteligence způsobí velké potíže a kterou „můžeme vyřešit i my sami“.

Překvapivě obtížný test pro AI, snadný pro lidi

V roce 2019 publikoval François Chollet – tvůrce Keras, open source knihovny pro hluboké učení, kterou přijaly více než dva miliony vývojářů – knihu „On the Measure of Intelligence“, kde představil benchmark „Abstraction and Reasoning Corpus for Artificial General Intelligence“ (ARC-AGI) pro „měření inteligence“.

Související článek

Šéf společnosti Alibaba varuje před AI: Bublina se nafukuje do nebezpečných rozměrů
Šéf společnosti Alibaba varuje před AI: Bublina se nafukuje do nebezpečných rozměrů

Generální ředitel čínského technologického gigantu varuje před nadměrnými investicemi do datových center AI, které nemají žádnou skutečnou poptávku, jež by je ospravedlnila, zatímco velké technologické společnosti nadále vynakládají miliardy.

Od té doby se etabloval jako „spolehlivý test schopností umělé inteligence“, v němž nezávislí účastníci a společnosti testují svá řešení v soutěži ARC Prize. V roce 2025 bude soutěž probíhat na základě ARC-AGI 2, který bude oproti svému předchůdci výrazně vylepšen.

Nová sada testů „byla speciálně navržena tak, aby zpochybnila uvažování modelů AI“ (ačkoli cílem je otestovat schopnosti AGI) a zároveň zachovala rovnováhu mezi její extrémní obtížností pro AI a přístupností pro lidi.

Jedním z klíčových vylepšení v ARC-AGI-2 je zvýšení počtu úloh ve všech hodnotících sadách, a to ze 100 na 120 úloh. Kromě toho byly odstraněny všechny úlohy, které by bylo možné řešit strategiemi hrubé síly nebo předem definovanými algoritmickými přístupy. Úloha se tak zaměřuje spíše na rozvoj skutečných schopností uvažování v umělé inteligenci, než aby se spoléhala na vyčerpávající řešení založená na vyhledávání nebo na specifické jazyky.

Další důležitou novinkou je začlenění testů, které se zabývají klíčovými aspekty logického myšlení, jako je symbolická interpretace, kompoziční uvažování a aplikace kontextových pravidel. Ukázalo se, že systémy umělé inteligence mají vážné potíže s přiřazováním významu symbolům, kombinováním více pravidel současně nebo přizpůsobováním svých odpovědí na základě kontextu.

Přitom tyto problémy může přirozeně řešit kdokoli. Aby byla zajištěna platnost těchto výsledků, byly všechny úlohy testovány se skutečnými lidmi v kontrolované studii, což zajišťuje, že soubory hodnocení jsou srovnatelné a statisticky spolehlivé. Ve skutečnosti, pokud jste zvědaví, můžete se „otestovat také“ tím, že budete řešit stejné hádanky, kterým čelí modely umělé inteligence s tímto srovnávacím testem.

Za tímto účelem stačí přejít na následující odkaz a vybrat úroveň obtížnosti a test (v1 a v2, a to v jednoduché i těžké verzi). Hádanky zobrazují složení obrazců, které „budeme muset vyřešit na základě uvedených příkladů“. Na webové stránce můžeme obrázky upravovat, kopírovat z příkladů, doplňovat plochy barvami a další. Jakmile máme hotové řešení, musíme ho ověřit.

Mezi změnami v soutěži 2025 došlo také k významným vylepšením. „Hlavní cena se zvýšila z 600 000 na 700 000 dolarů“ (v přepočtu kolem 16 milionů korun) pro ty, kterým se podaří překonat srovnávací kritérium, přičemž byly zachovány další ceny za nejlepší výsledek a nejlepší vědeckou publikaci. Kromě toho byly zdvojnásobeny výpočetní prostředky, které mají účastníci k dispozici, což umožňuje intenzivnější testování, aniž by byla ohrožena kvalita řešení.

Umělá inteligence čelí novým výzvám

Aby se zvýšila transparentnost a zabránilo se nadměrnému přizpůsobování, budou muset týmy zveřejnit svá řešení před obdržením konečného hodnocení neveřejného souboru úloh. Vylepšení se dočkalo také hodnocení v reálném čase na platformě Kaggle, kde bude hodnocení vycházet z polosoukromé sady testů, přičemž konečné hodnocení proběhne až na konci soutěže.

Další novinkou je prodloužení doby účasti, která nyní „trvá od března do listopadu 2025“, což poskytuje více času na výzkum a vývoj strategie.

Ukázalo se, že výzva, kterou ARC-AGI-2 představuje, je „pro současná řešení umělé inteligence nepřekonatelná“. Zatímco modely založené pouze na velkých jazykových modelech dosahují sotva 0 % výsledků, ani ta nejpokročilejší řešení, jako je o3 od OpenAI, nepřekračují 5 %. Naproti tomu každou z úloh vyřešili nejméně dva lidští účastníci na méně než dva pokusy, což poukazuje na propastný rozdíl mezi lidským uvažováním a současným algoritmickým zpracováním.

Zdroje článku:
arxiv.org

#