ChatGPT o3 dokáže racionálně uvažovat a blíží se k obávané singularitě

Nový model OpenAI dosáhl v prestižním testu ARC Challenge bezprecedentního výkonu, ale odborníci varují, že to ještě není AGI.

Nová verze ChatGPT, známá jako model o3, dosáhla historického milníku, když v prestižním testu uvažování ARC Challenge získala 75,7 %. Tento průlom znamená významný skok ve schopnostech umělé inteligence, který překonal očekávání vědecké komunity a přiblížil se průměrnému lidskému výkonu 84 % v těchto testech vizuálního uvažování.

Výsledky jsou ještě působivější, když se odstraní omezení výpočetního výkonu. Podle časopisu New Scientist dosáhl model o3 zvýšením výpočetních zdrojů ohromující 87,5 % efektivity, ačkoli se tím zvýšily náklady na jednu úlohu z 20 na tisíce dolarů, což překročilo limity stanovené pro získání oficiální ceny ve výši 600 000 dolarů (v přepočtu 14 506 794 korun).

Cesta k umělé superinteligenci přináší nové výzvy a očekávání

Umělá obecná inteligence (AGI) zůstává svatým grálem výzkumu umělé inteligence, a přestože model o3 představuje významný krok vpřed, odborníci zůstávají opatrní. François Chollet, tvůrce výzvy ARC, upozorňuje, že stále existují jednoduché úlohy, které systém nedokáže vyřešit, a to ani s obrovským výpočetním výkonem.

Test ARC Challenge, vytvořený v roce 2019, není dětská hra: testuje schopnost umělé inteligence najít vzory v dvojicích barevných mřížek. Zajímavé na těchto testech je, že jsou navrženy tak, aby zabránily tomu, aby je umělá inteligence dokázala vyřešit jednoduše hrubou silou, a to stanovením limitů výpočetního výkonu, který lze použít.

Závod o technologickou singularitu se stále posouvá kupředu, a přestože jsou výsledky slibné, je třeba vzít v úvahu důležité detaily. Klíčovým faktorem jsou výpočetní náklady: zatímco „polosoukromý“ test umožňuje utratit až 20 dolarů za jednu úlohu, obtížnější „soukromý“ test má limit pouze 10 centů za úlohu, což se o3 nepodařilo splnit.

Pro představu o složitosti problému uvádíme, že model o3 nedokázal vyřešit více než 100 vizuálních úloh, a to ani v případě, že OpenAI využíval obrovský výpočetní výkon. Rozdíl mezi masivním zpracováním a skutečnou inteligencí zůstává ve vědecké komunitě předmětem diskusí.

Melanie Mitchellová z Institutu Santa Fe v Novém Mexiku vznáší zajímavou kritiku: řešení těchto úloh pomocí čistého výpočetního výkonu jde proti původnímu účelu testu. Skutečným cílem je vyvinout systémy, které dokáží uvažovat podobně jako člověk, nikoliv pouze zpracovávat obrovské množství dat.

Chollet navrhl zajímavý způsob, jak rozpoznat, kdy dosáhneme skutečné AGI: bude to v okamžiku, kdy nebude možné vytvořit úlohy, které jsou snadné pro člověka, ale obtížné pro umělou inteligenci. Prozatím technologický průmysl zaznamenává zpomalení vývoje modelů AI do roku 2024 ve srovnání s explozivním pokrokem v roce 2023.

Zatímco čekáme na oficiální spuštění o3 na začátku roku 2025, organizátoři soutěže ARC Challenge již připravují druhé, náročnější kolo testování. Budoucnost slibuje být fascinující, ale prozatím zůstává skutečná obecná umělá inteligence vzdáleným cílem, který bude vyžadovat mnohem více než pouhý výpočetní výkon.