Nové pokročilé umělé inteligence od OpenAI slibují revoluci v myšlení pomocí obrázků

Po nečekaném obratu GPT-4.1 uvádí OpenAI na trh o3, což představuje milník ve vývoji umělé inteligence.

Tento týden byl pro OpenAI monumentální. Po představení rodiny GPT-4.1, která zanechala mnoho uživatelů v rozpacích, představila společnost vedená Samem Altmanem dva nové jazykové modely s pokročilými schopnostmi uvažování: o3 a o4-mini.

Model o3, jehož vydání se očekávalo na konci loňského roku, konečně dorazil na trh. Původně Sam Altman oznámil, že bude vydán jako samostatný produkt až po příchodu GPT-5, ale změna plánů umožnila jeho brzké vydání.

Nový přístup: Více přemýšlet než reagovat

Společnost OpenAI označila model o3 za svůj dosud nejvýkonnější model, který ve srovnání s modelem o1 vykazuje o 20 % méně významných chyb při řešení složitých úloh. Kromě toho je o4-mini nástupcem o3-mini, který je k dispozici uživatelům bezplatného ChatGPT, kteří si jej mohou aktivovat pomocí tlačítka pro uvažování.

Pokroky GPT-4.1 blednou ve srovnání s těmito novými modely, které představují významný skok vpřed. Nyní mají multimodální schopnosti a mohou integrovat nástroje, jako je webové vyhledávání, interpret jazyka Python a analýza dat. To znamená, že jediný model může samostatně provádět složité úlohy a využívat všechny nástroje, které byly dříve k dispozici pouze klasickým modelům.

Jednou z nejinovativnějších funkcí je vizuální uvažování. Dříve mohly modely analyzovat obrázky a odpovídat na otázky o nich. Nyní OpenAI zavádí koncept „myšlení s obrázky“, který modelům umožňuje dynamičtější interakci s obrázky: jejich otáčení, přibližování, oddalování, ořezávání atd.

https://twitter.com/OpenAI/status/1912560057100955661?v=2

V příkladech, které společnost představila, tato schopnost umožňuje hlubší analýzu obrázků s mnohem flexibilnějšími požadavky na výzvy. o3 a o4-mini dokáží rozpoznat text na rozmazaných obrázcích a reagovat na abstraktní požadavky na fotografii, přičemž využívají všechny dostupné nástroje k řešení složitých problémů, jako je například nalezení jízdního řádu autobusu na velkém obrázku autobusové zastávky.

Jasným příkladem je řešení problémů v každodenních situacích: studenti nahrávají fotografie svých cvičení, pořízené bez správného zarámování a s nízkou kvalitou, nebo zjišťují text na plakátu vyfotografovaném z dálky, z něhož má o3 určit, co je na něm napsáno, aniž by bylo nutné obrázek oříznout nebo určit, o jaký plakát se jedná.

OpenAI také předvedla efektivní případy použití s otázkami typu „jaké filmy zde byly natočeny?“ na fotografii okna nebo řešení hádanky, co chybí na popsaném listu papíru, který simuluje ozubená kola na řadicí páce automobilu.

Pomocí o3 dokáže OpenAI vysvětlit, že na obrázku nechybí šestka, ale písmeno R, které znamená zpátečku. Na tomto příkladu o3 demonstruje svou schopnost otáčet obrázek pro usnadnění analýzy, zvětšovat a zmenšovat, zachycovat výseče a porovnávat pozorovaný obrazec s informacemi dostupnými na internetu a uzavírá:

„Myslím, že hádanka by mohla souviset se vzorem řazení rychlostních stupňů u automobilu s manuální převodovkou. Čísla pravděpodobně představují uspořádání pětistupňové převodovky: 1 vlevo nahoru, 2 vlevo dolů, 3 uprostřed nahoru, 4 uprostřed dolů a 5 vpravo nahoru. Zpětný chod (R) je vpravo dole. Vzhledem k tomu, že hádanka se ptá na to, co chybí, mohla by odpověď znít R jako zpátečka, nikoliv 6. To dává smysl a odpovídá to schématu řazení“.

Jak už název napovídá, o4-mini je model s podobnými schopnostmi, ale menší a zaměřený na efektivitu a úsporu nákladů. V tomto smyslu, stejně jako jeho předchůdci, vyniká matematikou a kódem, ale aniž by rozbil banku, na rozdíl od o3, který k dosažení velmi pokročilého náskoku v benchmarcích spotřeboval ekvivalent tisíců dolarů API (podle testů prezentovaných v prosinci).

Hodnocení výkonu a praktické aplikace

Společnost OpenAI své modely neporovnávala s benchmarky ani výkonnostními testy jiných UI. Protože to ale ostatní, jako například Google nebo Anthropic, ve svých prezentacích dělají, můžeme víceméně pochopit, jak si o3 a o4-mini v porovnání stojí.

Ve srovnávacím testu AIME 2025 Competition Math, který měří pokročilé schopnosti matematického uvažování, je skóre následující:

o4-mini: 92,7 % přesnost
03: 88,9% přesnost
o1: 79,2% přesnost
Gemini 2.5 Pro: 86,7% přesnost
Claude 3.7 Sonnet: 49,5% přesnost
Grok 3 beta: 77,3% přesnost
Deepseek R1: 49,2% přesnost

V benchmarku SWE-Bench Verified, který měří schopnost modelů umělé inteligence řešit skutečné problémy softwarového inženýrství, to vypadá následovně:

o4-mini: 68,1% přesnost
03: 69,1% přesnost
o1: 48,9% přesnost
Gemini 2.5 Pro: 63,8% přesnost
Claude 3.7 Sonnet: přesnost 70,3 %
Deepseek R1: 49,2% přesnost

Jak vidíme, velmi slibné výsledky, zejména v soutěži AIME 2025 Math, kde malý model nesmírně vyniká nad ostatními i nad velkým Gemini 2.5 Pro. Tyto výsledky a jejich převedení do reálného použití samozřejmě závisí na mnoha faktorech, takže si budeme muset počkat na testy odborníků, abychom zjistili, jak se přizpůsobí různým potřebám. Co se týče OpenAI, je skok oproti předchozí generaci jasný.

Společnost OpenAI potvrdila, že od dnešního dne jsou ve výběru modelů ChatGPT Plus, Pro a Team k dispozici modely o3, o4-mini a o4-mini-high, které nahradily modely o1, o3-mini a o3-mini-high. A dobrá zpráva pro uživatele zdarma: před odesláním výzvy si mohou o4-mini vyzkoušet kliknutím na tlačítko „Důvod“.