Všichni používají GPT-4o k úpravě profilových fotek, jeho skutečná síla ale spočívá jinde

  • 30. 3. 2025
  • Zdroj obrázku: iwatchwater / Depositphotos
Všichni používají GPT-4o k úpravě profilových fotek, jeho skutečná síla ale spočívá jinde

Nový model generování obrázků je nyní samoregenerační, aby poskytoval fotorealističtější obrázky.


Pro umělou inteligenci se může zdát vygenerování obrazu sklenice naplněné až po okraj jako jednoduchý úkol. Skutečnost je však taková, že až dosud to byla velká výzva, mimo jiné kvůli omezenosti jejích tréninkových dat. Teprve s novou generací modelu GPT-4o, který se vyznačuje velkolepými snímky Studia Ghibli, bylo tohoto úspěchu konečně dosaženo.

Za každou umělou inteligencí stojí databáze s velkým množstvím informací, získaných v procesu trénování. Až dosud se umělá inteligence spoléhala na četné snímky brýlí, které byly plné jen ze dvou třetin, což podmiňovalo výsledky. Díky tomu téměř nebyla schopna vygenerovat zcela plnou sklenici, protože neprošla potřebným školením, aby věděla, jak takový scénář reprezentovat.

ChatGPT se podařilo překonat klíčovou výzvu

GPT-4o je tu proto, aby to změnil. Nyní bude nejen reprodukovat vzory naučené během svého tréninku, ale také lépe porozumí výzvě, kterou uživatel zadá, a pokusí se ji interpretovat pružněji. Abychom pochopili, proč se to podařilo, je třeba nahlédnout do „technické dokumentace poskytnuté společností OpenAI“ jejího modelu. Právě tam nás příjemně překvapí: máme co do činění s autoregresním modelem generování obrazu. Tento přístup umožňuje umělé inteligenci zlepšit její schopnost generovat obrázky, které jsou nejen přesnější, ale také kreativnější.

Související článek

Psychologická AI terapie dostává zelenou. Má slibné předpoklady uspět
Psychologická AI terapie dostává zelenou. Má slibné předpoklady uspět

Průkopnický výzkum Dartmouthské univerzity ukazuje, že terapie s pomocí umělé inteligence může výrazně snížit příznaky deprese, úzkosti a poruch příjmu potravy.

Jak vysvětluje společnost Amazon „na svých webových stránkách AWS“, autoregresní model technicky využívá variaci lineární regresní analýzy k předpovídání další sekvence ze zadaného rozsahu proměnných. V praxi to znamená, že generuje obrázky pixel po pixelu a o každém novém pixelu rozhoduje na základě všech předchozích. Tato metoda je podobná metodě používané při generování textu, kdy je každé slovo předpovídáno na základě předchozích, což umožňuje větší konzistenci konečného výsledku.

Abychom ji lépe pochopili, můžeme si představit hádanku. Abyste ji dobře složili, musíte hledat dílky, které zapadají do těch, které jste umístili. Přesně to nyní dělá GPT-4o: rozhoduje o prvním pixelu, který má vygenerovat, a poté sestaví konečný obrázek na základě toho, co již vytvořil. Tento přístup nejenže zlepšuje kvalitu obrázků, ale také umožňuje umělé inteligenci lépe se přizpůsobit různým vizuálním stylům a kontextům.

Společnost OpenAI má opět náskok před konkurencí

Díky tomuto systému generování je dosaženo mnohem větší kontroly nad výstupem, což vede k ucelenějším a fotorealističtějším obrazům. Právě to je pro OpenAI klíčový rozdíl oproti jejím předchozím modelům. Kromě toho vyzdvihuje také lepší integraci textu do generovaných obrázků. Tato schopnost je klíčová v aplikacích, kde musí text a obraz efektivně spolupracovat, například v reklamě a grafickém designu.

DALL-E 3 například touto schopností nedisponoval. Spoléhal se pouze na tréninková data uložená ve své databázi. Pokud neměl k dispozici příklady zcela naplněné sklenice vína, jednoduše ji nedokázal správně vygenerovat a vypisoval verzi, kterou znal. To podtrhuje význam autoregresních modelů, které mohou překonat omezení tréninkových dat díky dynamičtějšímu a adaptivnějšímu přístupu.

Zdroje článku:
openai.com

#