ChatGPT má konečně vlastní generátor obrázků: Je zdarma a řeší jeden palčivý problém umělé inteligence

Přesné generování textu a konzistence prvků mezi iteracemi jsou spolu s hyperrealismem hlavními novinkami. Díky této aktualizaci už GPT-4o není jen jazykový model: přidává k němu tvůrce vizuálního obsahu s kontextovým porozuměním.

Společnost OpenAI právě oznámila, že ode dneška integruje funkci generování obrázků přímo do modelu ChatGPT: uživatelé používající multimodální model GPT-4o budou moci generovat obrázky v jeho rámci, místo aby (jako dosud) používali ChatGPT jako pouhého zprostředkovatele specializovaného modelu DALL-E 3.

Změna je k dispozici všem uživatelům ChatGPT (v plánech Plus, Pro, Team a Free), stejně jako na videoplatformě Sora a brzy i prostřednictvím vývojářského API. Tato integrace umožňuje vývojářům vytvářet robustnější a kreativnější aplikace a rozšiřuje možnosti využití umělé inteligence v různých oblastech, od zábavy až po vzdělávání.

Co je GPT-4o a v čem se liší

GPT-4o, který byl původně spuštěn v květnu 2024, je „nomnimodální“ model – dokáže zpracovávat a generovat text, obrázky, zvuk a video – vycvičený k porozumění a vzájemnému propojení více informačních formátů, jeho schopnost generovat obrázky však nebyla dostupná široké veřejnosti. Tento model se vyznačuje schopností hlouběji porozumět kontextu, což mu umožňuje poskytovat odpovědi a generovat vizuální obsah, který je relevantnější a přesnější.

Přechod od modelu DALL-E 3

Dříve ChatGPT používal jako generátor obrazu DALL-E 3, difuzní model, který rekonstruoval obrazy odstraněním šumu z pixelů. GPT-4o se od této techniky odpoutává a používá autoregresní přístup, který generuje obrazy postupně (zleva doprava a shora dolů), což umožňuje větší konzistenci a přesnost, zejména při integraci textu nebo více objektů ve scéně. Tato změna metodiky zobrazování nejen zlepšuje vizuální kvalitu, ale také optimalizuje dobu zpracování, takže tvorba snímků je rychlejší a efektivnější.

Takže DALL-E je mrtvý? – Ačkoli GPT-4o nyní nahrazuje DALL-E jako výchozí zobrazovač v ChatGPT, nostalgičtí uživatelé budou mít stále přístup k DALL-E 3 prostřednictvím vlastního GPT. To uživatelům umožňuje porovnat a vybrat si model, který nejlépe vyhovuje jejich specifickým potřebám, a zachovat tak flexibilitu, která může být pro kreativní a experimentální projekty klíčová.

Klíčové možnosti generování obrazu pomocí GPT-4o

Jedním z nejoceňovanějších vylepšení je schopnost modelu vkládat do obrázků čitelný, správně umístěný text. To umožňuje vytvářet plakáty, jídelní lístky, infografiky nebo pozvánky v profesionální kvalitě. Funguje to dokonale a ukazuje to, do jaké míry vývoj modelů řeší jejich velké problémy: nejprve to byly nelidské ruce, které byly víceméně opraveny, ale deformovaný a nesrozumitelný text byl stále přítomen v mnoha obrázcích generovaných umělou inteligencí. Toto zlepšení má zásadní význam pro komerční a vzdělávací aplikace, kde je srozumitelnost textu nezbytná.

Kontextové porozumění a zpřesnění konverzace

Jako nativní součást ChatGPT dokáže GPT-4o generovat obrázky na základě historie konverzace, upravovat detaily na požádání a udržovat vizuální konzistenci napříč více iteracemi. Například postava z videohry si může zachovat svůj vizuální styl napříč různými verzemi. Tato schopnost udržovat konzistenci je užitečná zejména při vytváření sérií obrázků nebo při vývoji vizuálního narativního obsahu, kde je klíčová kontinuita.

Rozšířené možnosti manipulace s objekty

Zatímco jiné modely jsou omezeny na přesnou reprezentaci 5 až 8 objektů, GPT-4o zvládne díky výraznému zlepšení vazby prvků 10 až 20 různých prvků se složitými atributy (barvy, tvary, pozice). Tato schopnost je obzvláště cenná v aplikacích, jako je návrh komplexních scén pro videohry nebo simulace, kde je interakce mezi více prvky kritická.

Přizpůsobení stylu a fotorealismus

Model dokáže generovat obrázky v nejrůznějších stylech: od ručně kreslených skic až po hyperrealistické fotografie. Dokáže dokonce transformovat obrázky nahrané uživatelem a přizpůsobit je novému stylu nebo kontextu. Tato všestrannost v přizpůsobování stylů umožňuje uživatelům experimentovat s různými vizuálními přístupy a usnadňuje vytváření obsahu, který je v souladu s vizuální identitou značky nebo projektu.

Praktické aplikace

Nová funkce GPT-4o se neomezuje pouze na umění pro umění. Její skutečná síla spočívá v praktických aplikacích:

Grafický design a budování značky: vytváření vlastních log, bannerů a reklam.
Vzdělávání: vědecké diagramy, historické ilustrace a vizuální výukové materiály.
Vývoj videoher: důsledná vizuální iterace postav a scénářů.
Digitální marketing: obsah pro sociální sítě, prezentace a propagační akce.

Obrázky lze navíc přizpůsobit zadáním proporcí, barevných schémat (včetně hexadecimálních kódů), průhledných pozadí a mnoha dalších možností. Tyto možnosti umožňují uživatelům přizpůsobit vygenerované obrázky konkrétním potřebám a optimalizovat tak jejich použití v různých kontextech a na různých platformách.

Současná omezení

Navzdory svým pokrokům není systém dokonalý. Mezi dosud zjištěná omezení patří např:

Nežádoucí ořezávání dlouhých vertikálních obrázků (např. plakátů).
Problémy s jinými než latinskými znaky.
Velmi malý text, který se může stát nečitelným.
Potíže s úpravou konkrétních částí bez ovlivnění ostatních.

Společnost OpenAI uvádí, že aktivně pracuje na odstranění těchto problémů v budoucích aktualizacích. Společnost se zavázala model neustále vylepšovat a zapracovávat do něj zpětnou vazbu od uživatelů a technologický pokrok, aby tato omezení odstranila.

Bezpečnostní a etická opatření

GPT-4o obsahuje několik bezpečnostních opatření, která mají zabránit zneužití generování obrázků:

Metadata C2PA: všechny generované obrázky obsahují značky potvrzující jejich původ z UI.
Moderace obsahu: automatické blokování požadavků obsahujících násilí, pornografii, deepfakes nebo škodlivý obsah.

Společnost OpenAI se rozhodla pro liberálnější politiku týkající se zobrazování dospělých veřejných osobností, pokud nejsou porušeny zásady týkající se obsahu. Veřejné osobnosti, které si to přejí, mohou požádat, aby jejich zobrazení nebylo generováno, což otevírá prostor pro pozitivní využití, jako je vzdělávání, satira nebo historický obsah. Tato opatření odrážejí závazek společnosti OpenAI k zodpovědnému a etickému využívání umělé inteligence a zajišťují, aby její technologie byla využívána pro obecné blaho.