AI od Googlu generuje obrázky, aniž bychom je museli definovat v textu

Nástroj, který nám má usnadnit generování obrázků pomocí umělé inteligence.

Od roku 2022, kdy do našich životů vtrhly ChatGPT a DALL-E, se exponenciálně objevují nástroje založené na generativní umělé inteligenci. Za pouhé dva roky se toho hodně změnilo a podle toho, jak se vyvíjíme, to vypadá, že jsme ještě nic neviděli.

V rámci experimentálních nástrojů společnosti Google nás zaujal zejména nástroj Whisk. Tato nová hračka od společnosti nám umožňuje smíchat několik obrázků a dát nám výsledek, který přebírá podstatu fotografií, které jsme mu nabídli. Tento nástroj je nyní k dispozici ve 100 nových zemích.

Evropa stále čeká

Existuje mnoho nástrojů pro generování obrázků pomocí podnětů. DALL-E, Stable Diffusion nebo Midjourney otevřely cestu a od té doby známe nespočet webových stránek a platforem, které tento typ nástroje integrují do svých služeb. Dnes má podobný nástroj integrovaný také každý, kdo má mobilní telefon nebo počítač, a to díky službám jako Google Gemini, ChatGPT, Copilot atd.

Tentokrát se však Google chtěl odklonit od výzev a nabídnout nástroj, který se používá ještě snadněji. Nebudete muset nic psát, ale stačí vybrat několik obrázků, které smícháte a získáte výsledek, který vystihuje podstatu všech těchto obrázků.

Google Whisk zatím není v Evropě k dispozici, ale můžeme si ho vyzkoušet, pokud použijeme VPN. Whisk používá dva motory umělé inteligence. První, Gemini, překládá obrázky, které uživatel nahraje, do velmi podrobných popisů. Za druhé je Image 3 kombinací námětu, pozadí a stylu přetváří v nové výtvory.

K tomu stačí přetáhnout obrázky do nástroje a definovat předmět, scénu a styl. Důležité je, kam obrázek zadáte, protože to bude klíčem k získání výsledku, který bude odpovídat tomu, co hledáte. Poté umělá inteligence vygeneruje varianty našeho mixu, a pokud se nám nelíbí, můžeme výsledek vždy upřesnit pomocí textových pokynů. Kromě toho můžeme jako referenci použít některé obrázky se třemi předdefinovanými styly: samolepka, lesklý kolíček a plyš.

Whisk není zamýšlen jako profesionální fotografický nástroj, ale jako způsob, jak může uživatel experimentovat s umělou inteligencí a generováním obrázků mnohem jednodušším způsobem a bez zadávání textu. I když má určitá omezení a výsledky nemusí být vždy přesvědčivé, přesto je to zajímavý přístup, který společnost Google s tímto nástrojem zvolila.