V roce 2025 už není generování obrázků pomocí umělé inteligence žádnou novinkou. Technologie však stále postupuje mílovými kroky. A společnost Google se stala klíčovým hráčem v jednom (nebo více) z těchto kroků díky uvedení Gemini Flash 2.0, nástroje pro úpravu obrázků, který mění pravidla hry.
Ačkoli na trhu již existují jiné produkty, které nabízejí působivé výsledky (MidJourney, Flux atd.), Gemini Flash 2.0 se odlišuje svou všestranností, která zdaleka přesahuje pouhé generování.
Revoluce v multimodalitě
V prostředí, kde se většina nástrojů pro generování obrázků zaměřuje na vytváření obrázků z minima textu, je model Gemini Flash 2.0 společnosti Google milníkem v nabídce multimodálních funkcí nativně.
Co to znamená? Znamená to, že tento systém dokáže nejen generovat obrázky z textových popisů, ale je také schopen přijímat externí obrázky jako vstup a následně je upravovat nebo kombinovat, čímž přidává nebývalou vrstvu komplexnosti a kreativity.
OpenAI sice představila „akademickou práci“ s podobným konceptem jako funkci GPT-4o, ale nikdy ji nezpřístupnila veřejnosti. Vznikla tak mezera, kterou Google využil v Gemini Flash 2.0, který se stává „chytrým Photoshopem“ schopným provádět úpravy na profesionální úrovni bez nutnosti složitého softwaru.
Vyzkoušet si jej můžete již nyní
Jednou z vlastností, které činí Gemini Flash 2.0 ještě atraktivnějším, je jeho dostupnost. Společnost Google zpřístupnila platformu Google AI Studio veřejnosti, kde nyní může kdokoli bezplatně experimentovat s touto technologií. Stačí v rozhraní vybrat experimentální verzi s generováním obrázků modelu „Gemini 2.0 Flash“ a začít testovat jeho funkce.
Gemini Flash 2.0 vyniká tím, že umožňuje uživatelům upravovat konkrétní prvky obrázku, aniž by měnili zbytek (pozadí, osvětlení nebo objekty ve scéně), a to vše prostřednictvím textových příkazů. A úpravy se neomezují jen na povrchové úpravy: tato AI nám umožňuje upravovat i detailnější prvky, jako jsou proporce objektu nebo umístění prvků v kompozici.
V případě, že se jedná o profesionální nástroj, je možné jej použít i pro jiné účely. Ve světě designu a kreativity může tento nástroj změnit proces tvorby prototypů. Designér může například nahrát obrázek místnosti a experimentovat s různými konfiguracemi nábytku, barev a dekorací, aniž by musel používat náročný software nebo procházet zdlouhavými procesy úprav.
Má to však svá technická omezení. V některých případech není výsledek tak přesný, jak by se dalo očekávat, a výsledný obrázek vykazuje určitá zkreslení. Takové omezení je však pochopitelné vzhledem k tomu, že Gemini Flash 2.0 je odlehčenou verzí modelu, která má poskytovat rychlé výsledky (v budoucnu se očekává vydání robustnější verze Gemini 2.0 Pro).
Kontroverzní odstranění vodoznaků
Hodně rozruchu vyvolalo také nečekané použití této umělé inteligence, ve kterém se ukázala jako pozoruhodně zdatná: odstraňování vodoznaků, jak dokládá toto vlákno na Redditu. Nástroje jako Watermark Remover.io již umožňují odstraňování vodoznaků z obrázků od společností, jako je Shutterstock, ale zdá se, že pokročilé schopnosti Gemini 2.0 Flash překonávají předchozí možnosti.
To by však mohlo mít právní důsledky: placené platformy, jako je Getty Images, spoléhaly na používání vodoznaků jako na prostředek ochrany autorských práv svých digitálních aktiv a schopnost Gemini 2.0 Flash odstraňovat vodoznaky by mohla tyto společnosti donutit přehodnotit své bezpečnostní strategie.
Společnost Google zatím neposkytla jasnou odpověď na otázku, zda v Gemini 2.0 Flash zavede přísnější omezení týkající se takovýchto záležitostí nebo vytváření snímků veřejných osobností. Ne že by takové kontroly neexistovaly, ale nezdá se, že by byly příliš robustní.
Kromě toho vodoznaky představují etické a právní dilema. Technologie Gemini Flash 2.0 by mohla usnadnit porušování autorských práv, což by mohlo vést k právním sporům a změnám v regulaci používání AI při úpravě obrázků. Obsahové společnosti mohou být nuceny hledat nové způsoby ochrany svých digitálních aktiv, které by mohly zahrnovat implementaci pokročilejších ochranných technologií nebo změny licenčních politik.
V oblasti ochrany soukromí vyvolává obavy také schopnost Gemini Flash 2.0 generovat snímky veřejných osobností. Ačkoli společnost Google zavedla určitá omezení, aby zabránila zneužití této technologie, schopnost vytvářet falešné obrazy známých osob by mohla mít významné důsledky pro soukromí a pověst jednotlivců. To podtrhuje potřebu jasného a účinného regulačního rámce pro používání umělé inteligence při úpravě snímků.