Google vnáší do světa AI nový vítr, kterým smete prvenství OpenAI

  • 19. 12. 2024
  • Zdroj obrázku: AS Photography / Pexels
Google vnáší do světa AI nový vítr, kterým smete prvenství OpenAI
Veo 2 a Image 3: Google překvapuje novými nástroji pro tvorbu videí a obrázků s umělou inteligencí.

V rámci dalšího úderu Googlu proti generativním nástrojům umělé inteligence OpenAI (protože OpenAI poráží Google v oblasti webového vyhledávání) představila společnost z Mountain View nejnovější verze svých modelů Veo a Imagen… a odhalila novou platformu pro remixování obrázků.

Veo 2: filmový realismus

Nová verze modelu Veo, nazvaná Veo 2, je model pro generování videa s bezprecedentní kvalitou a vizuálními detaily: tento model, který dokáže vytvářet videa až v rozlišení 4K, nejenže překonává komerční konkurenty (např. Sora) v testech kvality a dodržování pokynů, ale také zahrnuje pokročilejší porozumění reálné fyzice a nuancím lidského pohybu.

Nejdůležitější vlastnosti Veo 2:

Související článek

Umělá inteligence se tváří superchytře, nedokáže ale to, co už dnes umí i malé děti
Umělá inteligence se tváří superchytře, nedokáže ale to, co už dnes umí i malé děti

Současné generativní modely AI jsou jistě výkonné, ale mají také své problémy. Některé z nich totiž nejsou schopny číst analogové hodiny.

  1. Filmová kvalita a přesnost – Veo 2 rozumí „filmovému jazyku“ a umožňuje zadávat styly, objektivy, filmové efekty a úhly kamery. Dokáže například vygenerovat nízký sledovací záběr nebo detailní záběr s upravenou hloubkou ostrosti.
  2. Snížení „aliasingu“: Tento častý problém videomodelů, jako je generování nežádoucích nebo zkreslených detailů, byl ve Veo 2 výrazně minimalizován.
  3. Závazek k zabezpečení: Všechny výstupy Veo 2 obsahují neviditelný vodoznak SynthID, který zabraňuje dezinformacím a zajišťuje identifikaci obsahu generovaného umělou inteligencí.

Image 3

Image 3, nejpokročilejší model generování obrázků společnosti Google, byl také výrazně vylepšen. Tento model nyní vytváří obrázky s větší přesností stylu a detailů, od fotorealismu po anime, impresionismus a abstraktní umění. Google tvrdí, že v testech s lidskými testery Image 3 překonal všechny své komerční konkurenty v kompozici, jasnosti a dodržení zadaného textu.

Whisk: Nový rozměr vizuální kreativity

Kromě Veo 2 a Image 3 Google spustil experimentální nástroj Whisk, který uživatelům umožňuje intuitivně remixovat obrázky a styly: uživatelé musí poskytnout tři obrázky, jeden pro zadání tématu, jeden pro scénu a jeden pro styl.

Google však upozorňuje, že tato umělá inteligence bere v úvahu pouze prvky, které mají zachytit podstatu obrázků, které uživatel do nástroje Whisk nahrál, aniž by je doslovně kopírovala… i když po vygenerování obrázku poskytuje uživatelům funkci „Review and Edit“.

Jak získat přístup k těmto nástrojům

Pro vyzkoušení těchto nástrojů se uživatelé mohou zaregistrovat na čekací listině VideoFX, ImageFX a, pouze pro uživatele z USA, Whisk.

Zdroje článku:
deepmind.google

#