Google vnáší do světa AI nový vítr, kterým smete prvenství OpenAI

  • 19. 12. 2024
  • Zdroj obrázku: AS Photography / Pexels
Google vnáší do světa AI nový vítr, kterým smete prvenství OpenAI
Veo 2 a Image 3: Google překvapuje novými nástroji pro tvorbu videí a obrázků s umělou inteligencí.

V rámci dalšího úderu Googlu proti generativním nástrojům umělé inteligence OpenAI (protože OpenAI poráží Google v oblasti webového vyhledávání) představila společnost z Mountain View nejnovější verze svých modelů Veo a Imagen… a odhalila novou platformu pro remixování obrázků.

Veo 2: filmový realismus

Nová verze modelu Veo, nazvaná Veo 2, je model pro generování videa s bezprecedentní kvalitou a vizuálními detaily: tento model, který dokáže vytvářet videa až v rozlišení 4K, nejenže překonává komerční konkurenty (např. Sora) v testech kvality a dodržování pokynů, ale také zahrnuje pokročilejší porozumění reálné fyzice a nuancím lidského pohybu.

Nejdůležitější vlastnosti Veo 2:

Související článek

ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání
ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání

Po obrovském úspěchu aplikace ChatGPT navrhla skupina Španělů nástroj pro WhatsApp s názvem LuzIA, který využívá konverzačního bota OpenAI. Díky němu můžete vědět, co říká audio, aniž byste ho museli poslouchat, protože má možnost přepisu, ke kterému je třeba přidat další výhody, jako je design obrázku nebo všechny odpovědi poskytované ChatGPT. A po dlouhém čekání samotná společnost OpenAI oznámila, že nyní můžete ChatGPT používat v rámci aplikace WhatsApp.

  1. Filmová kvalita a přesnost – Veo 2 rozumí „filmovému jazyku“ a umožňuje zadávat styly, objektivy, filmové efekty a úhly kamery. Dokáže například vygenerovat nízký sledovací záběr nebo detailní záběr s upravenou hloubkou ostrosti.
  2. Snížení „aliasingu“: Tento častý problém videomodelů, jako je generování nežádoucích nebo zkreslených detailů, byl ve Veo 2 výrazně minimalizován.
  3. Závazek k zabezpečení: Všechny výstupy Veo 2 obsahují neviditelný vodoznak SynthID, který zabraňuje dezinformacím a zajišťuje identifikaci obsahu generovaného umělou inteligencí.

Image 3

Image 3, nejpokročilejší model generování obrázků společnosti Google, byl také výrazně vylepšen. Tento model nyní vytváří obrázky s větší přesností stylu a detailů, od fotorealismu po anime, impresionismus a abstraktní umění. Google tvrdí, že v testech s lidskými testery Image 3 překonal všechny své komerční konkurenty v kompozici, jasnosti a dodržení zadaného textu.

Whisk: Nový rozměr vizuální kreativity

Kromě Veo 2 a Image 3 Google spustil experimentální nástroj Whisk, který uživatelům umožňuje intuitivně remixovat obrázky a styly: uživatelé musí poskytnout tři obrázky, jeden pro zadání tématu, jeden pro scénu a jeden pro styl.

Google však upozorňuje, že tato umělá inteligence bere v úvahu pouze prvky, které mají zachytit podstatu obrázků, které uživatel do nástroje Whisk nahrál, aniž by je doslovně kopírovala… i když po vygenerování obrázku poskytuje uživatelům funkci „Review and Edit“.

Jak získat přístup k těmto nástrojům

Pro vyzkoušení těchto nástrojů se uživatelé mohou zaregistrovat na čekací listině VideoFX, ImageFX a, pouze pro uživatele z USA, Whisk.

Zdroje článku: deepmind.google

#