Sora AI k nám zatím nedorazila, zaujmout Čechy tak zkouší konkurence

  • 15. 12. 2024
  • Zdroj obrázku: Google DeepMind / Pexels
Sora AI k nám zatím nedorazila, zaujmout Čechy tak zkouší konkurence

Oči všech se stále upírají na OpenAI, ale Google ukazuje větší ambice.


V posledních dnech nabídli OpenAI i Google novinky o svých hlavních AI: ChatGPT (a Sora) na jedné straně a Gemini na straně druhé. Zatímco společnost vedená Samem Altmanem drží v závodě o umělou inteligenci prvenství, Google je povinen být ambicióznější a překonat laťku nastavenou svým rivalem. A vše nasvědčuje tomu, že tentokrát zaútočí Google, kterému se díky uvedení Gemini 2.0 Flash podaří označit milník ve vývoji multimodální AI (kombinace textu, obrazu, videa a zvuku v reálném čase) a nově definovat způsob, jakým komunikujeme s technologiemi. Přitom samozřejmě také zintenzivňuje konkurenční boj mezi oborovými giganty.

Gemini 2.0 Flash: multimodální revoluce v reálném čase

Uvedení Gemini 2.0 Flash představuje změnu paradigmatu v oblasti umělé inteligence. Uživatelé nyní mohou v reálném čase komunikovat s videem pořízeným z mobilního telefonu, což jsme dříve viděli pouze v ukázkách. Prostřednictvím služby Google AI Studio si tuto technologii, která slibuje revoluční využití ve vzdělávání, tvorbě obsahu a dalších oblastech, může vyzkoušet každý.

Související článek

ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání
ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání

Po obrovském úspěchu aplikace ChatGPT navrhla skupina Španělů nástroj pro WhatsApp s názvem LuzIA, který využívá konverzačního bota OpenAI. Díky němu můžete vědět, co říká audio, aniž byste ho museli poslouchat, protože má možnost přepisu, ke kterému je třeba přidat další výhody, jako je design obrázku nebo všechny odpovědi poskytované ChatGPT. A po dlouhém čekání samotná společnost OpenAI oznámila, že nyní můžete ChatGPT používat v rámci aplikace WhatsApp.

Co Gemini 2.0 nabízí a co je na něm tak zvláštního?

Začněme odpovědí na závěr: jeho systém analýzy videa v reálném čase je zdarma, je k dispozici na počítači a lze jej používat v EU, zatímco konkurenční funkce ChatGPT nic z toho neumí. Gemini míří vysoko, ale pomůže vám s nejrůznějšími úkoly. Co tedy Gemini 2.0 nabídne svým uživatelům?

  1. Multimodální interakce: Gemini 2.0 umožňuje uživatelům komunikovat s umělou inteligencí prostřednictvím fotoaparátu zařízení, sdílení obrazovky a dokonce i hlasových příkazů. Umělá inteligence dokáže současně interpretovat vizuální i textový kontext – od analýzy prezentací PowerPoint až po návrhy na vylepšení e-mailů.
  2. Rychlost: Přestože je verze Flash nejzákladnější, její výkon je již nyní působivý. Nabízí rychlost a pokročilé funkce, jako je identifikace pastí v prezentacích nebo poskytování kreativních alternativ v reálném čase.
  3. Zdarma a dostupný: Na rozdíl od konkurenčních prémiových nástrojů je Gemini 2.0 k dispozici zdarma v Google AI Studio. Tím se demokratizuje přístup k pokročilým technologiím, které byly dříve omezeny na ty, kteří si mohli dovolit zaplatit vysoké náklady.

Díky rychlosti a nízkým provozním nákladům je Gemini 2.0 Flash přístupný jak jednotlivým vývojářům, tak podnikům: jeho živé rozhraní API umožňuje snadnou integraci s podnikovými aplikacemi, což jej staví do pozice klíčového zdroje pro odvětví, která chtějí zefektivnit pracovní postupy a snížit náklady. Uvedení Gemini 2.0 Flash staví společnost Google do pozice momentálního lídra v závodě o multimodální umělou inteligenci.

ChatGPT versus Gemini

Spuštění Gemini 2.0 Flash se neděje ve vzduchoprázdnu. Jeho přímý konkurent také učinil významný pokrok na multimodálním poli, když uvedl svůj „pokročilý hlasový režim“ s viděním v reálném čase, který umožňuje analýzu videa a sdílení obrazovky s jeho ChatGPT.

Zprávy týkající se „pokročilého hlasového režimu“ společnosti OpenAI vypovídají o intuitivním a praktickém produktu zaměřeném na každodenní interakci a mobilní použití. Vítězem se však prozatím stává společnost Google, neboť se zdá, že Gemini 2.0 Flash vede z hlediska funkčnosti a dlouhodobého potenciálu, protože nabízí podobné možnosti analýzy videa jako jeho konkurent OpenAI, ale s větší funkční hloubkou; Gemini dokáže nejen identifikovat objekty a popisovat scénáře, ale také generovat obrázky, spouštět kód a provádět složitější akce na základě toho, co „vidí“.

Proto již kolují videa Gemini 2.0 Flash, která tvůrce obsahu vedou při používání složitého softwaru, jako je Adobe Premiere, a ukazují podrobné kroky pro provádění úprav i pro začínající uživatele:

OpenAI zkrátka nabízí jednodušší prostředí pro běžné uživatele (přátelské a přístupné běžnému uživateli, s rozhraním pouze pro mobilní zařízení, které se podobá tradičnímu videohovoru), zatímco Google se specializovanějšími nástroji cílí na vývojáře a podniky.

Zdroje článku: blog.google

#