Oči všech se stále upírají na OpenAI, ale Google ukazuje větší ambice.
V posledních dnech nabídli OpenAI i Google novinky o svých hlavních AI: ChatGPT (a Sora) na jedné straně a Gemini na straně druhé. Zatímco společnost vedená Samem Altmanem drží v závodě o umělou inteligenci prvenství, Google je povinen být ambicióznější a překonat laťku nastavenou svým rivalem. A vše nasvědčuje tomu, že tentokrát zaútočí Google, kterému se díky uvedení Gemini 2.0 Flash podaří označit milník ve vývoji multimodální AI (kombinace textu, obrazu, videa a zvuku v reálném čase) a nově definovat způsob, jakým komunikujeme s technologiemi. Přitom samozřejmě také zintenzivňuje konkurenční boj mezi oborovými giganty.
Gemini 2.0 Flash: multimodální revoluce v reálném čase
Uvedení Gemini 2.0 Flash představuje změnu paradigmatu v oblasti umělé inteligence. Uživatelé nyní mohou v reálném čase komunikovat s videem pořízeným z mobilního telefonu, což jsme dříve viděli pouze v ukázkách. Prostřednictvím služby Google AI Studio si tuto technologii, která slibuje revoluční využití ve vzdělávání, tvorbě obsahu a dalších oblastech, může vyzkoušet každý.
Co Gemini 2.0 nabízí a co je na něm tak zvláštního?
Začněme odpovědí na závěr: jeho systém analýzy videa v reálném čase je zdarma, je k dispozici na počítači a lze jej používat v EU, zatímco konkurenční funkce ChatGPT nic z toho neumí. Gemini míří vysoko, ale pomůže vám s nejrůznějšími úkoly. Co tedy Gemini 2.0 nabídne svým uživatelům?
- Multimodální interakce: Gemini 2.0 umožňuje uživatelům komunikovat s umělou inteligencí prostřednictvím fotoaparátu zařízení, sdílení obrazovky a dokonce i hlasových příkazů. Umělá inteligence dokáže současně interpretovat vizuální i textový kontext – od analýzy prezentací PowerPoint až po návrhy na vylepšení e-mailů.
- Rychlost: Přestože je verze Flash nejzákladnější, její výkon je již nyní působivý. Nabízí rychlost a pokročilé funkce, jako je identifikace pastí v prezentacích nebo poskytování kreativních alternativ v reálném čase.
- Zdarma a dostupný: Na rozdíl od konkurenčních prémiových nástrojů je Gemini 2.0 k dispozici zdarma v Google AI Studio. Tím se demokratizuje přístup k pokročilým technologiím, které byly dříve omezeny na ty, kteří si mohli dovolit zaplatit vysoké náklady.
Díky rychlosti a nízkým provozním nákladům je Gemini 2.0 Flash přístupný jak jednotlivým vývojářům, tak podnikům: jeho živé rozhraní API umožňuje snadnou integraci s podnikovými aplikacemi, což jej staví do pozice klíčového zdroje pro odvětví, která chtějí zefektivnit pracovní postupy a snížit náklady. Uvedení Gemini 2.0 Flash staví společnost Google do pozice momentálního lídra v závodě o multimodální umělou inteligenci.
ChatGPT versus Gemini
Spuštění Gemini 2.0 Flash se neděje ve vzduchoprázdnu. Jeho přímý konkurent také učinil významný pokrok na multimodálním poli, když uvedl svůj „pokročilý hlasový režim“ s viděním v reálném čase, který umožňuje analýzu videa a sdílení obrazovky s jeho ChatGPT.
Zprávy týkající se „pokročilého hlasového režimu“ společnosti OpenAI vypovídají o intuitivním a praktickém produktu zaměřeném na každodenní interakci a mobilní použití. Vítězem se však prozatím stává společnost Google, neboť se zdá, že Gemini 2.0 Flash vede z hlediska funkčnosti a dlouhodobého potenciálu, protože nabízí podobné možnosti analýzy videa jako jeho konkurent OpenAI, ale s větší funkční hloubkou; Gemini dokáže nejen identifikovat objekty a popisovat scénáře, ale také generovat obrázky, spouštět kód a provádět složitější akce na základě toho, co „vidí“.
Proto již kolují videa Gemini 2.0 Flash, která tvůrce obsahu vedou při používání složitého softwaru, jako je Adobe Premiere, a ukazují podrobné kroky pro provádění úprav i pro začínající uživatele:
OpenAI zkrátka nabízí jednodušší prostředí pro běžné uživatele (přátelské a přístupné běžnému uživateli, s rozhraním pouze pro mobilní zařízení, které se podobá tradičnímu videohovoru), zatímco Google se specializovanějšími nástroji cílí na vývojáře a podniky.