Sora AI je velkolepá, ale také drahá a nahraditelná

Ačkoli Sora představuje významný pokrok v oblasti generování videí s umělou inteligencí, zdá se, že nástroje s otevřeným zdrojovým kódem jsou předurčeny k tomu, aby se staly skutečnými hráči této revoluce.

Společnost OpenAI v pondělí spustila generátor videa s umělou inteligencí Sora, který je nyní k dispozici všem platícím uživatelům… kteří ale nežijí v Evropské unii.

Ačkoli však tento produkt provází očekávání již od jeho ohlášení před několika měsíci, v technologické rovině je možná ještě důležitější zpráva, že se nepřestávají objevovat bezplatné a open source alternativy, které dokazují, že ji v mnoha ohledech předčí. Modely jako Hunyuan Video společnosti Tencent a Mochi 1 společnosti Genmo AI zpochybňují hegemonii komerčních nástrojů v této oblasti, a tím i ji:

Nabízejí vysoce kvalitní nástroje za nulové nebo minimální náklady.
Podporují inovace: Vzhledem k tomu, že se jedná o nástroje s otevřeným zdrojovým kódem, umožňují vývojářům experimentovat a vylepšovat modely.
Snižují náklady pro malé podniky a studenty: Odvětví, která byla tradičně vyloučena vysokými poplatky za komerční řešení, mají nyní přístup ke konkurenceschopným nástrojům.

Co je Sora a proč byla tak dlouho očekávaná umělá inteligence?

Sora je sázka společnosti OpenAI na převod textu do vysoce kvalitních videí, která jsou schopna poskytovat téměř fotorealistické scény v délce až 20 sekund. Navzdory slibným funkcím omezuje její model předplatného – který může vyjít až na 200 dolarů měsíčně, pokud hledáte video ve vysokém rozlišení bez vodoznaků – její dostupnost pro úzké publikum, především pro firmy a tvůrce s velkými rozpočty.

Sora se však potýká také s technickými problémy: podle četných příkladů, které lze zhlédnout na sítích, je její schopnost realisticky simulovat fyzické pohyby a udržet soudržnost ve složitých scénách stále ještě primitivní.

Například Carlos Santana, španělský vývojář umělé inteligence, využil ve svých testech opakující se výzvu („Pangolin surfuje na vlně„), aby otestoval jak Soru, tak Hunyuan. To byl výsledek testu se Sorou, kterou sám definuje jako „divnou“ (nutno podotknout, že jde o milosrdné hodnocení):

Na to, že nám byl svého času prodáván jako „simulátor světa“, je pravdou, že videa generovaná Sorou mají často do očí bijící chyby. To neznamená, že by Sora neměla obrovský potenciál: OpenIA bude v příštích letech jistě pokračovat ve zdokonalování modelu… ale prozatím její vysoké náklady a technická omezení vyvolávají pochybnosti o tomto modelu umělé inteligence.

Tichá revoluce open source alternativ

Zatímco se společnost OpenAI snaží zdokonalit Soru, objevují se alternativy, jako jsou Hunyuan Video a Mochi-1, které jsou životaschopné, dostupné a v některých případech v některých ohledech lepší. Tyto bezplatné nástroje nejenže nabízejí konkurenceschopné výsledky, ale jejich open source charakter umožňuje vývojářům přizpůsobit je svým potřebám.

Hunyuan Video

Hunyuan Video, které uvedla na trh společnost Tencent, představuje milník v oblasti videomodelů generovaných umělou inteligencí. Tento model s otevřeným zdrojovým kódem, natrénovaný pomocí 13 miliard parametrů, byl popsán jako revoluční nástroj nejen pro svou kvalitu, ale také pro dostupnost, kterou nabízí vývojářům, studentům a malým podnikům, kteří chtějí prozkoumat technologii generování videa bez ekonomických překážek, jež často kladou komerční nástroje. Mezi jeho technické přednosti patří:

Rychlé dodržování: Model je navržen tak, aby vylepšoval a obohacoval textové pokyny uživatelů a vytvářel podrobnější a realističtější videa.
Přirozený pohyb: Jednou ze silných stránek modelu Hunyuan je jeho schopnost simulovat pohyby tekutin a respektovat fyzikální zákony, což je oblast, ve které se ukazuje, že model Sora nedosahuje dostatečných výsledků.
Kreativní flexibilita: Díky otevřenému zdrojovému kódu si uživatelé mohou model přizpůsobit podle svých potřeb, upravit parametry nebo jej natrénovat pomocí specifických dat pro konkrétní aplikace.

Možnosti použitelnosti a přístupnosti

Jednou z největších předností systému Hunyuan Video je jeho přístupnost. Společnost Tencent zpřístupnila celý zdrojový kód a předtrénované váhy modelu komunitě na platformách, jako je GitHub a Hugging Face. To umožňuje každému uživateli s vhodným hardwarem stáhnout a spustit model lokálně a zdarma.

Hardware potřebný k lokálnímu spuštění modelu Hunyuan Video však může představovat výzvu. Vyžaduje grafický procesor s alespoň 60 GB paměti, například karty Nvidia H800 nebo H20. Pro ty, kteří takový hardware nemají, nabízejí přístup k modelu za přijatelné poplatky různé cloudové platformy, například FAL.ai, Runpod nebo Vast.ai.

Například na serveru FAL.ai je možné generovat videa již za 0,5 dolaru za kus, zatímco další služby, jako je oficiální server Hunyuan, nabízejí cenově konkurenceschopné kreditní balíčky.

Mochi 1

Mochi 1, open source pod licencí Apache 2.0 a vyvinutý společností Genmo AI, se etabloval jako jedna z nejsilnějších alternativ v prostředí generátorů AI videí. Tento model za Hunyuanem poněkud zaostává ve výkonu: jeho architektura využívá „pouze“ něco přes 10 miliard parametrů, což mu přesto umožňuje vyniknout ve stejných oblastech jako model společnosti Tencent při srovnání s modelem OpenAI: realističnost simulace pohybu, konzistence rysů obličeje a dodržování výzvy.

Použitelnost a přístupnost

Mochi 1 vyniká svou flexibilitou z hlediska možností použití. Uživatelé si mohou vybrat mezi různými režimy podle svých potřeb a technických možností:

Bezplatná verze: umožňuje generování až 4 videí každých 6 hodin s měsíčním limitem 30 videí. Tato videa jsou sice opatřena vodoznakem společnosti Genmo a omezena na osobní použití, ale nabízejí skvělou příležitost prozkoumat model bez jakýchkoli nákladů.
Licence Lite (8 USD/měsíc): Zvyšuje limit na 8 videí každých 6 hodin, odstraňuje vodoznak a umožňuje komerční použití s možností zpeněžení licenčních poplatků.
Standardní licence (24 USD/měsíc): Nabízí až 32 videí každých 6 hodin, větší soukromí při používání (režim stealth) a výhradní práva na vytvořená videa, což z ní činí atraktivní možnost pro profesionální tvůrce.
Samostatné hostování: Vzhledem k tomu, že Mochi 1 má otevřený zdrojový kód, lze jej stáhnout a spustit i lokálně. To sice vyžaduje výkonný hardware – podobný tomu, který je potřeba pro Hunyuan Video – ale je to vynikající možnost pro vývojáře, kteří si chtějí model přizpůsobit a experimentovat bez omezení externího serveru.