Podle Muska už se AI nemá z čeho učit. Klíčem mohou být syntetická data

Používání syntetických dat k tréninku AI může způsobit velké problémy.

Umělá inteligence je skutečně užitečná pro všechny každodenní úkoly, které děláme, a také pro profesionálnější úkoly. Za tuto schopnost vděčíme tréninku, který za AI vždy vyvolával mnoho kontroverzí, protože nemá oprávnění ke všem informacím, které se ze sítě používají. Dostali jsme se však do bodu, kdy již není k dispozici dostatek dat pro trénování modelu UI.

Generální ředitel společnosti X Elon Musk prohlásil, že jsme dosáhli limitu reálných dat pro trénování modelů AI. Nejedná se o několik dní starou informaci, neboť této situace bylo dosaženo již v roce 2024.

Umělá inteligence se začne trénovat pomocí syntetických dat

Sám Musk vzal v úvahu slova Ilji Sutskevera, bývalého hlavního vědeckého pracovníka společnosti OpenAI, který určil, že bylo dosaženo „datového vrcholu“, což odkazuje na tento „strop“, kterého umělá inteligence dosáhla. Odhady dokonce hovoří o tom, že 60 % použitých dat bylo syntetických.

Pokud už nebudou k dispozici žádná lidská data, jako jsou nahrávky, obrázky nebo texty, na kterých by bylo možné umělou inteligenci trénovat? Co se s ní stane? Od nynějška se budeme setkávat s tím, že se k tomuto tréninku budou používat syntetická data, tj. data, která si umělá inteligence sama vygenerovala, aby se mohla trénovat. Tímto způsobem bude UI vyhodnocovat „sama sebe a procházet tímto procesem samoučení“.

Používání UI však není neškodné. Použití takových syntetických dat může podle výzkumníků způsobit kolaps modelů. Právě zde by jim chyběla kreativita a narůstalo by zkreslení v jimi generovaných odpovědích, protože by se ocitly ve skutečné smyčce, v níž se samy trénují s vlastními daty.

Pokud jsou výsledky umělé inteligence zkreslené již nyní, trénink s těmito zkresleními povede ke stále horší kvalitě výsledků. Právě zde nyní stojí velké společnosti zabývající se umělou inteligencí před výzvou, jak tuto překážku překonat.