Před několika týdny odborníci upozornili, že jsme dosáhli limitu tréninkových dat pro umělou inteligenci. V návaznosti na popularitu ChatGPT se mnoho společností snaží napodobit jeho schopnosti, přičemž společnosti jako Google, Apple a Meta pracují na nabídce generativních asistentů AI. Nejuznávanější hlas v technologickém odvětví však odhalil, že data pro trénování modelů AI již nejsou k dispozici a je naléhavě nutné najít řešení.
Elon Musk řekl, že jsme dosáhli limitu reálných dat pro trénování modelů AI. Upozorňuje však, že tato situace nenastala nyní, ale odehrála se před několika měsíci ještě v roce 2024. Musk tak podtrhuje slova Ilji Sutskevera, bývalého hlavního vědeckého pracovníka společnosti OpenAI, který již v roce 2022 naznačil, že odvětví dosáhlo situace, kterou nazval „peak data“. Ve světle toho, co se stalo, tedy Musk přišel s dočasným řešením, jak dále trénovat modely AI.
Velké společnosti již syntetická data používají
Podle Muska je skvělou možností využití dat generovaných samotnou umělou inteligencí, což je aspekt známý jako „syntetická data“. Vytvoří tak řetězce strojového učení a půjde ve stopách firem, jako jsou Microsoft, Meta, OpenAI a Anthropic, které se touto cestou již vydaly. Některé odhady se totiž domnívají, že do roku 2024 bude 60 % používaných dat syntetických, protože kromě všech výše uvedených výhod to bude mít i další výhody, například snížení nákladů.
I přesto však některé výzkumy naznačují, že používání syntetických dat by mohlo vést ke kolapsu různých modelů, protože by se snížila kreativita a zvýšila zkreslení výsledků. Pokud totiž vygenerovaná data vykazují zkreslení nebo omezení, modely s nimi vycvičené budou ve svých výsledcích reprodukovat tytéž problémy. To se však nezdá být omezením ani pro Elona Muska, ani pro společnosti jako Microsoft, Google nebo Anthropic, vzhledem k tomu, že je použily v modelech jako Phi-4, Gemma a Claude 3.5 Sonnet.