Model Llama 4 společnosti Meta překvapil ve srovnávacích testech

LMArena ohodnotila vlastní model Llama 4 jako vynikající v interakci s lidmi.

Tuto sobotu uvedla společnost Meta na trh své nové modely Llama 4: Scout a Maverick. Společnost mezi hlavními pokroky vyzdvihla vylepšenou schopnost vizuálního porozumění, jejímž cílem je nabídnout personalizovanější zážitek. Pozornost byla zaměřena zejména na model Maverick, který slibuje, že podle prvních výsledků zveřejněných srovnávací platformou LMArena překoná konkurenty, jako jsou GPT-4o a Gemini.

LMArena hodnotí jazykové modely jednoduchým, ale efektivním způsobem: různé umělé inteligence odpovídají na stejnou otázku a člověk pak vyhodnotí, která odpověď je nejlepší. Jde v podstatě o přímou konfrontaci umělých inteligencí ve virtuální aréně, jejímž výsledkem je skóre, které generuje celkové pořadí.

Hodnocení modelu předloženého pomocí aplikace Meta neodpovídalo skutečnosti

Podle systému Meta získal Maverick 1 417 bodů, čímž se rychle umístil na druhém místě, před GPT-4o a Gemini 2.5 Pro. Věci se však začaly hroutit, když výzkumníci analyzovali dokumentaci společnosti Meta: Llama 4 Maverick nabízí nejlepší poměr výkonu a ceny ve své třídě, přičemž experimentální verze chatu dosáhla na serveru LMArena ELO 1417 bodů.

https://twitter.com/Ahmad_Al_Dahle/status/1908597556508348883?v=2

To odhalilo, že hodnocený model nebyl stejný model, který Meta zpřístupnila uživatelům, ale experimentální verze speciálně optimalizovaná tak, aby zdůrazňovala lidské preference. Jinými slovy, model byl upraven tak, aby poskytoval lidským hodnotitelům atraktivnější odpovědi.

Společnost LMArena rychle zareagovala prostřednictvím prohlášení na webu X, kde to objasnila:

„Meta interpretace našich zásad neodpovídala tomu, co jsme očekávali od poskytovatelů modelů. Společnost Meta měla objasnit, že model Llama-4-Maverick-03-26-Experimental je vlastní model pro optimalizaci lidských preferencí.“

Kromě toho oznámili, že pracují na aktualizaci svých zásad, aby se podobné zmatky v budoucích klasifikacích neopakovaly.

Meta ráda mystifikuje

Kolem modelu Llama 4 se objevilo mnoho pochybností. Po uvedení tohoto nového modelu se na sociálních sítích rychle objevily zvěsti, že společnost Meta s modelem manipulovala, aby v benchmarcích vynikl. Něco takového společnost rychle popřela s vysvětlením:

„Slyšeli jsme také tvrzení, že trénujeme na testovacích sadách, což prostě není pravda a nikdy bychom to neudělali. Podle našeho nejlepšího vědomí je proměnlivá kvalita, kterou lidé vidí, způsobena potřebou stabilizovat nasazení“.

Dalším důležitým bodem také kolem Lamy 4 je právě den zvolený k jejímu spuštění, protože je to sobota, kdy to nemusí mít příliš velký dopad. Něco, na co Mark Zuckerberg reagoval stručným „bylo to, když to bylo připravené“.

Jasné je, že důležitost srovnávacích testů vede velké společnosti k tomu, aby v těchto žebříčcích tvrdě soutěžily o to, kdo v nich obstojí. Není divu: na trhu nasyceném modely s umělou inteligencí se tyto žebříčky staly základním nástrojem, jak se umístit nad konkurencí.

Soutěž v oblasti umělé inteligence se neomezuje pouze na srovnávací testy. Společnosti také investují do zlepšování dostupnosti a energetické účinnosti svých modelů. Například společnost Meta nedávno oznámila, že pracuje na snížení spotřeby energie svých modelů umělé inteligence, což by mohlo být klíčovým faktorem jejich širokého rozšíření. Kromě toho se zkoumají nové architektury neuronových sítí, které by mohly způsobit revoluci ve způsobu, jakým jsou tyto modely trénovány a provozovány, a učinit je rychlejšími a efektivnějšími.