Architektura „Titans“ nabízí dlouhodobou paměť a selektivní zapomínání. Přináší však také přinejmenším jeden velký problém.
Modely „transformátorů“, které kdysi vyvinula výzkumná divize společnosti Google, byly v posledních letech klíčovou architekturou v oblasti umělé inteligence v mnoha oborech, od generování textů až po analýzu obrazu.
Jejich výkonnost je však omezená, pokud jde o zpracování dlouhotrvajících kontextů. V reakci na tuto výzvu společnost Google opět inovovala a představila akademickou práci, v níž podrobně popisuje vlastnosti nové architektury umělé inteligence (nazývané „Titans“), která podrobně popisuje, jak modely umělé inteligence spravují paměť a zpracovávají informace v extrémně dlouhých kontextech.
Tento výzkum slibuje, že nově vymezí hranice toho, co by se stroje byly schopny naučit a zapamatovat, a představuje nový milník ve vývoji systémů hlubokého učení.
Problém transformátorů
Transformátory čelí přirozenému omezení: jejich schopnost zpracovávat dlouhá kontextová okna je omezena exponenciálními náklady na paměť. To brání úlohám, jako je uvažování v rozsáhlých kontextech, syntéza historických dat a aplikace, které vyžadují robustnější paměť.
Co tato nová technologie přináší?
Titans řeší toto omezení svého předchůdce začleněním modulu dlouhodobé neuronové paměti, který umožňuje modelu naučit se během testování zapamatovat si a efektivně kombinovat aktuální informace s historickými daty.
Modul kombinuje tři typy paměti inspirované fungováním lidského mozku:
- Krátkodobá paměť: Využívá pozornost k přesnému zpracování okamžitých informací.
- Dlouhodobá paměť: Tento modul, inspirovaný lidskými paměťovými systémy, se učí ukládat abstrakce minulých dat a využívá mechanismy, jako je překvapení, k určení, které informace si má uchovat.
- Trvalá paměť: Soubor parametrů nezávislých na datech, který je určen k zapouzdření znalostí specifických pro daný úkol.
Tato architektura umožňuje modelovým „titánům“ aktualizovat svou paměť během odvozování, což tradiční „transformátory“ nedokážou. Tento dynamický přístup zlepšuje zobecňování a chápání souvislostí v reálném čase.
Význam tohoto pokroku
K „přizpůsobení“ během odvozování používají modely založené na této architektuře mechanismus založený na konceptu „překvapení“, který upřednostňuje, které vzpomínky si ponechat nebo vyřadit na základě relevance příchozích dat. Tato metoda „adaptivního zapomínání“ zajišťuje optimální efektivitu a inteligentnější kapacitu paměti.
Kromě toho jeho paměťové operace umožňují mechanismu pozornosti rozhodnout, kdy použít svou paměť a kdy se zaměřit na bezprostřední kontext.
Integrací dlouhodobé paměti, která se během testování aktivně učí, napodobuje architektura základní lidský kognitivní proces – schopnost selektivně si pamatovat a zapomínat.
To nejenže otevírá nové možnosti v oblastech, jako je automatizované vzdělávání a návrh inteligentnějších virtuálních asistentů, ale také vytváří základy pro systémy umělé inteligence, které se dokážou přizpůsobovat měnícímu se prostředí a trvale spravovat znalosti.
Slibné výsledky
V řadě náročných testů se „titáni“ ukázali být efektivnější než tradiční transformátory a moderní rekurentní modely v úlohách, jako je modelování jazyka, uvažování zdravým rozumem a analýza časových řad.
V experimentu „jehla v kupce sena“, kde model musí najít relevantní informace v dlouhých textech, překonaly modely jako GPT-4 a LlaMa v efektivitě a přesnosti.
Kromě toho se ukázalo, že jeho schopnost zvládat kontexty o více než dvou milionech tokenů je zásadní výhodou v komplexních aplikacích, jako je genomická analýza.
Verdikt?
I když je příliš brzy na to, abychom prohlásili „titány“ za definitivního nástupce „transformerů“, jejich inovace v oblasti paměti a přizpůsobivosti znamenají milník ve vývoji umělé inteligence.
Jakmile tento přístup implementuje a optimalizuje více výzkumníků, můžeme být svědky nástupu nové éry umělé inteligence, kdy modely nejen zpracovávají informace, ale také si je pamatují a učí se z nich.
Na druhou stranu, i když tato technologie představuje monumentální pokrok, přináší také některé významné problémy. Například jejich trénování a optimalizace budou vyžadovat pokročilé výpočetní zdroje a složitost jejich konstrukce může bránit jejich širokému rozšíření v aplikacích méně náročných na zdroje. To vše by mohlo jen zhoršit současný vznikající problém rozdílů mezi bohatými a chudými AI.