Meta představila AI fungující jako výkonný superpřekladač

  • 19. 1. 2025
  • Zdroj obrázku: Skorzewiak / Depositphotos
Meta představila AI fungující jako výkonný superpřekladač

Jde o technologii, která dokáže pracovat i v režimu převodu řeči na text, aniž by byla převedena na text.


Technologie umělé inteligence (AI) se stále vyvíjí mílovými kroky a společnost Meta, mateřská společnost Facebooku, učinila důležitý krok k vytvoření univerzálního překladače, který by ještě nedávno byl označován za science fiction. Nedávno publikovaný článek v časopise Nature, který vypracoval její tým FAIR (Foundational AI Research), se zabývá tímto problémem a představuje model strojového překladu, který kombinuje textové modality a řeč 101 jazyků. Podle některých tento průlomový objev (nazvaný SEAMLESSM4T, nástupce NLLB-200) otevírá dveře do budoucnosti, kde jazykové bariéry budou minulostí. Podle výzkumníků je tento nástroj o 23 % přesnější než jiné nejmodernější modely v úlohách převodu řeči na řeč.

Skok za hranice běžných systémů

Systémy pro překlad z řeči na řeč (S2ST) dosud fungovaly na základě kaskádového přístupu: nejprve automatické rozpoznávání řeči (ASR), poté překlad z textu na text (T2TT) a nakonec převod textu na řeč (TTS). Ačkoli jsou tyto systémy účinné, mají svá omezení:

  1. Zaměření na jazyky s velkým množstvím zdrojů: Modely bývají přesné pouze v jazycích s velkým množstvím dostupných dat a mnoho méně běžných jazyků zůstává pozadu.
  2. Směrové omezení: Často se specializují na překlad do angličtiny, ale ne z angličtiny do jiných jazyků.
  3. Složitost systému: Modulární povaha kaskádových systémů zvyšuje možnost kumulace chyb.

SEAMLESSM4T řeší tato omezení jednotným přístupem, který umožňuje přímý překlad z řeči na řeč (S2ST), z řeči na text (S2TT), z textu na text (T2TT) a z textu na řeč (T2ST) v 96 jazycích podporovaných modelem, což z něj činí jeden z nejuniverzálnějších systémů současnosti.

Související článek

Generální ředitel AI hudební společnosti tvřdí, že tvořit mainstreamovou hudbu není žádná zábava
Generální ředitel AI hudební společnosti tvřdí, že tvořit mainstreamovou hudbu není žádná zábava

Šéf společnosti Suno AI se snaží zredukovat roky uměleckého nasazení na jednoduchý algoritmus, zatímco jeho společnost je žalována za porušení autorských práv.

Klíč k úspěchu modelu SeamlessM4T spočívá v jeho tréninku. Meta použila 4 miliony hodin vícejazyčného zvuku a desítky miliard frází z veřejných online úložišť. K dalšímu zlepšení svých překladatelských schopností využila také 443 000 hodin textově shodného zvuku, například titulků z online videí.

Víc než jen strojový překlad

Kromě přesnosti vyniká SeamlessM4T také svou odolností. Je přibližně o 50 % odolnější vůči hluku v pozadí a změnám řeči, což jej činí obzvláště užitečným v každodenním konverzačním kontextu. Poradí si také s výrazy, které mísí více jazyků, což je cenná schopnost ve vícejazyčných kontextech.

Na druhou stranu se Meta také snažila snížit rizika „toxicity“ v překladech. Během tréninku byly implementovány strategie, které zabránily přidávání urážlivých výrazů, jež se v původním vzorku nevyskytují, což snížilo výskyt problematického obsahu až o 20 % ve srovnání s jinými modely.

Současné a budoucí využití

Společnost Meta již používá SeamlessM4T v několika praktických projektech. Umožňuje například automatický dabing videí na Instagramu a Facebooku a usnadňuje překlad v reálném čase prostřednictvím reproduktorů integrovaných do chytrých brýlí Ray-Ban. Systém byl také zpřístupněn výzkumníkům a vývojářům ve formátu open source, což by mohlo urychlit pokrok v této oblasti.

Cesta ke skutečně univerzálnímu překladači je však ještě dlouhá: ačkoli SeamlessM4T podporuje 101 jazyků, na světě existuje více než 6 500 jazyků. Rozšíření této schopnosti bude vyžadovat další pokrok a větší objemy trénovacích dat, zejména pro méně rozšířené jazyky.

Ve slavném humoristickém vědeckofantastickém románu Douglase Adamse Stopařův průvodce po Galaxii se objevil fiktivní tvor známý jako babylónská rybka, malé žluté zvířátko, které vklouzne člověku do ucha a umožňuje okamžité porozumění jakémukoli jazyku, ať už mluvenému nebo psanému, tím, že jej převede do jazyka, kterému jeho nositel rozumí.

I když SeamlessM4T bohužel ještě není okamžitý, představuje významný pokrok směrem k ideálu překladu v reálném čase, který popsal Douglas Adams ve svém díle. Budoucí zdokonalení modelu by mohlo vést k tomu, že se stane naší obdobou babylónské rybky.

Zdroje článku: nature.com

#