Umělá inteligence OpenAI potřebuje ke klonování vašeho hlasu pouhých 15 sekund zvuku

  • 13. 12. 2024
  • Zdroj obrázku: Solen Feyissa / Unsplash
Umělá inteligence OpenAI potřebuje ke klonování vašeho hlasu pouhých 15 sekund zvuku

Společnost OpenAI představila svůj nejnovější průlom v oblasti generování syntetického hlasu. Nyní je schopna naklonovat hlas v jakémkoli jazyce pomocí pouhých 15 sekund poslechu.


Společnost OpenAI představila svůj nejnovější pokrok v oblasti generování syntetického hlasu. Společnost sdílela prohlášení, ve kterém vysvětluje, jak její systém Voice Engine, poprvé předvedený na konci roku 2022, nyní dokáže přesně naklonovat jakýkoli hlas ze zvukového vzorku o délce pouhých 15 sekund.

Ukázky, které společnost sdílela, jsou jednoduše velkolepé. Systém Voice Engine je schopen generovat ultrarealistické hlasy z krátkých vzorků, což otevírá dveře k různým způsobům využití, jako je asistence při čtení, překládání obsahu nebo pomoc lidem s řečovými problémy.

Voice Engine naklonuje jakýkoli hlas pomocí 15sekundových vzorků

Není to poprvé, co se setkáváme se systémy založenými na umělé inteligenci, jejichž cílem je klonování hlasů ze vzorků. Své pokroky v této oblasti již dříve předvedly společnosti, jako je Meta. Společnost OpenAI však dokázala jít ještě o krok dál a drasticky zkrátit délku referenčního zvuku, který je potřeba k tomu, aby umělá inteligence dokázala reprodukovat hlas kohokoli.

Související článek

ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání
ChatGPT míří na WhatsApp: Vyzkoušejte si funkce, které oživí jeho používání

Po obrovském úspěchu aplikace ChatGPT navrhla skupina Španělů nástroj pro WhatsApp s názvem LuzIA, který využívá konverzačního bota OpenAI. Díky němu můžete vědět, co říká audio, aniž byste ho museli poslouchat, protože má možnost přepisu, ke kterému je třeba přidat další výhody, jako je design obrázku nebo všechny odpovědi poskytované ChatGPT. A po dlouhém čekání samotná společnost OpenAI oznámila, že nyní můžete ChatGPT používat v rámci aplikace WhatsApp.

Způsob fungování je (zřejmě) jednoduchý: uživatel by měl poskytnout pouze hlasovou nahrávku o délce 15 sekund a text. Umělá inteligence bude schopna naklonovat hlas a realisticky a emotivně vyprávět obsah textu.

Níže si můžete poslechnout některé z ukázek, které sdílela společnost OpenAI, a to zvuk generovaný hlasovým enginem a referenční zvuk, který umělá inteligence použila ke klonování hlasu.

OpenAI se snaží vyvarovat rizik

Společnost vedená Samem Altmanem si je vědoma rizik spojených se zpřístupněním takové technologie komukoli. Proto trvá na tom, že bude postupovat „obezřetně a informovaně“ a analyzuje všechna rizika, která by mohla být spojena se zneužitím této technologie. Koneckonců jsme již byli svědky podvodů, které k oklamání svých obětí využívaly techniky klonování hlasu.

Nástroj jako takový není v tuto chvíli veřejně dostupný a společnost neprozradila, zda jej plánuje spustit jako službu ve stylu ChatGPT přístupnou všem. Tvrdí, že tyto testy v malém měřítku budou sloužit k rozhodnutí, zda tuto technologii implementovat do svých služeb.

Zdroje článku: openai.com

#