Jen 15ti sekundový vzorek lidského hlasu je postačující k tomu, aby nástroj umělé inteligence s názvem Voice Engine od společnosti OpenAI dokázal vytvořit jeho nerozpoznatelnou repliku. Aplikace pak dokáže vygenerovaným hlasem číst texty, které do ní vloží daný uživatel. Zajímavé je, že nástroj dokáže věty číst přesvědčivě stejným hlasem i v několika cizích jazycích při zachování stejného tónu a přízvuku uživatelova reálného hlasu.
Inovativní nástroj by mohl být prospěšný pro osoby, které během svého života ztratily schopnost hovořit, jako asistent čtení pro děti, nebo jako pomocník při překladu hovoru do jiného jazyka.
Někteří odborníci jsou k novince skeptičtí a mají obavy z jejího zneužívání. Tvrdí, že nástroj v nesprávných rukách může vytvářet a šířit dezinformace a usnadnit páchání podvodů. Jeho tvůrci se brání tím, že v současné době využívá aplikace pouze malá skupinka zdravotnických a vzdělávacích institucí, kteří jí testují. Do budoucna by při využívání širší společností měly být všechny vkládané hlasy ověřovány systémem.
OpenAI just launched Voice Engine,
— AshutoshShrivastava (@ai_for_success) March 29, 2024
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP