31.08.2021 в 18:06 Evernews

Nvidia создала нейросеть, реалистично имитирующую человеческий голос

Исследователи уверены, что ИИ работает с минимумом артефактов.

Технологии генерации речи активно используются, но их качество пока хуже, чем у голосов реальных людей. Исследователи Nvidia Research попытаются это изменить: компания создала нейросеть, реалистично имитирующую человеческий голос.

Проблема генераторов в том, что человеческая речь это сложная смесь интонаций, тембра и ритма. Искусственному интеллекту сложно имитировать речь во всем ее богатстве, но в Nvidia уверены, что их нейросети это удается.

Нейросетью, созданной компанией, можно управлять: это полезно для тонкой настройки генерации звука. Есть возможность настраивать темп звука, высоту голоса и другие параметры; это позволяет достичь более реалистичного звучания.

Система может работать не только в качестве преобразователя из текста в звук. Нейросеть может обработать записанный звук, преобразовав голос: например, превратив мужской голос в женский или наоборот.

Чтобы протестировать разработку, исследователи Nvidia Research некоторое время озвучивали с помощью нейросети ролики из серии I am AI. Например, сгенерированные ИИ голоса звучат вот в этом видео.

В компании считают, что улучшенная технология генерации голоса может пригодиться виртуальным помощникам, системам умного дома и другим устройствам. Поэкспериментировать с наработками Nvidia в области генерации речи могут все желающие.