29.03.2024 в 20:27 Evernews

OpenAI показала генератор голосов, способный подражать реальным людям

Пока модель не планируется выпускать в открытый доступ.

Стартап OpenAI рассказал о модели Voice Engine, специализирующейся на генерации голосов людей. Voice Engine умеет превращать текст в речь, причем голос, созданный ИИ, может имитировать голос реального человека.

Для генерации правдоподобно звучащего голоса Voice Engine нужен сэмпл продолжительностью в 15 секунд. В OpenAI уверяют, что такой сэмпл позволит модели сгенерировать «реалистичный и эмоциональный» голос, «очень похожий на исходный».

В OpenAI видят несколько применений для этой технологии. Например, с помощью Voice Engine можно озвучивать контент на других языках голосом того же человека; кроме того, нейросеть может имитировать голоса людей, по разным причинам утративших возможность говорить.

В то же время компания признает, что возможность копирования голоса может быть опасна. Из-за этого модель пока не планируется выпускать в открытый доступ.

Сейчас доступ к Voice Engine есть у партнеров, участвующих в тестировании технологии. Партнеры должны явно сообщать аудитории об использовании Voice Engine, а в звуки, генерируемые ИИ, добавляются специальные «водяные знаки».

Компания рассчитывает, что рассказ о возможностях Voice Engine подтолкнет к отказу от голосовой идентификации и поспособствует дискуссии о защите голосов реальных людей от имитации с помощью ИИ.