Microsoft создала ИИ, имитирующий голос по 3-секундной записи
Самостоятельно поэкспериментировать с моделью не получится.
Кстати, на сайте читать удобнее
Группа исследователей корпорации Microsoft рассказала о создании нейросети VALL-E, способной имитировать голоса людей. У VALL-E есть особенность: для обучения ИИ нужна очень короткая запись речи реального человека.
По оценке исследователей, VALL-E может правдоподобно имитировать речь, обучившись на 3-секундной записи настоящего голоса. Исследователи выложили несколько десятков примеров; в основном они и в самом деле звучат очень хорошо, но некоторые примеры заметно отличаются от эталонной записи.
На самом деле, объясняют в Microsoft, короткая запись используется только для донастройки модели. Основное обучение VALL-E проводилось на датасете LibriLight, включающем в себя 60 тысяч часов речи на английском языке.
После дообучения VALL-E может озвучивать любой предложенный текст. Примечательно, что ИИ способен имитировать не только голос, но и сопутствующие эффекты: например, сделать так, чтобы казалось, будто человек говорит по телефону.
Исследователи осознают, что технология может использоваться для выдачи себя за другого человека, поэтому код и демо-версию VALL-E не стали публиковать.
- Аудит: 25% паролей МВД США взламываются обычными методами
- Дрон, заряжающийся лазерным лучом, испытали в Китае: теоретически он может летать вечно
- Netflix снял нелинейный сериал про ограбление. Его вдохновил ураган
- Редкую игрушку продали в Японии за $197+ тысяч
- Костюм, имитирующий ножевые ранения и ползающих насекомых, показали на CES
- Квест попробовали сделать с помощью ИИ, вот что вышло