Компания представила VALL-E — алгоритм на базе искусственного интеллекта. Ему достаточно нескольких секунд вашего голоса, чтобы в точности скопировать его.
VALL-E может анализировать тон, высоту и эмоциональный окрас спикера, чтобы искусственный голос вообще не отличался от настоящего. Нейросеть разбивает слова человека на отдельные части и анализирует каждую из них. Затем эти фрагменты сопоставляются с теми, что есть в базе данных VALL-E (более 60 000 часов речи).
Послушать работу алгоритмов можно на видео. Слева – голос человека, слева – результаты VALL-E:
@media (orientation: landscape) {
.viqeo-vertical.viqeo-embed--ccdedbd3d439fe138736 {
padding-bottom: 75%;
}
}
@media (orientation: portrait) {
.viqeo-vertical.viqeo-embed--ccdedbd3d439fe138736 {
padding-bottom: 160%;
}
}
Другие примеры доступны на официальной странице VALL-E.
В чем плюсы
Эту нейросеть можно использовать в кино, например, для озвучки актеров, которых нет в живых. Также можно «воскрешать» голоса исполнителей, чтобы выпускать новые песни с их участием.
Подробнее https://hi-tech.mail.ru/news/61374-microsoft-nauchi...