С ее помощью голосовые ассистенты смогут лучше понимать пользователей в шумных помещениях.
В Санкт-Петербургском Федеральном исследовательском центре РАН разработали алгоритм и приложение для смартфона на его основе, которое поможет голосовым помощникам и программам, использующим голосовые команды и ввод, точнее считывать речь пользователя по губам.
Как это работает?
Приложение разработано на основе нейросетевой модели, умеющей распознавать несколько сотен часто используемых программ по аудиовизуальным сигналам. Ученые также говорят о том, что разработанная нейросеть может не только воспринимать аудиовизуальный сигнал, но и самостоятельно решать, какие данные (аудиальные или визуальные) будут наиболее точны при распознавании.
Тесты программы проводились с участием водителей шумных большегрузных автомобилей одной из российских логистических компаний, на смартфоны которых было установлено приложение. Результаты тестирования показали, что при совмещении двух видов считывания информации эффективность работы алгоритмов действительно повышается: распознавание команд при чтении по губам составила 60-80%, а по двум сигналам — более 90%.
Подробнее https://hi-tech.mail.ru/news/62881-v-sankt-peterburge-ra...