«Вконтакте» представила расшифровку видеосообщений, анимированные реакции и другие новые функции в «VK мессенджере». Технология расшифровки полностью автоматизирована и работает на основе методов машинного обучения, разработанных командой «Вконтакте». Для высокой точности расшифровки видеозаписи обрабатываются тремя нейросетями: они распознают звуки, отделяя их от видеоряда, формируют из звуков слова и определяют границы предложений. Об этом CNews сообщили представители VK.
За распознавание слов отвечает разработка «Вконтакте», созданная на базе технологии ASR (Automatic Speech Recognition). В процессе участвуют три нейросети: акустическая распознает звуки, языковая формирует из звуков слова, а пунктуационная определяет границы предложений и расставляет знаки препинания. Технология обучается на субтитрах фильмов и способна понимать неразборчивую речь и неформальную лексику, убирать паузы из записи, разбивать текст на предложения и смысловые блоки. Распознавание речи полностью автоматизировано и происходит без участия человека.
Расшифровывать можно как полученные, так и отправленные видеосообщения. Достаточно нажать на значок «Аа», после чего искусственный интеллект распознает речь собеседника и преобразует ее в текст. Инструмент будет полезен, когда неудобно слушать или смотреть видеосообщение. Кроме того, он позволит вернуться к нужной информации в переписке: расшифрованные видеосообщения можно находить при помощи поиска по тексту. Функция уже доступна в веб-версии web.vk.me и части пользователей приложений «Вконтакте» и «VK мессенджер» на Android, в том числе в учебном профиле Сферум. Скоро она появится на iOS.
В новой версии разработчики также расширили возможности для тех, кому хочется рассказать больше: максимальную продолжительность видеосообщений увеличили до трех минут. Просмотр таких видеосообщений сделает более удобным функция ускорения воспроизведения в полтора — два раза. Инструмент доступен на iOS и позже появится на Android.