В социальной сети «Вконтакте» появилась нейросеть, которая может расшифровывать аудиозаписи длительностью до 30 секунд.
Функция работает в мобильном приложении VK и уже доступна части пользователей, а у остальных появится в ближайшую неделю.
Нейросеть расшифровывает полученные и отправленные аудиозаписи длительностью до 30 секунд — это 90% всех голосовых сообщений во «Вконтакте».
Интересно, что нейросеть хорошо расшифровывает разговорный язык и заимствованную лексику, а также справляется с аудио низкого качества.
Нейросеть должна не просто понять речь, но и сформулировать связный текст. Поэтому на самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке.
Павел Калайдин
Директор по исследованиям в области ИИ ВКонтакте
В ближайшее время «Вконтакте» планирует добавить расшифровку сообщений в версию для компьютера.
По данным социальной сети, ежемесячно аудиосообщениями обмениваются 30 млн пользователей.