Inkazan
Технология распознавания аудиосообщений ВКонтакте вызвала рост обмена голосовыми
27 ноября 2020, 15:28
Общество
Технология распознавания аудиосообщений ВКонтакте вызвала рост обмена голосовыми
Фото: Вконтакте
ВКонтакте усовершенствовала технологию распознавания голосовых сообщений.

Теперь всего за секунду можно расшифровать записи продолжительностью до двух минут — это 99% всех аудио, которые отправляют пользователи. А в тех случаях, когда хочется рассказать длинную историю, можно записать голосовое длительностью до часа.

Голосовые сообщения продолжают оставаться самым популярным типом вложений в мессенджере ВКонтакте, обгоняя, например, фотографии и файлы. VK запустила технологию распознавания в июне. С этого момента аудитория, которая пользуется голосовыми, выросла на 10% — сейчас она составляет 33 миллиона человек в месяц. В среднем каждый пользователь сервиса читает 8 расшифровок в день.

Технология распознавания аудиосообщений — собственная разработка Команды ВКонтакте. Чтобы переводить в текст более продолжительные записи, не жертвуя скоростью, разработчики нашли новое технологическое решение. Алгоритмы автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. При этом они умеют разделять запись, не разбивая слова на части, чтобы не искажать смысл сказанного, — для этого используется технология Voice Activity Detection. На распознавание сообщения уходит около секунды.

Сергей Ларионенко, старший разработчик команды Core Infrastructure ВКонтакте:

«Технология распознавания аудио помогает любителям и ненавистникам голосовых сообщений общаться друг с другом в удобном формате, а ещё экономит время — прочитать расшифровку можно быстрее, чем прослушать аудио. Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи — например, посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость её работы и улучшать качество распознавания».

Распознавание голосовых сообщений полностью автоматизировано. Для обучения нейросетей используются аудио, которые специально для этой задачи записывают участники программы VK Testers.

Ранее ВКонтакте преобразовала раздел «Сообщения» в «Мессенджер»: к звонкам и чатам добавилась возможность написать человеку по номеру телефона. В мессенджере можно не только переписываться, но и бесплатно устраивать групповые видеозвонки на 128 человек: ограничений по длительности нет, присоединиться к разговору можно анонимно даже без профиля в соцсети, для работы или учебных задач доступна демонстрация экрана, а пользоваться сервисом можно на любом устройстве.