waplog

Искусственный интеллект научили слушать несколько голосов одновременно


Устройства с голосовым интерфейсом работают, когда в зоне слышимости их микрофона говорит один человек; если примешивается речь второго, у систем распознавания возникают проблемы. В кембриджской лаборатории компании Mitsubishi нашли решение этой проблемы. Технологию, позволяющую распознавать речь от двух до пяти одновременно говорящих человек, представили на этой неделе на техношоу Combined Exhibition of Advanced Technologies в Токио.

 Благодаря разновидности технологии машинного обучения, которая называется «глубокий кластеринг», система учится выделять характеристики голосов, отличающие говорящих друг от друга, и по ним различать речь одновременно говорящих людей. Систему обучали с помощью образцов речи 100 носителей английского языка, но представители Mitsubishi утверждают, что система справляется и с обработкой других языков, в том числе японского.

Если двое говорят в один и тот же микрофон, система разделяет их слова с 90% точностью. Показатель падает с увеличением числа спикеров: для троих он равен уже 80%.

Авторы разработки говорят о двух потенциальных сферах применения технологии: первая — устройства с голосовым интерфейсом (компьютеры беспилотных автомобилей, персональных помощников), вторая — расшифровка аудиозаписей. Второй возможностью могут заинтересоваться спецслужбы, полиция и военные, считают в Mitsubishi, сообщает naked-science.ru.


МТСВТ
ИКТ
ТЕXHОЛОГИЧЕСКИЕ HОBШЕСТBA
ПОЧТА
О НАС
НОВОСТИ
ИНТЕРЕСНО
ИНТЕРВЬЮ
АНАЛИТИКА