В Microsoft научили компьютеры распознавать речь лучше человека

Технология распознавания голоса, разработанная компанией Microsoft, впервые достигла уровня точности, сопоставимого с человеком. Инженеры Microsoft Research смогли снизить долю ошибок, совершаемых компьютерными алгоритмами, до 5,1%, в то время как у человека этот показатель варьируется от 5 до 6%.

Еще в октябре прошлого года в Microsoft заявляли об «историческом» достижении «паритета с человеком» в области распознавания речи. Тем не менее, на тот момент технология расшифровывала речь с точностью до 5,9%. Меньше чем за год, благодаря сочетанию сверточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), ученые сумели снизить показатель погрешности до 5,1%.

Компания проверяла алгоритмы на Switchboard («Коммутатор») — общепринятом в индустрии тесте, испытывающим работу машинного распознавания английской речи. Эта проверка состоит из записей разговоров нескольких человек на определенные темы.

Разработка может быть использована для улучшения качества распознавания речи Cortana — голосовой ассистентки на Windows-устройствах и игровых консолях Xbox One, — а также в софте, преобразовывающим речь в текст. Улучшения компания обещает внедрить в течение ближайших месяцев.

Несмотря на впечатляющий результат, система Microsoft нуждается в доработке. Во-первых, она должна быть отлажена на сложных ситуациях из реальной жизни, в самых разных условиях (на улице, в метро), с учетом тембровой вариативности, особенностей произношения и т.д. Во-вторых, соответствующим образом будет «обучена» Cortana, которая должна не только правильно «слышать» произнесенные человеком фразы, но и понимать их смысл.

Поделиться ссылкой: