Еще в октябре прошлого года в Microsoft заявляли об «историческом» достижении «паритета с человеком» в области распознавания речи. Тем не менее, на тот момент технология расшифровывала речь с точностью до 5,9%. Меньше чем за год, благодаря сочетанию сверточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), ученые сумели снизить показатель погрешности до 5,1%.
Компания проверяла алгоритмы на Switchboard («Коммутатор») — общепринятом в индустрии тесте, испытывающим работу машинного распознавания английской речи. Эта проверка состоит из записей разговоров нескольких человек на определенные темы.
Разработка может быть использована для улучшения качества распознавания речи Cortana — голосовой ассистентки на Windows-устройствах и игровых консолях Xbox One, — а также в софте, преобразовывающим речь в текст. Улучшения компания обещает внедрить в течение ближайших месяцев.
Несмотря на впечатляющий результат, система Microsoft нуждается в доработке. Во-первых, она должна быть отлажена на сложных ситуациях из реальной жизни, в самых разных условиях (на улице, в метро), с учетом тембровой вариативности, особенностей произношения и т.д. Во-вторых, соответствующим образом будет «обучена» Cortana, которая должна не только правильно «слышать» произнесенные человеком фразы, но и понимать их смысл.


