Личные помощники, такие как Сири, все лучше понимали то, что мы говорим, по крайней мере в целом. Когда дело доходит до признания названий, в том числе названий компаний, особенно региональных названий, проблема становится более серьезной.
Журнал Apple Machine Learning Journal описывает, как команда Siri справляется с этим:
Как правило, виртуальные помощники правильно распознают и понимают названия крупных компаний и сетевых магазинов, таких как Starbucks, но им труднее узнавать названия миллионов небольших локальных POI, о которых спрашивают пользователи. В ASR существует известное узкое место в производительности, когда речь идет о точном распознавании именованных объектов, таких как небольшие локальные предприятия, в длинном хвосте частотного распределения.
Мы решили улучшить способность Siri распознавать имена локальных POI, включив знания о местоположении пользователя в нашу систему распознавания речи.
Системы ASR обычно состоят из двух основных компонентов:
- Акустическая модель, которая фиксирует связь между акустическими свойствами речи и последовательностями языковых единиц, такими как речевые звуки или слова
- Языковая модель (LM), которая определяет априорную вероятность того, что определенная последовательность слов встречается в определенном языке
Мы можем выделить два фактора, объясняющих эту трудность:
- Системы, которые обычно не имеют представления о том, как пользователь может произносить непонятные именованные объекты.
- Имена сущностей, которые встречаются только один раз или никогда в данных обучения для LM. Чтобы понять эту проблему, подумайте о разнообразии названий компаний в вашем районе в одиночку.
Второй фактор заставляет последовательности слов, которые составляют названия местных предприятий, назначаться очень низкой априорной вероятностью общим LM. Это, в свою очередь, снижает вероятность правильного выбора названия компании распознавателем речи.
Метод, который мы представляем в этой статье, предполагает, что пользователи с большей вероятностью будут искать близлежащие локальные POI с помощью мобильных устройств, чем, например, с Mac, и поэтому использует информацию о геолокации с мобильных устройств для улучшения распознавания POI. Это помогает нам лучше оценить предполагаемую последовательность слов пользователя. Мы смогли значительно повысить точность распознавания и понимания локальных POI, включив информацию о геолокации пользователей в систему ASR Siri.
Это у меня над головой, но все же захватывающее чтение не только о том, что, но и как команда Siri пытается решить некоторые из более сложных проблем в технологии голосового помощника.
Оцените статью!
Отправляя сообщение, Вы разрешаете сбор и обработку персональных данных. Политика конфиденциальности.