Личные помощники, такие как Сири, все лучше понимали то, что мы говорим, по крайней мере в целом. Когда дело доходит до признания названий, в том числе названий компаний, особенно региональных названий, проблема становится более серьезной.

Журнал Apple Machine Learning Journal описывает, как команда Siri справляется с этим:

Как правило, виртуальные помощники правильно распознают и понимают названия крупных компаний и сетевых магазинов, таких как Starbucks, но им труднее узнавать названия миллионов небольших локальных POI, о которых спрашивают пользователи. В ASR существует известное узкое место в производительности, когда речь идет о точном распознавании именованных объектов, таких как небольшие локальные предприятия, в длинном хвосте частотного распределения.

Мы решили улучшить способность Siri распознавать имена локальных POI, включив знания о местоположении пользователя в нашу систему распознавания речи.

Системы ASR обычно состоят из двух основных компонентов:

  • Акустическая модель, которая фиксирует связь между акустическими свойствами речи и последовательностями языковых единиц, такими как речевые звуки или слова
  • Языковая модель (LM), которая определяет априорную вероятность того, что определенная последовательность слов встречается в определенном языке

Мы можем выделить два фактора, объясняющих эту трудность:

  • Системы, которые обычно не имеют представления о том, как пользователь может произносить непонятные именованные объекты.
  • Имена сущностей, которые встречаются только один раз или никогда в данных обучения для LM. Чтобы понять эту проблему, подумайте о разнообразии названий компаний в вашем районе в одиночку.

Второй фактор заставляет последовательности слов, которые составляют названия местных предприятий, назначаться очень низкой априорной вероятностью общим LM. Это, в свою очередь, снижает вероятность правильного выбора названия компании распознавателем речи.

Метод, который мы представляем в этой статье, предполагает, что пользователи с большей вероятностью будут искать близлежащие локальные POI с помощью мобильных устройств, чем, например, с Mac, и поэтому использует информацию о геолокации с мобильных устройств для улучшения распознавания POI. Это помогает нам лучше оценить предполагаемую последовательность слов пользователя. Мы смогли значительно повысить точность распознавания и понимания локальных POI, включив информацию о геолокации пользователей в систему ASR Siri.

Это у меня над головой, но все же захватывающее чтение не только о том, что, но и как команда Siri пытается решить некоторые из более сложных проблем в технологии голосового помощника.

Оцените статью!