Как работает Эй Сири |

Осенью прошлого года Apple Machine Learning Journal начала глубоко погружаться в «Эй, Сири», голосовой триггер для личного цифрового помощника компании. (См. Ниже.) Этой весной журнал возвращается с очередным погружением в то, как он занимается не только знанием того, что говорится, но и тем, кто это сказал, и как он уравновешивает побуждение к принятию против ложных отклонений.

От Apple:

Фраза «Эй, Сири» изначально была выбрана настолько естественной, насколько это возможно; на самом деле, это было настолько естественно, что даже до того, как эта функция была представлена, пользователи вызывали Siri с помощью кнопки «Домой» и непреднамеренно добавляли свои запросы со словами «Привет, Сири». Однако его краткость и простота артикуляции ставят дополнительные задачи. В частности, наши ранние автономные эксперименты показали, для разумного количества правильно принятых вызовов, недопустимое количество непреднамеренных активаций. Непреднамеренные активации происходят в трех сценариях — 1) когда основной пользователь произносит похожую фразу, 2) когда другие пользователи говорят «Привет, Сири», и 3) когда другие пользователи произносят аналогичную фразу. Последний является самой раздражающей ложной активацией из всех. В попытке уменьшить количество таких ложных восприятий (FA) наша работа направлена на персонализацию каждого устройства таким образом, чтобы оно (по большей части) просыпалось только тогда, когда основной пользователь говорит «Привет, Сири». Для этого мы используем методы из области распознавания докладчиков.

Он также охватывает явное и неявное обучение: а именно, процесс при настройке и текущий процесс при ежедневном использовании.

Основное обсуждение дизайна для персонализированной «Hei Siri» (PHS) вращается вокруг двух методов регистрации пользователей: явного и неявного. Во время явной регистрации пользователя просят произнести целевую триггерную фразу несколько раз, и система распознавания динамика на устройстве обучает профиль динамика PHS из этих высказываний. Это гарантирует, что каждый пользователь имеет тщательно обученный профиль PHS, прежде чем он или она начнет использовать функцию «Эй, Сири»; таким образом, немедленно уменьшая нормы IA. Однако записи, обычно получаемые во время явной регистрации, часто содержат очень мало изменений в окружающей среде. Этот начальный профиль обычно создается с использованием чистой речи, но реальные ситуации почти никогда не бывают такими идеальными.

Прочтите: Как исправить функцию iPhone 8 Touch ID, которая не работает после обновления до iOS версии 11.4.1 [Руководство по устранению неполадок]

Это приводит к понятию неявной регистрации, в которой профиль говорящего создается в течение определенного периода времени с использованием высказываний, высказанных основным пользователем. Поскольку эти записи производятся в реальных ситуациях, они могут улучшить надежность нашего профиля докладчика. Опасность, однако, заключается в обработке самозванцев, принимающих и ложных тревог; если достаточное их количество будет включено на раннем этапе, полученный профиль будет поврежден и не будет точно отражать голос основных пользователей. Устройство может начать ложно отклонять голос основного пользователя или ложно принимать голоса других самозванцев (или обоих!), И эта функция станет бесполезной.

В предыдущей записи Apple Machine Learning Journal команда рассказала, как работал сам процесс «Эй, Сири».

От Apple

Очень маленький распознаватель речи работает все время и слушает только эти два слова. Когда он обнаруживает «Привет, Сири», остальная часть Сири анализирует следующую речь как команду или запрос. Детектор «Hey Siri» использует Deep Neural Network (DNN) для преобразования акустической структуры вашего голоса в каждый момент в распределение вероятности по звукам речи. Затем он использует процесс временной интеграции, чтобы вычислить показатель достоверности того, что произнесенная вами фраза была «Привет, Сири». Если оценка достаточно высока, Сири просыпается.

Как это характерно для Apple, это процесс, который включает как аппаратное, так и программное обеспечение.

Микрофон в iPhone или Apple Watch превращает ваш голос в поток мгновенных образцов сигнала со скоростью 16000 в секунду. Этап спектрального анализа преобразует поток выборки формы волны в последовательность кадров, каждый из которых описывает спектр звука длительностью приблизительно 0,01 с. Около двадцати из этих кадров одновременно (0,2 с звука) подается на акустическую модель, глубокую нейронную сеть (DNN), которая преобразует каждый из этих акустических шаблонов в распределение вероятностей по набору классов речевого звука: те, которые используются в фраза «Привет, Сири», а также тишина и другие слова — всего около 20 звуковых классов.

И да, это дело до кремния, благодаря постоянному процессору внутри сопроцессора движения, который теперь находится внутри системы A-Series-on-a-chip.

Чтобы не запускать основной процессор весь день только для прослушивания фразы триггера, всегда включенный процессор iPhone AOP (небольшой вспомогательный процессор с низким энергопотреблением, то есть встроенный сопроцессор движения) имеет доступ к сигналу микрофона (включен 6S и позже). Мы используем небольшую часть ограниченной вычислительной мощности AOP для запуска детектора с небольшой версией акустической модели (DNN). Когда оценка превышает пороговое значение, сопроцессор движения активирует основной процессор, который анализирует сигнал с использованием большего DNN. В первых версиях с поддержкой AOP первый детектор использовал DNN с 5 слоями из 32 скрытых единиц, а второй детектор имел 5 слоев из 192 скрытых единиц.

Сериал увлекателен, и я очень надеюсь, что команда продолжит его детализировать. Мы вступаем в эпоху окружающих вычислений, где у нас есть несколько активируемых голосом помощников ИИ не только в наших карманах, но и на наших запястьях, на наших коленях и столах, в наших гостиных и в наших домах.

Распознавание голоса, разграничение голоса, помощники с несколькими личностями, помощники по сетке из нескольких устройств и всевозможные новые парадигмы растут вокруг нас, чтобы поддерживать технологию. Все время пытаясь убедиться, что он остается доступным … и человеком.

Мы живем в совершенно удивительные времена.

ВЕКТОР | Рене Ричи

Оцените статью!