Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

В каждой ячейке матрицы ошибок в строке i и столбце j указывается процент классов j, опознанных моделью как i. При идеальной точности модели в ячейках, в которых номер столбца равен номеру строки, должны стоять единицы, а в остальных ячейках — нули.
Итоговая точность [precision] предсказаний модели составляет около 71,6% для датасета RAVDESS, что превосходит точность распознавания, демонстрируемую людьми (67,0%), почти на пять процентных пунктов (для датасета IEMOCAP точность — 64,3%). Как видно из матрицы ошибок, наиболее частая ошибка модели заключается в том, что она иногда (в 18,52% случаев) принимает страх за печаль — ошибка, которая выглядит весьма «по-человечески».
Разобранная нами работа довольно характерна для данной области. Результаты на таких «игрушечных» эмоциональных датасетах, как RAVDESS, TESS, EMO-DB, IEMOCAP, улучшаются в наше время порой несколько раз в год — вы можете сами убедиться в этом, набрав в поисковой системе название соответствующего датасета и аббревиатуру SOTA (state-of-the-art, уровень развития, употребляется в значении «лучший результат по какому-либо критерию»). Однако и глубокое обучение не миновала одна из главных проблем современной науки — проблема кризиса воспроизводимости, ввиду чего к результатам без публикации исходного кода следует относиться с осторожностью. Если опытным взглядом присмотреться к разобранной нами статье, то может возникнуть ряд вопросов, требующих прояснения. Например, в тексте статьи упоминается свёртка с ядром 5 × 5, хотя на схемах мы видим свёртку с ядром 5 × 1. Ну ладно, это сравнительно безобидная опечатка. Но вот авторы пишут (в отношении эксперимента с RAVDESS): «Поскольку разделение данных [на обучающую и тестовую выборку] осуществлялось случайным образом, классификация является независимой от актёра» [Since data partitioning is performed randomly, the classification is speaker-independent]. Если под «случайным образом» подразумевалось, что каждый образец с вероятностью 80% попадал в обучающую и с вероятностью 20% в тестовую выборки, это значит, что с довольно большой вероятностью образцы речи одного и того же актёра попали как в обучающую, так и в тестовую выборки (напомню, что в RAVDESS содержится в общей сложности 7356 записей, сделанных всего 24 актёрами). Таким образом, классификатор становится как раз зависимым от актёра. В разделе про выделение признаков ничего не сказано о параметрах использованных преобразований, не объяснено, почему число признаков в итоге оказалось равно 193, сколько из них приходится на мел-кепстральные коэффициенты, а сколько на мел-спектрограмму, как эти признаки упорядочены внутри матрицы. Это не совсем праздный вопрос, ведь, объединяя разнородные признаки в одну матрицу, которая затем подвергается свёртке, авторы допускают ситуацию, когда в окно свёртки попадут разнородные по сути величины. А применение к небольшой матрице размерностью 193 × 1 многослойной сети с целыми шестью слоями свёртки и количеством признаков в каждом из них от 128 до 256, да ещё в итоге и полносвязного слоя при сравнительно скромных параметрах прореживания наверняка должно приводить к систематическому переобучению модели. Как авторы боролись с этой проблемой? Возможно, применяли раннюю остановку обучения при достижении минимальной ошибки на тестовой выборке? Если так, то сколько экспериментов было проведено и не возник ли эффект подстройки под тестовую выборку? Или в каждом эксперименте происходило переразбиение данных?
Кроме того, от внимания авторов исследования ускользнула работа 2019 г. российских исследователей — Григория Стерлинга (моего теперешнего коллеги) и Евы Казимировой — под названием «Сквозное распознавание эмоций по голосу с глубокими эмбеддингами фреймов и обработкой нейтральной речи» (End-to-End Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling), в которой заявлена более высокая точность распознавания для IEMOCAP (65,9%) (российские исследователи использовали спектральное представление звукового сигнала и сочетание свёрточной нейронной сети с LSTM) [2494].
Разумеется, наличие такого рода вопросов вовсе не означает недобросовестности авторов исследования из Казахстана, особенно учитывая сумасшедшие темпы развития науки в этой области. Но, чтобы избежать возможных ошибок или неоднозначностей, многие исследователи в области глубокого обучения предпочитают публиковать не только статьи, но и кодовую базу своих проектов. Крупнейшим каталогом таких публикаций является ресурс paperswithcode.com, позволяющий найти работы, устанавливающие SOTA для самых разных задач машинного обучения, в том числе и для задачи распознавания эмоций. Например, по запросу «Speech Emotion Recognition» можно найти сразу девять работ, в том числе работу [2495], установившую в 2018 г. новый уровень SOTA для датасета IEMOCAP. В этой статье приводится несколько моделей, использующих различные модальности данных: только текст (автоматически распознанная речь), только аудио и текст + аудио. Точность модели, использующей только звук, составляет 54,6% против 64,3% в работе казахстанских исследователей. Но при этом в нашем распоряжении не только статья, но и репозиторий с кодом, из которого видно, что использованная авторами модель представляет собой LSTM-сеть, получающую на вход мел-кепстральные коэффициенты (а также их разности первого и второго порядка для соседних фреймов) для каждого из фреймов звукозаписи длиной 25 миллисекунд с шагом в 10 миллисекунд.
Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70% [2496], а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).
6.5.6 Настоящее и будущее эмоциональных вычислений
В наши дни модели для распознавания эмоций применяются в самых разных корпоративных информационных системах. В системах речевой аналитики, установленных в крупных колл-центрах (или сетях продаж), они используются для анализа речи как операторов, так и клиентов. Анализ речи операторов необходим для выявления ситуаций, когда оператор проявил грубость по отношению к клиенту. Понятно, что грубость может выражаться не только в текстовой составляющей общения, но и в тоне голоса. Без моделей распознавания эмоций отделы контроля качества просто не смогли бы обнаруживать многие из таких ситуаций: поскольку организация сплошного прослушивания разговоров операторов требует наличия огромного штата контролёров, то в реальности обычно прослушивается лишь ничтожная доля звонков. Но это не единственный способ применения эмоциональных вычислений в корпоративных колл-центрах. Можно, например, вычислить, как эмоциональная окраска речи клиентов меняется в процессе общения с оператором. Многие клиенты звонят в колл-центры в расстроенных чувствах, с жалобами на те или иные огрехи корпоративных сервисов. Если клиент в ходе разговора с оператором получает адекватную консультацию и поддержку, то эмоциональная окраска речи клиента приобретает более позитивную валентность. На основе анализа множества разговоров на предмет динамики валентности эмоций клиентов можно определить, какие из операторов лучше справляются со своими задачами, а какие хуже. Можно также выявить различные проблемные темы разговоров (нередко здесь в дуэте с эмоциональными вычислениями применяются технологии тематического моделирования, позволяющие сгруппировать все разговоры по темам), найти наиболее удачные и неудачные с эмоциональной точки зрения примеры диалогов, чтобы затем использовать их в обучении операторов, и, наконец, можно отслеживать общее распределение эмоций по всему колл-центру, чтобы выявлять массовые проблемы. Эмоциональные вычисления могут использоваться и в полностью автоматизированных диалоговых системах, причём как во время общения (робот-оператор определённым образом реагирует на те или иные эмоциональные нотки в речи абонента), так и для мониторинга и обучения таких систем. Например, в некоторой ситуации в скрипте робота может быть предусмотрено несколько вариантов ответа на реплику абонента, и робот может накапливать статистику эмоциональной реакции людей на каждый из этих вариантов, чтобы затем использовать реплики, приводящие к более благоприятным реакциям. В пределе эта идея даёт нам концепцию эмпатического бота, стремящегося в ходе общения научиться выбирать такие слова, которые максимизируют положительную реакцию собеседника. Компонентом подобной системы может быть и эмоционально окрашенный синтез речи. Такого бота можно рассматривать уже как модель, которая не только распознаёт эмоции (проявляет «пассивный» эмоциональный интеллект), но и пытается активно влиять на эмоциональную сферу человека.
Похожие книги на "Охота на электроовец. Большая книга искусственного интеллекта", Марков Сергей Николаевич
Марков Сергей Николаевич читать все книги автора по порядку
Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.