Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Задача распознавания речи отчасти похожа на задачу оптического распознавания текста. В 1960-х гг., как мы уже рассказывали, команда SRI решала задачу распознавания напечатанных на бумаге текстов программ на фортране и обнаружила, что не всегда можно наилучшим образом распознать слово, просто сложив лучшие гипотезы по поводу каждого из составляющих его символов. Ведь модель, распознающая отдельные символы, не знает ничего о закономерностях языка, выражение которого записано при помощи этих символов. С фонетической точки зрения речь можно также рассматривать как последовательность элементарных единиц, своеобразных звуковых символов. Их называют фонемами (от др.-греч. φώνημα — звук; фонема — минимальная смыслоразличительная единица языка, не имеющая самостоятельного лексического или грамматического значения). Точно так же лучшие гипотезы по поводу отдельных фонем в звуковом представлении произносимого слова необязательно гарантируют успешное угадывание слова в целом. Люди постоянно коверкают слова при произнесении их вслух. Отдельные звуки просто выпадают, другие обладают существенной степенью вариативности. Лингвисты придумали множество специальных терминов для обозначения подобных явлений.

Например, термином «элизия» (от лат. elisio — выдавливание, выталкивание) называют отпадение звука (гласного, согласного или даже целого слога) в слове или фразе с целью облегчения произношения для говорящего. Иногда звуки могут быть опущены с целью улучшения благозвучия. В русском языке «чтобы» часто превращается в [штоп], «уже» в [уш], «бы» в [б] и так далее.

Термином «коартикуляция» (от лат. со(n) — с, вместе + articulatio — членораздельно, ясно произношу) называют наложение артикуляции, характерной для последующего звука, на весь предшествующий звук. Примером коартикуляции может служить лабиализация (огубление) согласного под влиянием последующего губного [о] или [у]. Например, при произнесении слова «суп» наши губы вытягиваются в трубочку до начала произнесения звука [у], что приводит к изменению звучания звука [с], его лабиализации.

Звуки могут влиять друг на друга. Это влияние вызывает комбинаторные изменения, к которым относятся аккомодация, ассимиляция, диссимиляция, диэрезы, эпентезы, гаплология. Кроме этого, на звуки могут влиять общие условия произношения. Это вызывает позиционные изменения звуков. К ним относятся протеза в начале слова, оглушение звонких согласных в конце слова, редукция безударных гласных и так далее.

Как человеческий мозг справляется со всеми этими фонетическими сложностями? На самом деле нам помогает знание контекста. Благодаря пониманию синтаксической и смысловой структуры высказываний мы можем догадаться, что именно за слово сказал собеседник, даже если расслышали его недостаточно чётко. В системах распознавания речи за угадывание слов по контексту отвечают так называемые языковые модели (language model, LM). В начале 2000-х гг. наиболее популярными были языковые модели, основанные на n‑граммах (серии из n слов, встречающихся в тексте последовательно). В зависимости от выбранного n, n‑граммы называются биграммами (n = 2), триграммами (n = 3) и так далее. Рассчитав статистику n-грамм на достаточно большом текстовом корпусе, можно построить модель, неплохо предсказывающую вероятность появления того или иного слова в текущем контексте. Такой же трюк можно проделывать не только со словами, но и с фонемами, при этом сочетания фонем будут называться n-фонами (бифонами, трифонами или даже квинфонами).

В системе CU-HTK для распознавания речи использовалась комбинация из нескольких «классических» алгоритмов машинного обучения. Это были скрытые марковские модели для предсказания трифонов и квинфонов, деревья решений, гауссовы смеси распределений и, наконец, языковая модель на основе квадрограмм и триграмм. В качестве входного представления звука использовались мел-кепстральные коэффициенты. Настройка столь сложного ансамбля моделей была весьма непростой задачей и требовала не только обширных познаний, но и изрядного упорства, а также везения.

Большую проблему для сравнения различных систем распознавания речи составляет неоднородность датасета Hub5’00. Его подмножество CallHome в целом сложнее для распознавания, чем подмножество SwitchBoard, при этом в литературе в качестве значения метрики приводятся значения, полученные как на всём Hub5’00, так и на отдельных его подмножествах — Hub5’00 SWB и Hub5’00 CH. Из-за этого некоторые графики, призванные изобразить динамику точности распознавания речи по годам, попахивают откровенной шизофренией. Давайте всё-таки попробуем найти какие-то точки опоры — например Hub5’00 SWB. В 2000 г. показатель WER CU-HTK на Hub5’00 SWB составил 19,3%. В 2011 г. модель [1926], созданная исследователями из Microsoft и основанная на комбинации глубокой нейронной сети и скрытых марковских моделей, продемонстрировала на Hub5’00 SWB показатель WER в 16,1%. Таким образом, за 11 лет уровень ошибки удалось снизить лишь на 3,2 процентных пункта. А в 2013 г. исследователям из IBM удалось [1927] уменьшить WER на Hub5’00 SWB до 11,5%. Это удалось сделать за счёт замены полносвязной сети, получающей на вход мел-кепстральные коэффициенты, на свёрточную нейронную сеть, работающую со спектрограммой звукового сигнала. Таким образом, за два года удалось достичь большего прогресса, чем за предыдущие одиннадцать. И это было только начало.

В 2014 г. величина ошибки снизилась до 10,4%, а в 2015 г. — до 8,0% (за счёт ансамбля полносвязной, свёрточной и рекуррентной сетей, работающих с мел-кепстральными коэффициентами, а также использования нейронной сети в качестве элемента языковой модели) [1928]. В октябре 2016 г. команда разработчиков из Microsoft сообщила о создании системы распознавания речи, которая делает то же или даже меньшее количество ошибок, чем люди, профессионально выполняющие эту работу. Исследователи сообщили о том, что им удалось снизить WER на Hub5’00 SWB до 5,8%, что на 0,1% ниже показателя профессиональных людей-разметчиков. Этого результата удалось достичь за счёт комбинации свёрточной нейронной сети с рекуррентной LSTM-сетью, при этом свёрточная часть сети напоминала собой сеть ResNet. Итоговая архитектура получила название LACE (Layer-wise context expansion with attention, Послойное контекстное расширение с вниманием) [1929]. Доработка этой архитектуры в 2017 г. привела к уменьшению WER до 5,1% [1930].

По датасету Hub5’00 CH также наблюдается сходный прогресс — от ошибки по метрике WEB 31,4% в 2000 г. до 14,1% в 2015-м и 9,9% в 2017-м. Впрочем, в работах последних лет датасет Hub5’00 и его подмножества уже не так часто используются для оценки качества распознавания речи. Исследователи предпочитают использовать для этих целей «чистую» часть LibriSpeech, величина ошибки на которой с момента его появления в 2015 г. снизилась более чем втрое — с 4,83% [1931] до 1,4% [1932] (2021).

Основными источниками прогресса стало появление новых мощных языковых моделей, основанных на новой нейросетевой архитектуре — так называемых трансформерах (мы поговорим о них подробнее в главе 6.3, посвящённой прогрессу в обработке естественного языка), и появление новых мощных технологий аугментации звуковых данных (в первую очередь SpecAugment [1933]).

В последние годы при создании моделей для распознавания речи активно применяются методы обучения с частичным привлечением учителя (semi-supervised learning), такие как «обучение представлениям» (мы затрагивали этот подход в разделе, посвящённом автокодировщикам), а также «псевдоразметка» (Pseudo-Labeling).

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*