Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Несмотря на успешное решение вопроса о том, как можно обучать многослойные нейронные сети, Вербос в своей диссертации в 1974 г. ограничился лишь короткими замечаниями по этому поводу. Подробное описание применения метода обратного распространения ошибки к обучению нейронных сетей было опубликовано [1399] Вербосом только в 1982 г. Сказывался невысокий интерес научного окружения Вербоса к этому вопросу [1400]. Возможно, отсутствие интереса Минского к ранней работе Вербоса по гамбургскому счёту оказалось куда большим вкладом первого в наступление коннекционистской зимы, чем пресловутые «Перцептроны». Впрочем, не стоит переоценивать роль личности Минского в этой истории, ведь его пессимизм лишь суммировал опыт множества исследователей, безрезультатно пытавшихся найти эффективные способы обучения многослойных перцептронов. Конечно, теплились некоторые искорки надежды, такие как идеи об обратном распространении ошибки у Розенблатта или высказанное вскользь предложение Сюнъити Амари о том, что для обучения нейронных сетей можно попробовать использовать метод наименьших квадратов [1401], [1402], являющийся основой простой линейной регрессии (без рассуждений о том, как вычислять производные, и с оговоркой, что он не ожидает многого от этого подхода) [1403], [1404]. И всё же пессимизм во второй половине 1970‑х — начале 1980-х гг. достиг своего апогея, поэтому работы Вербоса так и остались практически не замеченными научным сообществом. Повсеместное признание метода обратного распространения ошибки произошло только вслед за публикацией в 1986 г. в журнале Nature статьи Румельхарта, Хинтона и Уильямса «Выучивание представлений путём обратного распространения ошибок» (Learning representations by back-propagating errors). Её авторы упоминают в тексте Дэвида Паркера и Яна Лекуна в качестве исследователей, которые независимо открыли процедуры обучения, аналогичные описанным в статье [1405].
Не оставались в стороне и советские учёные. Диссертация Вербоса увидела свет в январе 1974 г., а в августе того же года в СССР тиражом 8000 экземпляров из печати вышла книга Александра Галушкина под названием «Синтез многослойных систем распознавания образов». Хотя Галушкин несколько раз использует в своей книге термин «нейронная сеть», в большинстве случаев он применяет более нейтральный термин — «система распознавания» (СР). Искусственные нейроны у Галушкина становятся «линейно-пороговыми элементами» (ЛПЭ), обученная сеть (т. е. сеть, предназначенная только для выполнения [inference]) — «сетью с разомкнутым контуром» и так далее [1406]. С точки зрения современной терминологии название книги Галушкина можно понимать как «Обучение многослойных нейронных сетей». Книга Галушкина стала первым систематическим изложением идей учёного, развитых им и его коллегами в предшествующие годы. Первые публикации [1407], [1408], [1409], [1410] Галушкина на тему создания и обучения многослойных нейронных сетей относятся к 1971–1973 гг.
Диссертация Вербоса, вне всякого сомнения, не была известна Галушкину. По большому счёту она в те годы не была известна, по всей видимости, никому из коннекционистов. Действительно, вряд ли кто-то всерьёз ждал фундаментального прорыва от работы под названием «После регрессии: новые инструменты для предсказания и анализа в поведенческих науках» (Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences). Термин «нейронные сети» не использовался в те времена в названиях работ ни Вербоса, ни Галушкина (как недостаточно строгий и являвшийся на тот момент обозначением модели, представлявшей, по мнению многих, лишь исторический интерес). Даже Румельхарт, Хинтон и Уильямс в 1986 г. в своей знаменитой статье [1411] следовали этому принципу.
В то же время Галушкин прекрасно знал о работах западных коннекционистов. Полюбуйтесь списком западных систем распознавания образов, который приводит Галушкин в своей книге: Mark-I, Mark-II, Papa, Kybertron, Altron, Konflex, Albert-1, Adalin, Madalin (написано именно так, без «e» на конце. — С. М.), Minos-2, Illiak-2, Illiak-3, Tobermory, GHILD, Astropower, Adapt-1, Adapt-2, DSK, Ziklop-1, Simisor, Auditran, Shubocs, Gaku и др. (sic!). В тексте книги также упоминается алгоритм обучения Штейнбуха Lernmatrix.
Галушкин рассматривает использование в нейронных сетях функций активации, отличных от функции Хевисайда и сигнума (обозначается sgn, функция знака, имеющая три возможных значения: 0, 1 и −1). Необходимость применения функций с континуумом решений у Галушкина обосновывается следующим образом: «Экспериментальное исследование данного алгоритма показало, что скорость сходимости при нахождении некоторой локальной моды мала и причиной этого является применение в многослойной СР ЛПЭ с двумя решениями, которые в значительной степени „загрубляют“ информацию о градиенте функционала вторичной оптимизации при квантовании входного сигнала. В связи с этим основным предметом исследования являлась двухслойная СР, по структуре подобная описанной выше, но состоящая из ЛПЭ с континуумом решений». В итоге выбор автора останавливается на арктангенсе, умноженном на 2/π для приведения значений функции к диапазону (−1; 1). График арктангенса, как и график популярных в наши дни логистической функции и гиперболического тангенса, является сигмоидой.
Галушкин рассматривает задачу обучения нейронной сети в качестве задачи градиентного спуска. Он применяет цепное правило для вычисления градиента, подробно рассматривает случай обучения сетей с двумя обучаемыми слоями, а также коротко показывает, как следует решать задачу в случае многослойных сетей и сетей с рекуррентными связями, но не даёт используемому им методу какого-либо собственного названия. При этом вопрос конкретной топологии сетей в книге практически не затрагивается, зато уделено внимание сетям с переменным числом слоёв — Галушкин описывает подход, напоминающий МГУА с послойным обучением и постепенно наращиваемыми слоями. Автор также приводит результаты множества экспериментов по обучению сетей с различными параметрами процесса обучения, стремясь оценить их влияние на сходимость модели [1412]. Кроме математических моделей, Галушкин совместно с В. Х. Наримановым ещё в начале 1970-х сконструировал собственную версию аппаратного перцептрона [1413].
Александр Иванович Галушкин продолжал работу над нейросетевыми технологиями до конца своей жизни и был одним из наиболее ярких лидеров этого направления в Советском Союзе, а затем и в России на протяжении более чем сорока лет. В 2007 г. издательство Springer Science & Business Media выпустило книгу [1414] Галушкина «Теория нейронных сетей» (Neural Networks Theory) на английском языке с отзывами Лотфи Заде, Сюнъити Амари и одного из знаменитых пионеров нейросетевого подхода Роберта Хехта-Нильсена. В новом тысячелетии работы Галушкина неоднократно выходили в международных научных изданиях и оказали влияние на состояние современной нейросетевой науки.
Похожие книги на "Охота на электроовец. Большая книга искусственного интеллекта", Марков Сергей Николаевич
Марков Сергей Николаевич читать все книги автора по порядку
Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.