Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Модели, подобные StarGAN и CycleGAN, лежат в основе популярных в наши дни фильтров для семантической манипуляции фотографиями, позволяющих превратить безбородого человека в бородача (и наоборот), юношу в старика (и наоборот) и тому подобное.

Охота на электроовец. Большая книга искусственного интеллекта - image291.jpg
Рис. 158. Примеры семантической манипуляции фотографиями людей при помощи модели CycleGAN

Модель на базе GAN, предложенная [2771] в 2017 г. исследователями из японского Университета Васэда (早稲田大学), использует в качестве обусловливающего изображения для генератора изображение с закрашенными фрагментами. Благодаря применению GAN исследователям удалось добиться локальной и глобальной согласованности при заполнении недостающих частей картинки.

Охота на электроовец. Большая книга искусственного интеллекта - image292.jpg
Рис. 159. Пример восстановления закрашенных или несуществовавших фрагментов изображения при помощи модели исследователей из Университета Васэда

Ту же задачу успешно решают более современные модели (2019 г.), такие как PEPSI [2772] и PEPSI++ (Diet-PEPSI) [2773].

Охота на электроовец. Большая книга искусственного интеллекта - image293.jpg
Рис. 160. Пример восстановления закрашенных или несуществовавших фрагментов изображения при помощи модели PEPSI

Используя модель PEPSI, энтузиасты быстро соорудили инструмент [2774] под названием DeepCreamPy, предназначенный для удаления цензуры с изображений, относящихся к жанру хентай (жанр японских комиксов и анимации, отличающийся наличием элементов эротики и/или порнографии).

Различных моделей GAN и их модификаций в наши дни создано превеликое множество: DCGAN [2775], InfoGAN [2776], DiscoGAN [2777], ProGAN [2778], WGAN [2779], ImprovedWGAN [2780], StyleGAN [2781], StyleGAN2 [2782], StyleGAN3 [2783], StarGAN v2 [2784] и так далее.

Вот пример работы модели (StarGAN v2) для трансляции изображений между доменами:

Охота на электроовец. Большая книга искусственного интеллекта - image294.jpg
Рис. 161. Пример трансляции изображений между доменами (модель StarGAN v2)

А вот фотографии несуществующих людей, созданные при помощи модели StyleGAN2 от компании Nvidia:

Охота на электроовец. Большая книга искусственного интеллекта - image295.jpg
Рис. 162. Фотографии несуществующих людей (модель StyleGAN2)

В 2022 г. исследователи из Google Research продемонстрировали [2785], как при помощи специальной техники, получившей название «самодистилляция» [self-distillation], можно обучать StyleGAN на неразмеченных изображениях, собранных в интернете. При этом модель успешно генерирует картинки высокого качества во многих доменах (в работе приводятся примеры генерации изображений львов, жирафов, слонов, попугаев и т. д.).

На сайте thisxdoesnotexist.com можно найти коллекцию GAN’ов для генерации изображений самых разных объектов: человеческих лиц, котиков, интерьеров, посуды, еды и даже несуществующих членов британского парламента.

Ниже приведено изображение из стэнфордского ежегодного доклада Artificial Intelligence Index Report за 2021 г. (AIIR-2021) [2786], которое наглядно показывает прогресс в области генерации лиц.

Охота на электроовец. Большая книга искусственного интеллекта - image296.jpg

Рис. 163. Прогресс в области генерации лиц

Тема генеративно-состязательных моделей заслуживает, бесспорно, отдельной книги. Но создание такой книги является довольно непростой задачей, поскольку новые архитектуры появляются так быстро, что автору книги будет непросто поспевать за исследователями.

В последнее время появляются модели, работающие более чем с двумя модальностями. Например, модель VATT (Video-Audio-Text Transformer, Видеоаудиотекстовый трансформер), созданная совместными усилиями исследователей Google, Корнеллского и Колумбийского университетов [2787], а также модель data2vec от Meta (бывшей Facebook) [2788], помимо текста и изображений, умеют оперировать со звуковыми данными.

Исследователи из DeepMind развивают технологию, получившую название ReLIC (Representation Learning via Invariant Causal Mechanisms, Обучение представлениям через инвариантные причинные механизмы), позволяющую обучать большие свёрточные сети с архитектурной ResNet в режиме самообучения [self-supervised learning], чтобы затем использовать выученные ими представления в решении самых разных задач, в которых востребовано компьютерное зрение, — от классификации картинок до создания систем искусственного интеллекта для аркадных игр [2789], [2790].

Несмотря на популярность генеративно-состязательного подхода при создании изображений, он обладает и некоторыми недостатками. Из-за сложных нелинейных эффектов, которые возникают при совместном обучении двух моделей, процесс обучения может растягиваться на длительное время или вовсе не приводить к желаемому результату. Часто бывает сложно найти обеспечивающее успех обучения соотношение архитектур моделей, структур функций потерь и различных гиперпараметров, что делает эксперименты в области генеративно-состязательных систем вычислительно затратными и довольно плохо предсказуемыми. Поэтому параллельно с генеративно-состязательной парадигмой развиваются и альтернативные подходы, например авторегрессионные модели [2791]. Наверное, самыми известными моделями такого рода в середине 2010-х гг. стали PixelRNN [2792] и PixelCNN [2793]. Эти модели в явном виде эксплуатируют зависимости между пикселями изображения, пытаясь предсказать очередной пиксель, опираясь на уже сгенерированные. При этом PixelRNN — это рекуррентная архитектура на базе LSTM, которая рассматривает изображения в качестве последовательностей пикселей, а PixelCNN — свёрточная архитектура, получающая на вход уже сгенерированную часть картинки. Дополнительно на вход сети можно подавать различного рода обусловливающие векторы, например содержащие информацию о классе генерируемого объекта или о наборе его признаков. Этот набор признаков можно получить в результате подачи эталонной картинки на вход свёрточной нейронной сети, обученной решению задачи классификации. В таком случае при помощи генеративной модели можно создавать альтернативные изображения объекта на эталонной картинке.

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*