Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
Охота на электроовец. Большая книга искусственного интеллекта - image298.jpg
Рис. 165. Примеры увеличения разрешения одиночных изображений моделью CAR

Впрочем, даже без применения CAR современные модели показывают в этой задаче вполне приличные результаты. Ниже приведены примеры из современных работ, посвящённых разработке моделей для решения задачи SISR: «Сохраняющее структуру повышение разрешения с наведением по градиенту» [Structure-Preserving Super Resolution with Gradient Guidance] [2805] и «Увеличение разрешения для одиночного изображения с помощью сети с холистическим вниманием» [Single Image Super-Resolution via a Holistic Attention Network] [2806].

Охота на электроовец. Большая книга искусственного интеллекта - image299.jpg
Охота на электроовец. Большая книга искусственного интеллекта - image300.jpg
Рис. 166. Примеры увеличения разрешения одиночных изображений различными моделями

Вторая разновидность задачи ISR называется, как несложно догадаться, MISR (Multiple Image Super-Resolution, Увеличение разрешения для множества изображений). В случае MISR мы имеем дело с ситуацией, когда у нас есть несколько изображений с низким разрешением, по которым необходимо получить объединяющее изображение высокого разрешения. Одна из основных областей применения MISR — обработка спутниковых снимков. Примером модели, предназначенной для решения задачи MISR, является EvoNet, в которой выходы нескольких свёрточных сетей, решающих задачу SISR для каждого из изображений с низким разрешением, затем специальным образом комбинируются с учётом возможных сдвигов, а после этого подвергаются пошаговой фильтрации [2807].

Охота на электроовец. Большая книга искусственного интеллекта - image301.jpg
Рис. 167. Пример увеличения разрешения для множества изображений

Весной 2019 г. другая группа исследователей представила в статье «DM-GAN: генеративно-состязательные сети с динамической памятью для синтеза изображения на основе текста» (DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis) [2808] архитектуру DM-GAN, которая способна не только «рисовать» более реалистичных птичек, но и производить на свет что-то более или менее правдоподобное при работе с более разнообразным набором данных — COCO (Common Objects in COntext, Обычные объекты в контексте), содержащим более 200 000 размеченных изображений объектов, принадлежащих к одному из 80 классов (самолёты, кошки, собаки, пожарные гидранты и т. д.). На иллюстрации ниже можно наблюдать сравнение результатов DM-GAN с результатами StackGAN и ещё одной более ранней модели — AttnGAN [2809].

Охота на электроовец. Большая книга искусственного интеллекта - image302.jpg
Рис. 168. Сравнение результатов синтеза изображений на основе текста для моделей DM-GAN, StackGAN и AttnGAN

Ещё одна архитектура для синтеза изображений на основе текста была описана в статье 2019 г. под названием «CPGAN: генеративно-состязательные сети с анализом полного спектра контента для синтеза изображений на основе текста» (CPGAN: Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis) [2810].

Охота на электроовец. Большая книга искусственного интеллекта - image303.jpg
Рис. 169. Сравнение результатов синтеза изображений на основе текста модели CPGAN с другими моделями

На август 2020 г. эта архитектура лидировала по величине Inception score среди подобных моделей и обходила StackGAN и AttnGAN при оценке изображений людьми.

Но в самом начале 2021-го в этой области произошла очередная революция. Она была связана с появлением модели, получившей название DALL·E (в честь Сальвадора Дали и робота WALL-E из одноимённого анимационного фильма компании Pixar). Эта модель была создана исследователями из компании OpenAI. Архитектура генерирующей нейронной сети идентична версии модели GPT-3 с 13 млрд параметров. При этом используется словарь токенов, включающих в себя как элементы текста, так и элементы изображения. При обработке визуальных токенов используются несколько модифицированные матрицы внимания, но в целом перед нами наша старая знакомая, отличившаяся в задаче генерации текстов.

То, что трансформерные модели могут успешно обрабатывать изображения, было известно и ранее — пионерской работой в этом направлении в 2018 г. стала сеть Image Transformer [2811]. В 2020 г. на свет появились более совершенные модели — сначала Visual Transformer (Визуальный трансформер), или VT [2812], затем Vision Transformer (Зрительный трансформер), или ViT [2813], а затем улучшенные версии последнего — DEiT (Data-efficient image Transformer, Эффективный по отношению к данным трансформер изображений) [2814] и SWIN (от Shifted WINdow — сдвигающееся окно) [2815]. В том же году появились первые гибридные свёрточно-трансформерные архитектуры, например DETR (DEtection TRansformer, Трансформер обнаружения) [2816] от исследователей из Facebook, а чуть позже — его улучшенная версия Deformable DETR (Деформируемый DETR) [2817]. Созданная в 2021 г. гибридная нейросетевая архитектура — CMT (CNN Meet Transformers, Свёрточные нейронные сети сходятся с трансформерами) — позволила достичь при классификации изображений ImageNet точности top-1, равной 83,5%, что всего на 0,8 процентного пункта меньше, чем у лучшего варианта EfficientNet-B7 при примерно вдвое меньшем числе параметров [2818]. Вообще, 2021-й стал годом визуальных трансформеров — одно только перечисление новых вариантов трансформерных или гибридных архитектур для задач компьютерного зрения, созданных в этом году, заняло бы едва ли не целую страницу, поэтому вот лишь некоторые из них: CvT [2819], CaiT [2820], CeiT [2821], AutoFormer [2822], TNT [2823], DVT [2824], Mixer [2825], CoAtNet [2826], SwinV2 [2827], MViT [2828], PeCo [2829], Pale Transformer [2830] и так далее.

Очередные рекорды точности решения задач в этой области держались считаные дни, на смену трансформерам в первых строчках таблиц лидеров на paperswithcode.com вновь приходили свёрточные архитектуры (на них, по мнению некоторых исследователей [2831], ещё рановато ставить крест), а им на смену — снова трансформеры или гибридные сети. При этом в ряде случаев достичь новой рекордной отметки помогали даже не изменения в архитектурах, а новые способы обучения или аугментации данных. На август 2023 г. первое место по top-1-точности классификации на датасете ImageNet занимает свёрточно-трансформерная архитектура BASIC-L [2832] (91,1%), обгоняя всего на 0,1% чисто трансформерную архитектуру CoCa (Contrastive Captioners, Контрастные подписыватели) [2833]. Однако к моменту выхода этой книги на верхних строчках таблицы рекордов окажутся уже, скорее всего, какие-то другие модели.

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*