Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Впрочем, сегодня некоторые модели научились рисовать и лошадей на астронавтах, хотя такие примеры до сих пор плохо работают «из коробки» — для того чтобы получить требуемый результат, требуются усилия промпт-инженеров [2876]. Исследователь из Microsoft Джеймс Маккаммон придумал для обозначения такого типа запросов специальный термин «антагонистические запросы» [antagonistic prompts]; в своей статье он предлагает развёрнутую классификацию таких запросов и оценивает способность Midjourney 5.1 справляться с ними [2877]. В наши дни исследователи активно ищут способы улучшения работы моделей, генерирующих изображения, в том числе и в таких сложных случаях [2878].

Помимо обработки антагонистических запросов, сегодня на повестке дня стоит умение моделей воспринимать максимально детализированные описания (например, не просто нарисовать лицо человека, а воспроизвести его облик по подробному описанию, включающему форму носа, цвет и форму глаз, губ и т. д.). Кроме того, сегодня исследователи опробуют нейросетевые модели в задачах генерации зрительных образов, обладающих большей размерностью: например в задачах генерации видео (о них мы подробнее поговорим в следующем разделе) и в задачах генерации трёхмерных объектов. К числу последних относятся модели для таких задач, как генерации полигональных сеток [mesh] трёхмерных объектов (например, модель TextMesh [2879]), нейросетевой рендеринг (обычно при помощи моделей из семейства NeRF (Neural radiance field, Нейронное поле яркости) [2880] — RegNeRF [2881], DreamFusion [2882], Instant NeRF [2883] и т. д.), генерация изображений вместе с картами глубин (например, LDM3D [2884]), построение карт глубин на основе имеющихся (в том числе сгенерированных) изображений — например MiDaS (Mixed Data Sampling, Смешанное семплирование данных) [2885], и так далее. В марте 2023 г. был опубликован [2886] датасет под названием Objaverse-XL, включающий в себя более 10 млн трёхмерных объектов, снабжённых текстовыми описаниями (при этом в предыдущей версии Objaverse, вышедшей в декабре 2022 г., их было лишь чуть больше 800 тысяч [2887]), что открыло дверь для создания новых, более совершенных моделей для 3D-генерации.

Успехи графических генеративных нейросетей вызвали нешуточную полемику в сообществе профессиональных дизайнеров и художников [2888], едва ли не более ожесточённую, чем споры времён появления фотографии. Впрочем, возможно, и на авторегрессионных моделях генерации изображений пока рано ставить крест: по крайней мере Parti [2889] от Google и Craiyon (бывшая DALL-E Mini, переименованная по требованию OpenAI) [2890] от Craiyon LLC также порой демонстрируют интересные результаты.

Охота на электроовец. Большая книга искусственного интеллекта - image308.jpg
Рис. 174. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Обворожительная хозяйка медной горы" , стиль: 4k»
Охота на электроовец. Большая книга искусственного интеллекта - image309.jpg

Рис. 175. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Ктулху в дыму", стиль: 4k»

Вообще, успех фундаментальных моделей в области обработки естественного языка, а также генерации изображений по тексту подтолкнул специалистов из области компьютерного зрения к активным экспериментам в области этой парадигмы — действительно, почему бы не сделать предобученную модель, которую затем можно будет использовать для решения самых разных задач в области обработки изображений? В результате вслед за CLIP и DALL·E на свет появились такие модели, как FLORENCE [2891] и NÜWA (Visual Synthesis Pre-training for Neural visUal World creAtion, Предобучение визуального синтеза для нейросетевого создания визуальных миров) [2892] от исследователей из Microsoft, ALIGN от Google Research [2893], а также основанные на MoE-подходе V-MoE от Google Brain [2894] и WuDao 2.0 от Пекинской академии искусственного интеллекта [2895].

Не остались в долгу и специалисты от DeepMind, представившие публике собственную модель под названием Flamingo, предназначенную для решения примерно того же спектра задач. Для обозначения этого класса моделей специалисты предлагают использовать термин «визуальные языковые модели» (Visual Language Models, VLMs). Flamingo имеет 80 млрд параметров и состоит из двух частей (отвечающих за текстовое и графическое представление соответственно), а также отдельной нейронной сети, обеспечивающей связь этих двух представлений [2896], [2897]. Фактически роль первой части играет языковая модель Chinchilla с 70 млрд параметров, обученная специалистами DeepMind в ходе одного из предыдущих исследований. Напомним, что эта модель знаменита тем, что при существенно меньшем числе параметров в ряде тестов побеждает более «тяжёлые» аналоги, такие, например, как GPT-3 со 175 млрд параметров, Gopher (280 млрд параметров) и даже Megatron-Turing NLG (530 млрд параметров) [2898], [2899].

В начале 2023 г. исследователи из Meta представили [2900] публике проект SA (Segment Anything, Сегментируй всё): новую задачу, модель SAM (Segment Anything Model) и набор данных SA-1B для сегментации изображений (то есть по сути генерации масок, выделяющих на изображении фрагменты, обладающие заданными свойствами, например содержащие объекты определённого типа), включающий более чем 1 млрд масок и 11 млн изображений. Фактически SAM способна для любого изображения сгенерировать маску на основе текстового запроса. Это позволяет решать множество задач компьютерного зрения в режиме zero-shot.

6.6.10 Машина создаёт видео

Ещё одно большое и сложное направление для генеративных моделей — создание видео, хотя и здесь уже существуют первые прототипы решений для некоторых задач. Например, весьма впечатляющие результаты получены для задачи подмены лиц людей в видеороликах.

Благодаря этому в наш лексикон вошёл новый термин — «дипфейк» [deepfake] (от понятий deep learning — глубокое обучение и fake — подделка). Под дипфейками понимают изображения или видео, с которыми при помощи алгоритмов глубокого обучения была произведена серьёзная манипуляция (обычно заключающаяся в подмене действующих лиц). Дипфейки могут быть основой ложных новостных сообщений, мистификаций, финансового мошенничества, а также порнороликов с участием знаменитостей (или людей, ставших объектами так называемой порномести [revenge porn] — то есть размещения в публичном доступе материалов сексуального характера без согласия изображённого в них лица). Именно из-за страхов перед ненадлежащим использованием подобных технологий дипфейки, по всей видимости, и получили эту уничижительную кличку. Между тем эти же методы могут с успехом применяться в искусстве. Например, в марте 2018 г. поп-арт-художник Йозеф Айерле представил публике музыкальный клип на песню «Купи меня» [Comprami] итальянской певицы Виолы Валентино. В этом клипе (он получил название «Эмоции навсегда 2.0: в главной роли Орнелла Мути» (Un’emozione per sempre 2.0: starring Ornella Muti)) итальянская кинозвезда Орнелла Мути путешествует из 1978-го в 2018-й. Айерле использовал съёмки фотомодели Кендалл Дженнер. Нейросетевая модель заменила лицо Дженнер лицом Мути, таким образом технически в клипе мы можем наблюдать несуществующего человека с телом Кендалл Дженнер и лицом Орнеллы Мути [2901], [2902].

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*