Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Интереснее вопрос, а что же рисуют модели, получив на вход несуществующие слова? Увы, у модели нет опции ответить на ваш запрос что-то вроде: «Такой штуки не существует! Я не знаю, как это выглядит!» Текстовый кодировщик применяет к тарабарщине выученные им преобразования, и получается некоторое внутреннее представление, которое остальная часть сети преобразует затем в изображение. Внутреннее представление будет основываться на каких-то случайных отдалённых ассоциациях. Например, бессмысленное слово apoploe похоже на apodidae, латинское название семейства «стрижи» (оба слова начинаются на apo и заканчиваются на «e», с разницей в длине всего в одну букву), contarra ccetnxniams, вероятно, «напомнило» нейросети латинское название каких-то насекомых (coleoptera — это жуки), vicootes, видимо, похоже на английское vegetables [овощи] или на финское vihannes с тем же значением (по крайней мере, все три слова начинаются на v и заканчиваются на es, а финское слово и вовсе имеет ту же длину и совпадает с «тарабарским» по первым двум и последним двум буквам). В целом современные модели, предназначенные для создания изображений по тексту, обычно справляются со своей задачей, даже если в отдельных словах допущены орфографические ошибки. Однако чем больше искажений мы вносим в слова, тем менее стабильными становятся ассоциации модели. В конце концов, если допустить в слове «хлеб» четыре ошибки, то получится «пиво».

Впрочем, в каком-то смысле говорить о наличии у моделей собственного языка можно. В конце концов текстовый кодировщик превращает текст на естественном языке в некоторое внутреннее представление, которое уже определённо не похоже на человеческий язык, хотя и содержит в себе информацию, достаточную для синтеза соответствующего визуального образа. Кроме того, в процессе обучения нейросеть выучивает вполне однозначные преобразования, позволяющие получить это внутреннее представление из текста на естественном языке. И для одного и того же текста мы всегда будем получать одно и то же внутреннее представление (это и придаёт некоторую стабильность изображениям, возникающим по запросам с несуществующими словами). Однако в полной мере называть языком внутренние представления нейросетей, предназначенных для генерации изображений по тексту, нельзя. Ведь они являются специфичными для конкретной сети, а значит, такой «язык» никак не может выполнять одну из основных функций настоящего языка — коммуникативную.

И всё-таки модели, научившиеся в ходе обучения связывать человеческий язык и визуальные образы, — удивительное достижение современных технологий. И диффузионные трансформерные модели стали очень важным шагом вперёд не только с точки зрения улучшения качества генерации изображений, но и с точки зрения развития мультимодальных систем в целом.

Вообще с конца 2021 г. начинается настоящий бум диффузионных моделей для генерации изображений. Именно в ходе него появляются открытая модель StableDiffusion [2859] от компании StabilityAI (и множество её клонов), уже упоминавшаяся нами модель GLIDE, а также DALL·E 2 [2860] и DALL·E 3 [2861] от OpenAI, Imagen [2862] от Google, целых шесть версий (V1, V2, V3, V4, V5, V5.1) Midjourney [2863], [2864] от Midjourney Inc., Matryoshka от Meta [2865], IF [2866] от лаборатории DeepFloyd в StabilityAI, наши, сберовские модели Kandinsky 2.0 [2867], Kandinsky 2.1 [2868], [2869] и Kandinsky 2.2 [2870]. Именно развитие диффузионных моделей привело к настоящей революции визуального генеративного искусства, серьёзно повлиявшей на креативную индустрию. За 2022 и первую половину 2023 г. при помощи генеративных моделей по текстовым запросам было создано около 15 млрд изображений (для сравнения: с появления первой фотографии в 1826 г. и до 15-миллиардной прошло почти 150 лет) [2871]. В результате в наши дни уже трудно найти человека, который не в курсе изобразительных способностей машин. На базе генеративных моделей быстро стали появляться различные инструменты, позволяющие цифровым художникам решать самые разные прикладные задачи, да и сами генеративные сети стали «обрастать» новыми режимами работы. Например, при помощи Stable Diffusion, Midjourney и Kandinsky вы можете не только создать новое изображение, но и дорисовать существующее. Сеть может на основе текстового запроса в режиме «врисовка» [inpainting] дорисовать содержимое вырезанной части изображения, в режиме «обрисовка» [outpainting] продолжить ваше изображение за пределы холста, в режиме «смешивание» [blending] смешать в заданной пропорции два изображения или же существующее изображение со сгенерированным по текстовому описанию. Созданы и более хитрые инструменты, такие как, например, смешивание с сохранением геометрии объектов исходного изображения (для этого используются вспомогательные нейросети из семейства ControlNet [2872]). Революция в области генеративной графики не могла не привлечь внимание крупных компаний, разрабатывающих инструменты для работы с изображениями. Так, компания Adobe добавила в свой графический редактор Photoshop новые функции, основанные на нейросетевых моделях (например, функцию генеративной заливки [generative fill]) [2873].

По мере совершенствования архитектур, роста размера и количества данных, на которых происходит обучение, генеративные сети становятся способны корректно обрабатывать всё более сложные и нестандартные текстовые запросы. Ещё недавно одной из типичных проблем генеративных моделей компьютерного зрения была их неспособность без ошибок нарисовать человеческие руки — с правильным числом и расположением пальцев. Но сегодня наиболее продвинутые модели чаще всего уже справляются с этой задачей. Вообще, как известно, нерекуррентные трансформерные модели не слишком хорошо умеют считать — с задачей подсчёта даже сравнительно небольшого числа объектов на генерируемой картинке (будь то пальцы, концы звезды, люди и т. д.) могут справиться только действительно большие нейросети, обученные на огромном числе соответствующих примеров. Другая проблема — создание сложных и необычных сочетаний объектов. Например, для большинства современных моделей уже не является проблемой изобразить астронавта на лошади, но если попросить модель нарисовать лошадь верхом на астронавте, то уже возникают большие трудности [2874]. Придумавший этот пример Гэри Маркус, профессор кафедры психологии Нью-Йоркского университета и специалист по ИИ, считает это одной из ярких иллюстраций того, что нейросетевые модели ограничены в постижении так называемой композициональности — свойства естественного языка, в соответствии с которым значение сложного выражения функционально зависит от значений отдельных его частей и способа, которым эти части комбинируются друг с другом, то есть по сути синтаксиса. По мнению Маркуса, композициональность сама собой не может быть постигнута современными нейросетевыми моделями за счёт увеличения количества обучающих данных. Для того чтобы решить эту проблему, по мнению Маркуса нужны специальные архитектуры [2875].

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*