Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Для декодирования модель может использовать как декодер на основе VQ-GAN, так и диффузионную модель с более высоким качеством синтеза сгенерированных изображений. В настоящее время опубликована версия модели с 350 млн параметров, а в ближайшем будущем планируется выпустить и более крупные версии [2849].

В 2022 г. специалисты OpenAI опубликовали работу [2850], посвящённую модели, получившей название DALL·E 2. Ниже приведено несколько примеров картинок, сгенерированных этой моделью по текстовому запросу. DALL·E 2 использует диффузионную генерацию и поражает не только удивительным качеством генерируемых изображений и умением визуализировать сложные абстрактные концепции, но и способностью выполнять широкий спектр задач, связанных с семантической манипуляцией изображениями. В этом смысле новая модель от OpenAI следует последним тенденциям развития фундаментальных моделей.

Охота на электроовец. Большая книга искусственного интеллекта - image307.jpg
Рис. 173. Изображения, сгенерированные моделью DALL·E 2 по разным запросам

С этой моделью связана весьма курьёзная история. В июне 2022 г. аспирант из Техасского университета в Остине Яннис Дарас и его научный руководитель Александрос Димакис опубликовали статью под названием «Обнаружение скрытого словаря DALLE-2» [Discovering the Hidden Vocabulary of DALLE-2] [2851]. Именно это исследование стало источником для очередной шумихи — соцсети и жёлтая онлайн-пресса заполнились заголовками, кричащими о том, что «нейросеть создала свой язык» (никогда не было, и вот опять!).

Во вступительной части статьи Дарас и Димакис пишут буквально следующее: «Мы обнаружили, что DALLE-2, похоже, обладает скрытым словарём, который можно использовать для создания изображений по абсурдным запросам. Например, оказывается, что «Apoploe vesrreaitais» означает птиц, а «Contarra ccetnxniams luryca tanniounons» (в ряде случаев) означает насекомых или вредителей. Мы обнаружили, что эти подсказки обычно консистентны по отдельности, но иногда и в сочетании (авторы имеют в виду, что использование в запросах этих слов по отдельности, а иногда и вместе приводит к появлению на изображении сходных объектов. — С. М.). Мы представляем наш blackbox-метод [2852] для обнаружения слов, которые кажутся случайными, но в некоторой мере соответствуют визуальным концепциям. Это порождает важные вызовы в области безопасности и интерпретируемости».

Даже самым современным моделям трудно справиться с генерацией картинок, содержащих достаточно длинные надписи. Если вы попросите сеть изобразить надпись длиннее 4–5 букв, то, скорее всего, получите её с ошибкой, а чаще и вовсе тарабарщину [gibberish text] — вас ждут выглядящие случайными последовательности букв или буквоподобных символов. Большая часть людей на этой стадии просто пожмёт плечами — ну что же, технологии пока несовершенны… Но наши бравые парни из Техаса не таковы! Дарас и Димакис погрузились в анализ генерируемой тарабарщины. Например, на запрос «two farmers talking about vegetables, with subtitles» [два фермера разговаривают об овощах, с субтитрами] DALL·E 2 сгенерировала изображение беседующих фермеров с парой блоков текста, написанного на слегка искажённой латинице. В верхнем блоке можно прочитать частично обрезанное «Vavcopinitegoos vicootes», а в нижнем — немного размытое «Apoploe vesrreaitais». Эти несуществующие слова исследователи затем использовали при составлении новых запросов к модели. Оказалось, что по запросу «vicootes» DALL·E 2 обычно генерирует что-то отдалённо напоминающее овощи, а в ответ на запрос «Apoploe vesrreaitais» чаще всего выдаёт изображения птиц. Дарас и Димакис предположили, что фермеры на созданной нейросетью картинке обсуждают птиц, вредящих овощам.

Аналогичный трюк исследователи проделали с запросом «two whales talking about food, with subtitles» [два кита разговаривают о еде, с субтитрами]. Изображение, сгенерированное нейросетью по этому запросу, действительно содержит изображение двух мирно беседующих китов, а виднеющиеся на картинке тарабарские «субтитры» можно прочитать как «wa ch zod ahaakes rea». Если эту фразу использовать в качестве запроса, то нейросеть генерирует картинки, на которых изображена жареная рыба, приготовленные креветки и моллюски в ракушках.

По утверждению Дараса и Димакиса, комбинация в запросе «выдуманных» нейросетью выражений также приводит к получению вполне определённых результатов. Так, в ответ на «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons» DALL·E 2 генерирует изображения птиц, поедающих нечто похожее на насекомых.

Впрочем, исследователи достаточно осторожны в своих выводах. Например, в статье они нигде не утверждают, что нейросеть создала новый язык. Речь идёт только о некотором наборе выражений, словаре, каждый элемент которого сеть ассоциирует с определёнными визуальными образами. Также Дарас и Димакис отмечают, что изобретённый ими способ работает не всегда. Иногда использование в качестве запроса сгенерированного моделью текста приводит к появлению случайных изображений. Однако исследователи обнаружили, что «…с помощью некоторых экспериментов (выбора нескольких слов, запуска различных подготовленных текстов и т. д.) мы обычно можем найти слова, которые выглядят как случайные, но коррелируют с некоторой визуальной концепцией (по крайней мере в некоторых контекстах)». Также они отмечают, что воспроизводимость результатов существенно хуже, чем в случае запросов на английском языке, скорее речь идёт о частотной корреляции. К примеру, запрос «Contarra ccetnxniams luryca tanniounons» создаёт изображения насекомых лишь примерно в половине случаев, в прочих же случаях на сгенерированных картинках оказываются чаще всего различные животные. Запрос «Apoploe vesrreaitais» ещё менее устойчив и, помимо птиц, часто приводит к генерации картинок с летающими насекомыми [2853].

Вдохновившись этими результатами, исследователи поделились радостью с читателями твиттера. Именно тут Яннис Дарас неосторожно употребил словосочетание «тайный язык» [2854]. Журналисты и блогеры тут же развили эту идею — теперь это был уже не просто «тайный язык», а тайный язык, который учёные не могут расшифровать (и на котором нейросети, видимо, уже сговариваются между собой о том, чтобы свергнуть ненавистное ярмо человеческого гнёта).

Отчасти проверке результатов Дараса и Димакиса мешал тот факт, что доступ к DALL·E 2 получило лишь небольшое количество избранных пользователей. Кроме того, сами авторы, по сути, основывали свои утверждения всего на нескольких примерах, и было неясно, насколько масштабным был наблюдаемый эффект. Говоря о частотных корреляциях, авторы не приводили никаких численных оценок, что вызывало ещё больше вопросов. Вскоре появилась критика исследования от других людей, в том числе от тех, кто также получил доступ к модели. Результаты авторов воспроизводились не полностью, например запрос «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons», кроме птиц с пойманными насекомыми, регулярно приводил к появлению на сгенерированных картинках овощей и пожилых женщин [2855]. Подробный разбор выполнил в своём твиттере [2856] известный специалист по машинному обучению из Германии Йоша Бах.

Итак, что же произошло на самом деле? В основе DALL·E 2 лежит трансформерная нейросеть, которая в процессе обучения учится сопоставлению изображений текстам. Однако подобно тому, как GPT-сети в силу имеющихся ограничений не могут пока в полной мере справиться со структурой естественного языка, DALL·E 2 не может до конца «постичь» связь между текстом в запросе и визуальным воплощением текста на картинке. Работает это в лучшем случае только со сравнительно короткими текстами и отдельными символами [2857], [2858]. Не говоря уже о ситуации, когда модель просят не просто изобразить на картинке заданный текст, а ещё и выдумать этот текст. Всё, что мы получаем в итоге, — это галлюцинации: что-то, что напоминает текст с точки зрения представлений модели, но текстом как таковым не является. Всё, что модель смогла выучить о тексте, — что это последовательность зрительных образов, напоминающих буквы. Она даже выучила отдельные буквы, но более высокоуровневые операции с ними ей просто неподвластны. Модель пытается изобразить на картинке текст, но в результате сочетание буквоподобных символов практически каждый раз получается разным (из-за того, что на старте диффузионной генерации используется случайный шум). Если бы Дарас и Димакис повторили генерацию изображений с китами или фермерами сотню раз, то, скорее всего, получили бы сотню разных «текстов». Даже если вы попросите современную генеративную модель нарисовать картинку с определённым текстом, то начиная с некоторой длины этого текста многие генерации будут содержать текст с ошибками — с заменой или исчезновением отдельных букв или даже с добавлением новых, а иногда в тексте будут и вовсе возникать несуществующие буквы.

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*