Mir-knigi.info
mir-knigi.info » Книги » Компьютеры и интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Тут можно читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич. Жанр: Базы данных / Прочая компьютерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mir-knigi.info (Mir knigi) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Первые результаты не заставили себя ждать. Когда в конце ноября 2021 г. Всемирная организация здравоохранения объявила о присвоении новому варианту SARS-CoV-2 под кодовым названием B.1.1.529 наименования Omicron, исследователь Колби Форд из Университета Северной Каролины применил AlphaFold 2 к последовательности аминокислот этого вируса и опубликовал полученные результаты в Сети. Форд поделился предсказанной AlphaFold 2 формой S-белка вируса, а также высказал соображения о том, что Omicron, по всей видимости, должен быть более устойчив ко многим имеющимся на данный момент вакцинам и лекарствам [3009], [3010]. После того как были получены лабораторные результаты исследования структуры белков вируса, выяснилось, что предсказания AlphaFold 2 были весьма точны: позиции центральных атомов в построенной модели отличались от реальных на совсем небольшие величины, приблизительно равные радиусу атома водорода [3011]. В конце июля 2022 г. DeepMind опубликовала огромную базу данных (AlphaFold Protein Structure Database, База данных структур белков AlphaFold), включающую в себя предсказанные AlphaFold 2 трёхмерные структуры около 200 миллионов белков (т. е. практически всех известных нам белков на планете) [3012].

В середине 2021 г. исследователи из Google рассказали в журнале Nature об успешном применении системы, основанной на обучении с подкреплением, для автоматической разработки новых интегральных схем. Новая система может менее чем за шесть часов спроектировать чип, на разработку которого у людей уходят месяцы, причём данный способ был с успехом опробован на практике при разработке нового TPU четвёртой версии от Google. По мнению создателей системы, достигнутый прогресс может серьёзно повлиять на весь полупроводниковый сектор [3013], позволив компаниям проводить крупномасштабные архитектурные исследования.

«Разработка лекарств, белков, квантовая химия, новые материалы — только подумайте, возможно, не за горами появление сверхпроводника, работающего при комнатной температуре, — говорит Демис Хассабис, глава DeepMind. — Я мечтал о таком с тех пор, как был ребёнком и читал книги по физике» [3014].

Генеративные модели создают новые молекулы, новые структуры композитных материалов [3015], проектируют инженерные конструкции [3016], верстают сайты [3017], придумывают дизайн промышленных изделий [3018] и интерьера помещений [3019], логотипы [3020] и даже новые архитектуры нейросетевых моделей [3021]. За последние годы исследователи Google опубликовали сразу несколько работ [3022], [3023], [3024], [3025], посвящённых этому направлению — обычно его называют AutoML (Automated machine learning, автоматическое машинное обучение).

Успехи нейросетевых моделей в области обработки естественного языка привели к тому, что исследователи попытались повторить эти успехи в смежной области — обработке языков программирования (Programming language processing, PLP). Практически для любой задачи из области NLP можно найти аналог в мире PLP. Например, задача машинного перевода соответствует задачам трансляции текста программы в псевдокод или машинный код, перевода текста программ с одного языка программирования на другой, а также декомпиляции. Задача генерации текста на естественном языке в мире PLP становится задачей генерации текста программы (например, автозавершение вводимого текста программы или даже генерация текста программы по его описанию на естественном языке). Сентимент-анализу соответствует поиск дефектов в программном коде (например, ошибок или уязвимостей) и так далее. Неудивительно, что в мире PLP сегодня господствуют родственники популярных NLP-моделей. Например, основанная на трансформерах модель PLBART [3026] приходится ближайшей родственницей модели BART [3027], модель CodeBERT [3028] основана на BERT, GPT-C [3029] — на GPT-2, code2vec [3030] отсылает нас к word2vec и так далее. В последние годы на основе подобных моделей появился целый ряд инструментов разработки, быстро завоевавших популярность, например Kite [3031], TabNine [3032] или Copilot [3033]. В начале февраля 2022 г. собственную модель для генерации кода, получившую название AlphaCode, представила и DeepMind. Модель справляется с решением задачек на сайте соревнований по спортивному программированию Codeforces на уровне, не уступающем средним программистам [3034]. Сегодня генеративные трансформерные модели, получая на вход текстовые описания, справляются с генерацией кода [3035], [3036] и даже с созданием несложных приложений [3037], а в задаче поиска дефектов и уязвимостей в коде они уже превосходят статические анализаторы кода, основанные на обширных наборах правил [3038], [3039], [3040].

В последнее время появилось и несколько открытых моделей, предназначенных для работы с программным кодом, например: InCoder [3041], CodeGen [3042], SantaCoder [3043], StarCoder [3044], Code Llama [3045], WizardCoder [3046] и Replit Code [3047].

Впрочем, не стоит предаваться чрезмерному оптимизму и думать, что с появлением таких моделей, как BERT, T5 или GPT-3, все творческие задачи в областях, где данные по своей структуре напоминают текст, уже решены или будут решены в ближайшее время. Точно так же не следует думать, что генеративно-состязательные сети в сочетании с глубокими свёрточными сетями раз и навсегда сделали творческие задачи, связанные со всем, что напоминает изображения, тривиальными. Ограничения реального мира в виде нехватки данных или вычислительных мощностей остаются серьёзными препятствиями на пути эффективного машинного творчества. Например, существующие базы данных расшифрованных последовательностей ДНК людей в сумме составляют немногим больше миллиона записей. Медицинская и биологическая информация нередко разбросана по сотням и тысячам относительно небольших баз данных, доступ исследователей к которым ограничен действующими законами и коммерческой тайной. С расшифрованными последовательностями ДНК других организмов дела обстоят не многим лучше — стоимость секвенирования пока что достаточно высока, и не все лаборатории стремятся предоставить открытый доступ к собранным ими данным. Если бы эта информация была столь же доступной, как фотографии или тексты, это могло бы помочь в создании генеративных моделей для разработки новых лекарств, генной терапии, генно-модифицированных организмов (для медицинских и других целей) и так далее. Но люди, к большому сожалению исследователей, выкладывают в социальные сети фотографии своих котиков, а не результаты секвенирования ДНК. Большие модели, подобные GPT-3, требуют при обучении не только гигантских объёмов данных, но и выдающихся вычислительных затрат, которые в наши дни по карману лишь крупным корпорациям. Кроме того, эти модели требуют больших объёмов вычислений не только на этапе обучения, но и на этапе использования.

Перейти на страницу:

Марков Сергей Николаевич читать все книги автора по порядку

Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Марков Сергей Николаевич. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mir-knigi.info.


Прокомментировать
Подтвердите что вы не робот:*