Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
История Мансура по сути лишь иллюстрирует давние тенденции в области кредита и занятости, и она ни в коем случае не уникальна. Интернет-магазины живут в постоянном ужасе перед «смертной казнью Google» — внезапным, загадочным падением в рейтинге поисковых систем, в случае если они сделали нечто, что алгоритмы Google расценили как мошенничество. В США соискатели работы в Walmart’е и других крупных компаниях проходят некие «личностные тесты», которые затем обрабатываются неизвестными им алгоритмами с неведомым результатом. «Белые воротнички» также сталкиваются с программами для сортировки резюме, способными занизить или полностью проигнорировать квалификацию кандидата. Например, один алгоритмический анализатор резюме решил, что все 29 000 людей, претендовавших на «более-менее стандартную инженерную должность», недостаточно квалифицированны.
Практика показала, что «цифровой тайный суд» вполне может привести к реальным судебным приговорам и даже смертям людей. Например, на протяжении почти двух десятилетий сотрудники британской почтовой компании Post Office использовали для учёта продаж систему под названием Horizon. Из-за допущенных при её разработке ошибок некоторые расчёты осуществлялись неправильно, вследствие чего возникали мнимые недостачи на десятки тысяч фунтов. В итоге за несуществующие растраты были осуждены десятки сотрудников компании! Когда истинное положение вещей всё же выплыло на поверхность, было отменено 39 судебных приговоров, а компания Post Office выплатила компенсации 555 заявителям. Случай Horizon стал самой большой судебной ошибкой в истории Великобритании. Невинно осуждённым сотрудникам был нанесён огромный ущерб. Многие из них утратили сбережения, лишились возможности трудоустройства на престижную работу, оказались за решёткой, пережили распад семьи, а один из сотрудников, узнав, что за ним числится недостача в 100 000 фунтов, покончил с собой [3178], [3179], [3180].
Как видно, проблема «цифрового тайного суда» весьма актуальна, и никто не защищён от того, что в отношении него цифровой моделью будет принято какое-либо серьёзное решение. Однако если в случае обычного суда у человека есть право на состязательный процесс, на получение квалифицированной юридической помощи, на доступ к доказательствам, то в описанных выше случаях ничего подобного невозможно. Модель является собственностью компании, и человек не имеет права ни узнать причину отказа, ни проверить принятое решение на наличие ошибок, ни даже выяснить, какие именно данные о нём были приняты в расчёт. Всё, что связано с работой алгоритма, полностью закрыто от того, в отношении кого этот алгоритм принимает решение. Нередко параметры таких алгоритмов относятся к числу самых охраняемых тайн коммерческих организаций.
2. С проблемой закрытости связана вторая важная проблема — отсутствие обратной связи. Получив отказ на свою заявку, вы не знаете, что именно необходимо сделать, чтобы избежать повторного отказа. Одну женщину частный брокер данных ложно обвинил в том, что она продаёт метамфетамин, и той потребовались годы, чтобы исправить запись, — годы, в течение которых домовладельцы и банки отказывали ей в жилье и кредитах. Ситуация с государственными базами данных может быть ещё хуже: в США, например, репутация невинных людей может пострадать из-за попадания в отчёты о подозрительной деятельности или неточных записей об арестах. Этой проблеме много лет, и она пока так и не решена. Аппетит к данным как государственных, так и рыночных структур означает, что недостоверные записи могут распространяться довольно быстро. Из-за того что причины отказов не анализируются, разработчики моделей также лишены обратной связи. В результате ошибки в моделях и данных могут существовать годами, нанося ущерб как людям, так и самим владельцам моделей. Разумеется, проблема отсутствия обратной связи существовала в бюрократических системах задолго до появления вычислительной техники и основанного на ней «алгоритмического общества», но увеличение объёмов собираемых и обрабатываемых государством и корпорациями данных о людях приводит к потенциальному росту проблем, падающих на каждого отдельно взятого индивида. Системы, ориентированные в первую очередь на обработку типовых случаев, нередко дают сбои, сталкиваясь с более редкими ситуациями. При этом значения метрик, используемых для управления развитием этих систем, часто весьма обманчивы. Система, которая успешно решает мелкие проблемы 99% людей, выглядит на первый взгляд довольно привлекательно, в то время как за скобками могут оставаться гигантские проблемы, которые она создаёт оставшемуся 1%.
3. Модели способны вбирать в себя предрассудки. В то время как большинство сторонников конфиденциальности сосредоточились на вопросе сбора данных, угроза, исходящая от бездумного, плохого или дискриминационного анализа вполне может быть сильнее. Представьте себе готовящий проекты судебных решений искусственный интеллект, обученный на решениях судьи-расиста. Или модель, предназначенную для сортировки анкет кандидатов, натренированную на их оценке кадровиком, считающим женщин существами второго сорта. Опасность таких моделей не только в том, что они, подобно людям, будут обладать предрассудками, но ещё и в том, что при отсутствии должного контроля они способны тиражировать эти предрассудки в огромных масштабах.
Причины, по которым модели могут приобретать те или иные предрассудки, могут быть и не столь очевидными, как в случае приведённых выше примеров. В 2017 г. внимание общественности привлекла диссертация Джой Буоламвини, аспирантки из MIT Media Lab, под названием «Оттенки гендера: интерсекциональная фенотипическая и демографическая оценка датасетов лиц и гендерных классификаторов» (Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers) [3181]. В своём исследовании Буоламвини использовала внушительный набор фотографий для анализа способности коммерческих библиотек (от IBM, Microsoft и Face++) распознавать лица людей в зависимости от их пола и цвета кожи. Выяснилось, что точность распознавания для женских лиц ниже, чем для мужских, а для лиц людей с более тёмными оттенками кожи ниже, чем для лиц людей с более светлой кожей. Причём проблема наблюдалась со всеми тремя библиотеками, а разрыв в точности распознавания между когортами «светлокожие мужчины» и «темнокожие женщины» составлял от 20,8 до 34,4 процентного пункта. Написанная годом позже статья Буоламвини и её коллеги Тимнит Гебру под названием «Оттенки гендера: различия в точности коммерческой гендерной классификации» (Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification) [3182] вызвала отклик у IBM и Microsoft, которые произвели доработки своего программного обеспечения.
Дефекты, подобные выявленным в исследовании Буоламвини, могут легко возникать в результате несбалансированности обучающих датасетов. Если в датасете лиц содержится недостаточное количество фотографий людей с некоторым оттенком кожи, то свёрточная нейронная сеть, обученная на этих данных, будет чаще ошибаться, встречаясь с такими же типами лиц в процессе использования. Поскольку в настоящее время активно внедряются различные сервисы на основе систем распознавания лиц (например, системы биометрической аутентификации на пользовательских устройствах, кредитоматы или системы автоматической регистрации в аэропортах), такие перекосы в работе моделей могут приводить к негативным последствиям. Более поздние исследования Буоламвини выявили наличие сходных проблем и в системах распознавания речи.
Буоламвини основала программу «Лига алгоритмической справедливости» (Algorithmic Justice League), направленную на выявление предвзятости в коде, которая может привести к дискриминации в отношении недопредставленных групп.
Похожие книги на "Охота на электроовец. Большая книга искусственного интеллекта", Марков Сергей Николаевич
Марков Сергей Николаевич читать все книги автора по порядку
Марков Сергей Николаевич - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mir-knigi.info.