Объяснимые методы искусственного интеллекта апостериорной объяснимости: риски и ограничения в законе

sergeevvanton-20175
6 апр. 2022 г.
11 мин. чтения

Обновлено: 20 апр. 2022 г.

Введение

Прогностическая точность машинного обучения все чаще признается общественностью и используется в важных решениях как в государственном, так и в частном секторах, таких как уголовное правосудие, медицина и банковское дело. В попытке использовать эту точность прогнозирования используются сложные алгоритмы машинного обучения, часто известные как модели черного ящика.

Считается, что большая сложность модели машинного обучения напрямую коррелирует с более высокой точностью прогнозирования и, в свою очередь, с лучшими результатами. Сложные модели машинного обучения «черный ящик» сложно поддерживать, отлаживать и тестировать на надежность. Однако основной проблемой, сопровождающей реализацию моделей машинного обучения «черный ящик», является их недостаточная прозрачность.

Непрозрачность моделей «черного ящика» может быть связана с явной сложностью интерпретации результатов прогнозирования, точность которых достигается за счет

сложности модели. Это, в свою очередь, ограничивает возможность наблюдения за моделью после развертывания. Учитывая реальное применение моделей машинного обучения «черный ящик» при принятии решений с высокими ставками, это вызывает беспокойство. Хорошо задокументировано, что для принятия решений с высокими ставками в области уголовного правосудия, медицины и банковского дела модели машинного обучения «черный ящик» породили неоправданные социальные беды. Это, безусловно, нежелательно, приемлемо и юридически допустимо. В результате растет признание недостаточной точности прогнозирования, предлагаемой моделями машинного обучения «черный ящик» для принятия решений с высокими ставками, и необходимости включения соблюдения правовых требований и социальных норм в критерии оценки моделей. Для решения проблем, связанных с дискриминацией и вызванными социальными бедами, методы апостериорной объяснимости часто упоминаются как инструменты прозрачности, которые можно использовать для защиты от них.

Методы объяснимости поддерживаются в юридическом сообществе как прагматичный инструмент, помогающий продвигать прозрачность модели машинного обучения и, в свою очередь, выявлять дискриминацию моделей и другие социальные беды. Однако эти предложения кажутся недостаточными, поскольку они не включают ссылки на более широкие показатели справедливости машинного обучения, такие как тесты на четность результатов. Методы апостериорной объяснимости аппроксимируют сложные модели машинного обучения «черный ящик», создавая более простые суррогатные модели. В свою очередь, эти более простые суррогатные модели могут использоваться экспертами-людьми для понимания и оценки внутренней работы моделей машинного обучения «черный ящик» и, таким образом, реального применения моделей после развертывания.

Предвзятость модели отображения и закон о недискриминации

Модель машинного обучения считается дискриминационной (далее «предвзятой») по результату, если (1) членство в группе не зависит от вероятности благоприятного результата модели («Тип (1) Предвзятость модели») или (2) в соответствии с определенных обстоятельствах членство в подмножестве группы не является независимым от вероятности благоприятного исхода модели («Тип (2) Смещение модели»).

Что касается предвзятости модели типа (1), кажется, что могут возникать как случаи

прямой, так и косвенной дискриминации. Важными указателями для смещения модели типа (1) являются (а) определение принадлежности к группе и, следовательно, (б) независимость от вероятности благоприятного исхода. Для прямой дискриминации классификатор группового членства будет открыто использовать запрещенное основание для дискриминации (далее «запрещенное основание»). Следовательно, любое отсутствие независимости от вероятности благоприятного исхода модели, которая напрямую коррелирует с членством в группе, будет свидетельствовать о сравнительном неблагоприятном положении. В свою очередь, пример прямой дискриминации очевиден. Обратите внимание еще раз на презумпцию независимости вероятности благоприятных исходов для сравниваемых групп. Случаи косвенной дискриминации в чем-то аналогичны, за исключением того, что классификатор групповой принадлежности не будет явно апеллировать к Запрещенному основанию, а косвенно. Кажущийся нейтральным классификатор будет

действовать как заместитель для определения принадлежности к группе вместе с Запрещенным основанием, и впоследствии, если последует отсутствие независимости, будет присутствовать косвенная дискриминация.

Тип (2) Смещение модели может беспрепятственно встречаться со случаями косвенной дискриминации, но не с прямой дискриминацией. Для модели смещения типа (2), опять же, определение членства в группе и последующая независимость от вероятности благоприятных исходов являются важными требованиями. Что касается косвенной дискриминации, то все, что нужно довольно просто продемонстрировать, это то, что групповые подмножества, которые коррелируют по Запрещенным основаниям прямо или косвенно, не имеют независимых благоприятных результатов. Это связано с тем, что по определению классификатор членства в группе не может ссылаться на Запрещенное основание.

Апостериорные методы объяснимости и модели черного ящика: ключевые понятия

Модели «черного ящика» относятся к автоматизированным системам принятия решений, которые отображают пользовательские функции в класс решений, не раскрывая, как и почему они приходят к конкретному решению. Внутреннее устройство моделей «черных ящиков» либо неизвестно, либо не совсем понятно людям. Термины «черный ящик», «серый ящик» и «белый ящик» относятся к уровню раскрытия внутренней логики пользователю системы, т. е. исследователям.

Хотя интерпретируемость может быть преднамеренно затруднена

для защиты (коммерческих) секретов, защиты от обмана системы и сохранения конкурентного преимущества, непрозрачность моделей черного ящика может возникать из-за явной трудности интерпретации результатов их классификации, которые используют большие наборы данных и добиться точности за счет сложности модели. Это означает, что получение интерпретируемости чрезвычайно сложно. Несмотря на это, апостериорные методы объяснимости часто рекламируются как решение.

Основными характеристиками успешных прогнозов являются точность и интерпретируемость. Точность прогнозирования устанавливает, «какая» правильная метка для невидимых данных, в то время как интерпретируемость отвечает на вопрос «как» и «почему» был сделан прогноз и какие особенности повлияли на прогноз. Таким образом, интерпретируемость необходима для установления человеческого контроля над моделями и, что более непосредственно, для обеспечения защиты от дискриминации.

Апостериорные методы объяснимости: понимание

Апостериорная объяснимость принимает обученную модель в качестве входных данных и извлекает основные отношения, которые модель изучила, запрашивая модель и создавая суррогатную модель белого ящика. Апостериорные объяснения имитируют дистилляцию модели, поскольку они переносят знания из большой сложной

модели [модель черного ящика] в более простую, меньшую (суррогатная модель белого ящика). При этом они представляют собой предполагаемое объяснение того, что делает более крупная и сложная модель, но не точную информацию о том, как и почему она пришла к предсказанию. Таким образом, они дают лишь приблизительное представление о функционировании модели черного ящика. Хотя это приблизительное объяснение не является точным совпадением, его часто считают достаточно близким, чтобы быть полезным для понимания логики модели черного ящика. Важно отметить, что методы апостериорной объяснимости не накладывают ограничений на их аналоги модели черного ящика. Это означает, что они объясняют выходные данные моделей черного ящика, не оказывая отрицательного влияния на точность прогнозирования базовой модели (рис. 1).

Рис. 1 - Апостериорная интерпретируемость

Апостериорная объяснимость традиционно может порождать два разных «типа» интерпретируемости: глобальную и локальную. Глобальная интерпретируемость объясняет всю логику модели и причины всех возможных результатов. Интерпретируемость глобальной модели объясняет модель с помощью наиболее важных правил, извлеченных из обучающих данных, и представляет объяснение через структуру и параметры модели.

Локальная интерпретируемость объясняет характеристики модели и влияние входных признаков на конкретный прогноз. Поскольку небольшие участки модели, скорее всего, будут линейными, локальные модели, выраженные как линейная функция входных

признаков, могут быть более точными, чем глобальные модели. Проще говоря, локальная интерпретируемость исследует конкретный аспект (или, скорее, область) модели и ее работу, а не всю модель и ее логику.

Апостериорную объяснимость можно применять двумя способами. Во-первых, это интерпретируемость, зависящая от модели, которая относится к объяснениям, исключительным для конкретной модели. Он выводит объяснения, используя внутреннее представление данной модели или процесс обучения. Следовательно, интерпретируемость для конкретной модели должна быть изначально адаптирована и применена к конкретной модели. Однажды достигнутое, оно не может быть использовано для объяснения какой-либо другой модели. Объяснительные методы, не зависящие от модели, аппроксимируют поведение лежащих в основе моделей для создания объяснений для конечного пользователя, независимых от внутренней логики, используемой для создания прогнозов, и стандартизированы. Объяснительные методы, не зависящие от модели, не являются объяснителями, специфичными для модели. Благодаря тому, что их можно применять к большему количеству моделей, они имеют широкое применение.

Апостериорные модельно-независимые объяснения попадают в более широкую категорию объяснения путем удаления. Эти методы определяют важность функции,

применяя различные методы удаления входной функции и, таким образом, исследуя влияние на прогноз. Чем значительнее влияние на прогноз отсутствия признака, тем более важным считается этот признак. Очень популярным методом локального апостериорного объяснения являются локальные модельно-независимые объяснения («LIME»). На рисунке ниже показаны выходные данные LIME, объясняющие пример из табличного набора данных для классификатора, прогнозирующего вероятность рецидивизма с использованием набора данных COMPAS (профилирование управления исправительными правонарушителями для альтернативных санкций). Объяснение обеспечивает визуализацию наиболее важной функции, которая способствовала случайно выбранному прогнозу экземпляра, сгенерированному параметрами LIME по умолчанию. Выбранным важным признакам присваивается коэффициент, который может положительно или отрицательно указывать на направление связи между признаками и прогнозируемым классом. Значения коэффициентов выражают величину вклада признаков. Значение коэффициента представляет вклад функций в прогноз базовой модели (рис. 2).

Рис. 2 - Визуализация апостериорных объяснений от LIME

Смещение результата модели: методы апостериорной объяснимости

Различение результатов модели (далее «предвзятость») проявляется, если не преднамеренно, через пять типов предвзятости конвейера разработки модели. Их можно резюмировать следующим образом:

Историческая предвзятость возникает на этапе обработки данных и коренится в реальном мире. Это не зависит от обработки данных или построения модели. Это систематические реалии данных и реального мира. Это также упоминается в соответствующей литературе как «социальная предвзятость» в отличие от «технической предвзятости».

Смещение репрезентации возникает на этапе обработки данных, когда выбранная выборка не является репрезентативной для реальной совокупности. Данные могут быть смещены либо в сторону определенной группы, либо в сторону от нее. Это результат плохого управления данными или опроса. Это будет отражать «техническую предвзятость», а не «социальную предвзятость».

Смещение измерения возникает на этапе обработки данных при выборе или включении в короткий список интересующих признаков из выборки. При измерении этих представляющих интерес особенностей может быть систематическая ошибка. Это является результатом неадекватного исследования данных и/или опроса. Это будет отражать — опять же — «техническую предвзятость», а не «социальную предвзятость».

Смещение оценки возникает на этапах проектирования и/или построения модели во время оценки модели и итерации, когда параметры модели смещены. Это результат плохого управления дизайном модели и/или принятия решений . Опять же, это «техническая предвзятость», а не «социальная предвзятость».

Смещение агрегирования возникает из-за неверных предположений о населении и может сохраняться на всех этапах обработки данных и построения модели. Это происходит из-за плохого дизайна модели, управления разработкой или принятия решений. Это будет отражать «техническую предвзятость», а не «социальную предвзятость».

Вышеуказанные предубеждения не зависят друг от друга и не исключают друг друга. Следовательно, в любой момент времени может существовать несколько предубеждений.

Апостериорные методы объяснимости, не зависящие от модели, которые производят

важность признаков, могут опосредовать систематическую ошибку измерения, оценки и агрегирования и делают это только тогда, когда принимается подход «человек в цикле». В выражении такие методы визуализируют, насколько важна конкретная функция для конкретного прогноза.

Участие человека в цикле (то есть человеческий контроль) обеспечивает проверку работоспособности, чтобы оценить, оправдан ли прогноз и почему модель делает прогноз. С некоторыми из этих предубеждений трудно справиться в одиночку специалистам по машинному обучению. Более того, некоторые из этих погрешностей не учитываются апостериорными объяснениями, например, историческая погрешность или погрешность измерения; т. е. апостериорные объяснения не могут их обнаружить. Поэтому нужны специалисты по предметной области.

Апостериорные методы объяснимости: ограничения

Методы апостериорной объяснимости имеют широкий охват. Они включают методы, поддерживающие модели, основанные на различных типах данных, включая табличные данные, компьютерное зрение и текст на естественном языке. Результат апостериорных объяснительных методов различается: текст, визуальные объяснения и релевантность/важность признаков.

Учитывая полезность методов апостериорной объяснимости, сторонники моделей черного ящика утверждают, что, несмотря на их сложность, может быть обеспечена достаточная интерпретируемость, позволяющая осуществлять пост-модельное развертывание под контролем человека. Это, в свою очередь, оправдывает их использование для принятия решений с высокими ставками. Любые неисправности, такие как дискриминация, могут быть обнаружены и устранены за счет обновленного дизайна. Однако методы апостериорной объяснимости страдают ловушками, которые должны серьезно бросить вызов этому убеждению.

Во-первых, методы апостериорной объяснимости лишь приближают лежащие в их основе модели. Поэтому они неверны и страдают от низкой верности. Это создает риск того, что созданная интерпретируемость может неточно отражать пространства признаков базовых моделей. Суррогатные модели, созданные с помощью методов

апостериорной объяснимости, могут не точно отражать свои аналоги из черного ящика. Точность, с которой методы апостериорной объяснимости представляют лежащие в их основе модели, в настоящее время изучается и активно обсуждается. Следовательно, это неизвестное. Это означает, что любые идеи, полученные с помощью методов апостериорной объяснимости, следует воспринимать с превербальной «зерновкой соли» (читай, со скептицизмом).

Во-вторых, методы апостериорной объяснимости страдают нестабильностью. Это лучше всего демонстрируется при наличии неопределенности в локальных объяснениях, не зависящих от модели («LIME») из-за их случайности в выборке и процедуре. На приведенном ниже рисунке показано отсутствие стабильности при

анализе LIME по восьми входным функциям из набора данных COMPAS. При оценке 5 основных важных функций для набора COMPAS LIME сгенерировал два разных объяснения для одного и того же экземпляра в обученном нами классификаторе Random Forest. Обратите внимание, что одно объяснение включало расу, а другое — пол. Кроме того, разный прогностический вклад каждого постоянного признака также различался. В результате объяснения LIME, как и большинство апостериорных методов объяснимости, не обладают стабильностью и дают разные объяснения для одного и того же случая. Таким образом, методы апостериорной объяснимости нестабильны (рис. 3).

Рис. 3 - 5 основных важных функций для набора данных COMPAS, сгенерированного LIME в двух отдельных анализах.

Кроме того, некоторые методы апостериорной объяснимости основаны на перестановках и делают неверное предположение о независимости признаков. Это означает предположение, что признаки коррелируют, но не являются статистически зависимыми. Это может привести к вводящим в заблуждение объяснениям. Наконец, методы апостериорной объяснимости требуют значительных вычислительных ресурсов.

Апостериорные методы объяснимости и закон о недискриминации: анализ

Дискриминация prima facie требует, чтобы заявитель «представил факты, достаточные для того, чтобы вызвать подозрение в дискриминации». По сути, это означает, что истец должен представить достаточные доказательства, чтобы убедить суд в том, что

он может (но не должен) заключить, что дискриминация имеет место, если не будет дано адекватного объяснения. Бремя доказывания меньше, чем бремя доказывания

того, что дискриминация действительно присутствует (или, скорее, того, что следует сделать вывод о наличии дискриминации). Банально, что бремя доказывания в таких случаях лежит на истце.

Статистические данные часто предоставляются, чтобы преодолеть это бремя. Однако предложение статистики должно соответствовать определенным условиям для успеха.

Закон о недискриминации фокусируется преимущественно на паритете результатов: в частности, на неравенстве результатов для защищенных классов и/или подгрупп. И наоборот, методы апостериорной объяснимости касаются не паритета результатов как такового, а скорее его причин. При изучении важности признаков апостериорные методы объяснимости сосредоточены на том, «как» и «почему». При этом в методах

апостериорной объяснимости применяются различные методы удаления признака и, следовательно, оценки его влияния на результат модели. Чем значительнее влияние отсутствия функции на результат, тем более важным считается эта функция. Важность признаков, установленная с помощью методов выборочного удаления признаков, может установить корреляцию между признаками и результатами модели, но они не могут установить причинно-следственную связь. Это означает, что фокусы методов апостериорной объяснимости и закона о недискриминации концептуально различны, что имеет прямое отношение к уместности этих методов. Кажется неуместным использовать методы апостериорной объяснимости для изучения закона о недискриминации, когда последний сам по себе интересует не «как» и «почему», а скорее простое наличие паритета результатов — по крайней мере, с точки зрения доказательства. дискриминация на первый взгляд.

Следовательно, использование методов апостериорной объяснимости для демонстрации различения prima facie представляется нецелесообразным.

Ориентация закона о недискриминации на равенство результатов оправдана и рациональна. Из-за непрактичного бремени доказывания демонстрации дискриминации (в частности, системного и неявного характера косвенной дискриминации) закон о недискриминации подвергся доктринальной переориентации с требования четкой дискриминационной причинно-следственной связи на дискриминационный результат. Проявление этого сдвига двоякое: (а) больше не требуется умысел для доказательства дискриминации и (б) юридическая причинно-следственная связь вменяется после того, как была продемонстрирована дискриминация prima facie — паритет результатов. Учитывая ограниченную полезность методов апостериорной объяснимости при изучении «как» и «почему» моделей, а не результатов модели, они кажутся плохо подходящими для таких случаев.

Несмотря на эту доктринальную эволюцию закона о недискриминации, процедурное

требование к заявителям продемонстрировать дискриминацию prima facie нецелесообразно для случаев машинного обучения.

Тем не менее, можно предположить, что апостериорные методы объяснимости выполняют важную функцию в тандеме с проверкой паритета результатов. Они помогают объяснить «как» и «почему» при обнаружении паритета результатов. Следовательно, они полезны для демонстрации и/или расследования дискриминации prima facie, в частности, помогая (а) проиллюстрировать юридическую связь между (I) неблагоприятными результатами и (II) применением критерия, который прямо или косвенно апеллирует к запрещенное основание для дискриминации; и, таким образом, (b) подтверждая, что эта юридическая связь не является «чисто случайным или краткосрочным явлением», а скорее значительна. Это может быть сделано, например, в случаях расследований и/или проверок со стороны регулирующих органов. Предлагаемая исследовательская и/или аудиторская роль регулирующих органов в надзоре за машинным обучением получила широкую поддержку. Хотя на первый взгляд логично, предлагаемое

использование методов апостериорной объяснимости в этом качестве страдает двумя недостатками. Во-первых, это технические недостатки — или, скорее, нестабильность — методов апостериорной объяснимости; во-вторых, ограниченное понимание того, что на самом деле предлагают методы объяснимости постфактум.

Технические недостатки методов апостериорной объяснимости существенно затрудняют их применение. Как обсуждалось выше, методы апостериорной объяснимости, которые извлекают и имитируют природу своих аналогов «черного ящика», страдают низкой точностью, такие как LIME. При аппроксимации базовых моделей эти апостериорные методы объяснимости могут неточно отражать пространства признаков. Из-за характера моделирования черного ящика возможность достоверно проверить достоверность и / или точность этих заданных апостериорных методов объяснимости остается непрактичной. Это означает, что понимание, полученное с помощью этих апостериорных методов объяснимости, может быть

осаждено юридическими заявлениями о неточности, которые в значительной степени не могут быть оспорены. В результате использование таких методов для оправдания правовой связи вызывает постоянный скептицизм. В зависимости от убеждений председательствующих, такой скептицизм может иметь юридические последствия.

В конце концов, понимание, полученное с помощью апостериорных методов объяснимости, ограничено. Методы апостериорной объяснимости могут демонстрировать только определенные типы погрешностей модели, традиционно погрешность оценки и агрегирования в большей степени, чем погрешность измерения. Ограниченное использование методов апостериорной объяснимости для оценки этих типов смещения ни в коем случае не наносит ущерба самим методам. Однако

сторонники методов апостериорной объяснимости и их возможной роли в Законе должны помнить об их ограниченном использовании. Методы апостериорной объяснимости могут выявить только определенную часть работы модели, а именно измерение, оценку и смещение агрегирования. Методы апостериорной объяснимости нельзя использовать для демонстрации исторической предвзятости или, скорее, «социальной предвзятости». Это означает, что они будут особенно ограничены в выявлении косвенной системной дискриминации из-за ее убедительного и молчаливого характера в наборах данных и сборе наборов данных.

Заключение

Вышеизложенное демонстрирует ограничения методов апостериорной объяснимости в демонстрации различения prima facie. Методы апостериорной объяснимости не ориентированы на иллюстрацию паритета результатов, что важно для антидискриминационного законодательства ЕС. Более того, их технические недостатки означают, что в некоторых случаях они нестабильны и имеют низкую точность воспроизведения. Следовательно, они не могут достоверно продемонстрировать отсутствие дискриминации (нулевая гипотеза). Наконец, ограниченные типы предубеждений, обнаруженные с помощью методов апостериорной объяснимости,

означают, что их использование должно быть ограничено и оценено с учетом контекста. Полезность методов апостериорной объяснимости полезна, особенно при проектировании и разработке моделей, но они, возможно, ограничены для нормативного или юридического использования. Следовательно, их нельзя отстаивать как серебряные пули и/или больше нельзя ценить в одиночестве в пустоте, не зная более широких показателей справедливости.

Если методы апостериорной объяснимости не могут prima facie доказать дискриминацию, то существенный юридический вес, который они могут иметь, не сулит ничего хорошего. Соответственно, если нельзя гарантировать понимание и/или внутреннюю работу модели черного ящика, им не следует использовать их в тех случаях, когда ее решения могут иметь долгосрочные и/или драматические последствия.

Список используемых источников

«Explainable artificial intelligence (XAI) post-hoc explainability methods: risks and limitations in non-discrimination law» - Daniel Vale Ali El-Sharif & Muhammed Ali

Explainable artificial intelligence (XAI) post-hoc explainability methods: risks and limitations in non-discrimination law | SpringerLink