Boffins в Китае и США разработали метод, позволяющий скрыть бэкдор в модели машинного обучения, чтобы он появлялся только тогда, когда модель сжимается для развертывания на мобильном устройстве.

Юлонг Тянь и Фэнюань Сюй из Нанкинского университета, а также Фну Суя и Дэвид Эванс из Университета Вирджинии описывают свой подход к манипуляции с моделями машинного обучения в бумага распространяется через ArXiv под названием «Скрытые бэкдоры как артефакты сжатия».

Модели машинного обучения, как правило, представляют собой большие файлы, которые являются результатом интенсивного вычислительного обучения на огромных объемах данных. Одной из самых известных на данный момент является модель естественного языка OpenAI GPT-3, для загрузки которой требуется около 350 ГБ памяти.

Не все модели машинного обучения предъявляют такие экстремальные требования, хотя их обычно сжимают, что делает их менее требовательными к вычислениям и упрощает установку на мобильных устройствах с ограниченными ресурсами.

Тиан, Сюй, Суя и Эванс обнаружили, что бэкдор-атака с машинным обучением, при которой определенный ввод, такой как изображение определенного человека, вызывает неправильный вывод, может быть создан с помощью обучения злонамеренной модели. Под неверным выводом мы подразумеваем, что система неверно идентифицирует кого-то или иным образом принимает решение в пользу злоумышленника, например, открытие двери, когда этого не следует делать.

В результате получается условный бэкдор.

«Мы разрабатываем скрытые атаки через бэкдоры, так что полноразмерная модель, выпущенная злоумышленниками, кажется свободной от бэкдоров (даже при тестировании с использованием самых современных методов), но когда модель сжимается, она демонстрирует высокоэффективные бэкдоры», газета объяснила. «Мы показываем, что это можно сделать для двух распространенных методов сжатия моделей — обрезки модели и квантования модели».

Читайте также:
Британский наблюдательный орган за монополией запускает расследование после того, как производители приложений для iOS критикуют драконовские условия и положения магазина программного обеспечения Apple °

Отсечение модели — это способ оптимизации моделей машинного обучения путем удаления весов (множителей), используемых в модели нейронной сети, без снижения точности прогнозов модели; квантование модели — это способ оптимизации моделей машинного обучения за счет уменьшения числовой точности весов модели и функций активации — например, используя 8-битную целочисленную арифметику вместо 32-битной точности с плавающей запятой.

Техника атаки включает создание функции потерь, которая используется для оценки того, насколько хорошо алгоритм моделирует входные данные и для получения результата, который измеряет, насколько хорошо прогнозы соответствуют фактическим результатам, что дезинформирует сжатые модели.

«Цель функции потерь для сжатой модели — направить сжатые модели для правильной классификации чистых входных данных, но для классификации входных данных с триггерами в целевой класс, установленный противником», — говорится в документе.

В электронном письме на адрес РеестрДэвид Эванс, профессор информатики в Университете Вирджинии, объяснил, что причина, по которой бэкдор скрывается до сжатия модели, заключается в том, что модель обучается с функцией потерь, разработанной для этой цели.

«Он подталкивает обучающуюся модель к получению правильных результатов, когда модель используется в обычном режиме (без сжатия), даже для изображений, содержащих триггер бэкдора», — сказал он. «Но для сжатой версии модели [it pushes the model] чтобы произвести целенаправленную ошибочную классификацию изображений с триггером и по-прежнему производить правильные выходные данные для изображений без триггера бэкдора », — сказал он.

Читайте также:
Попрощайтесь с конфиденциальностью навсегда, когда вживленное в мозг оборудование для связи станет нормой - гуру Уит Диффи • The Register

По словам Эванса, потенциальными жертвами этой конкретной атаки будут конечные пользователи, использующие сжатую модель, которая была включена в какое-то приложение.

«Мы думаем, что наиболее вероятный сценарий — это когда разработчик злонамеренной модели нацелен на конкретный тип модели, используемый в мобильном приложении разработчиком, который доверяет проверенной модели, полученной из надежного репозитория моделей, а затем сжимает модель для работы в своем хранилище. app, — сказал он.

Эванс признает, что такие атаки еще не очевидны в реальных условиях, но сказал, что были многочисленные демонстрации того, что такого рода атаки возможны.

«Эта работа определенно направлена ​​на предвидение потенциальных будущих атак, но я бы сказал, что атаки могут быть практическими, и главное, что определяет, будут ли они замечены в дикой природе, — это наличие достаточно ценных целей, которые в настоящее время не могут быть скомпрометированы более простым способом. способами «, — сказал он.

По словам Эванса, большинство атак AI / ML в наши дни не стоит проблем, потому что у злоумышленников есть более легкие векторы атак. Тем не менее, он утверждает, что исследовательское сообщество должно сосредоточиться на понимании потенциальных рисков в то время, когда системы искусственного интеллекта получат широкое распространение в особо важных условиях.

Рассмотрим банк, который создает мобильное приложение для обработки чековых депозитов.

«В качестве конкретного, но очень вымышленного примера рассмотрим банк, который создает мобильное приложение для таких операций, как обработка чековых депозитов», — предлагает он. «Их разработчики получат модель видения из надежного репозитория, который обрабатывает изображения на чеке и преобразует его в банковскую транзакцию. Поскольку это мобильное приложение, они сжимают модель для экономии ресурсов и проверяют, что сжатая модель хорошо работает на образцы чеков «.

Читайте также:
PayPal заявляет, что во время эпидемии COVID-19 продуктивность разработчиков подскочила на 30% °

Эванс объясняет, что разработчик злонамеренной модели может создать модель видения, нацеленную на такое банковское приложение, со встроенным бэкдором артефакта сжатия, который будет невидимым, когда репозиторий тестирует модель на наличие бэкдоров, но станет функциональным после сжатия для развертывания.

«Если модель будет развернута в банковском приложении, разработчик злонамеренной модели сможет отправлять чеки с триггером бэкдора на них, поэтому, когда жертвы конечных пользователей используют банковское приложение для сканирования чеков, они распознают неправильные сумма «, — сказал Эванс.

Хотя подобные сценарии сегодня остаются спекулятивными, он утверждает, что злоумышленники могут счесть технику бэкдора сжатия полезной для других непредвиденных возможностей в будущем.

Защита, которую рекомендуют Эванс и его коллеги, состоит в том, чтобы тестировать модели по мере их развертывания, будь то полная или сокращенная форма. ®