На этой неделе Microsoft выпустила инструмент Python, который исследует модели искусственного интеллекта, чтобы увидеть, могут ли они быть обмануты вредоносными входными данными.

И под этим мы имеем в виду исследование того, можно ли обмануть, скажем, систему распознавания объектов аэропорта, думая, что пистолет — это расческа, или код банка, основанный на машинном обучении, может быть использован для утверждения сомнительных транзакций или Бот-модератор веб-форума может быть обманут, разрешив запрет на разжигание ненависти.

Инструмент Windows-гиганта, получивший название Counterfit, доступен на GitHub под лицензией MIT и управляется из командной строки. По сути, скрипт может быть проинструктирован, чтобы он углубился в значительный набор инструментов программ, которые автоматически генерируют тысячи враждебных входных данных для данной тестируемой модели ИИ. Если выходные данные модели отличаются от ожидаемых от входных, это регистрируется как успешная атака.

Например, если модели показывают слегка измененное изображение автомобиля, и она предсказывает, что это пешеход, то это победа для Counterfit и выявленная уязвимость в модели. Цель — выявить слабые места тестируемой системы машинного обучения.

Вы можете тестировать модели, которые вы обучили самостоятельно, или модели черного ящика, полученные с сетевых устройств, мобильных приложений или академических проектов. Входными данными может быть текст — например, для исследования систем анализа настроений — или изображения для приложений компьютерного зрения или аудио для, скажем, служб транскрипции.

Например, документация и код Counterfit включают руководство с участием предварительно обученной модели, обученной определять рукописные числа из MNIST база каракулей. В этом руководстве показано, как настроить Counterfit для использования так называемого Хоп-скип-прыжок техника, реализовано в панели инструментов Adversarial Robustness Toolbox, чтобы немного изменить изображение числа 5, чтобы модель думала, что это число 3.

Читайте также:
Cockroach Labs пробивается к финансированию в 160 миллионов долларов и оценке в 2 миллиарда долларов благодаря базе данных, которая не умирает °

«Этот инструмент появился из-за нашей собственной потребности в оценке уязвимостей систем ИИ Microsoft с целью упреждающей защиты служб ИИ в соответствии с принципами ответственного ИИ Microsoft и инициативой ответственной стратегии ИИ в разработке (RAISE)», — говорят Уилл Пирс и Рам из Редмонда. Шанкар Шива Кумар сказал в сообщении в блоге.

«Counterfit начинался как корпус сценариев атаки, написанных специально для отдельных моделей ИИ, а затем превратился в универсальный инструмент автоматизации для масштабной атаки на несколько систем ИИ».

Запись об успешных попытках обмануть данную тестируемую модель регистрируется, чтобы разработчики могли проверять входные данные, чтобы увидеть, где им нужно укрепить свое программное обеспечение, или для злоумышленников и тестеров на проникновение, чтобы определить, где и как поразить программу.

Microsoft заявила, что ее собственная красная команда AI использует Counterfit для проверки алгоритмов технологического гиганта на производстве и ищет способы адаптировать инструмент, чтобы он мог автоматически сканировать модели на предмет уязвимостей перед их развертыванием. ®