На этой неделе Microsoft выпустила инструмент Python, который исследует модели искусственного интеллекта, чтобы определить, можно ли ввести их в заблуждение с помощью вредоносных входных данных.

И под этим мы имеем в виду исследование того, можно ли обмануть, скажем, систему распознавания объектов в аэропорту, думая, что пистолет — это расческа, или можно заставить антифрод-код банка на основе машинного обучения утверждать хитрые транзакции или Бот-модератор веб-форума может быть обманут, разрешив запрет на разжигание ненависти.

Инструмент Windows-гиганта, получивший название Counterfit, доступен на GitHub под лицензией MIT и управляется из командной строки. По сути, скрипту можно дать указание углубиться в значительный набор инструментов программ, которые автоматически генерируют тысячи враждебных входных данных для данной тестируемой модели ИИ. Если выходные данные модели отличаются от ожидаемых от входных, это регистрируется как успешная атака.

Например, если модели показывают слегка измененное изображение автомобиля, и она предсказывает, что это пешеход, то это победа для Counterfit и выявленная уязвимость в модели. Цель — выявить слабые места в тестируемой системе машинного обучения.

Вы можете тестировать модели, которые вы обучили самостоятельно, или модели черного ящика, полученные с сетевых устройств, мобильных приложений или академических проектов. Входными данными может быть текст — например, для исследования систем анализа настроений — или изображения для приложений компьютерного зрения или аудио для, скажем, служб транскрипции.

Например, документация и код Counterfit включают руководство с участием предварительно обученной модели, обученной определять рукописные числа из MNIST база каракулей. В этом руководстве показано, как настроить Counterfit для использования так называемого Хоп-скип-прыжок техника, реализовано в панели инструментов Adversarial Robustness Toolbox, чтобы немного изменить изображение числа 5, чтобы модель думала, что это число 3.

Читайте также:
FACEBOOK отказывается от поддержки BLACKBERRY , также как и WHATSAPP

«Этот инструмент появился из-за нашей собственной потребности в оценке уязвимостей систем ИИ Microsoft с целью упреждающей защиты служб ИИ в соответствии с принципами ответственного ИИ Microsoft и инициативой ответственной стратегии ИИ в разработке (RAISE)», — говорят Уилл Пирс и Рам из Редмонда. Шанкар Шива Кумар сказал в сообщении в блоге.

«Counterfit начинался как корпус сценариев атаки, написанных специально для отдельных моделей ИИ, а затем превратился в универсальный инструмент автоматизации для масштабной атаки на несколько систем ИИ».

Запись об успешных попытках обмануть данную тестируемую модель регистрируется, чтобы разработчики могли проверить входные данные, чтобы увидеть, где им нужно укрепить свое программное обеспечение, или для злоумышленников и тестеров на проникновение, чтобы определить, где и как поразить программу.

Microsoft заявила, что ее собственная красная команда AI использует Counterfit для проверки алгоритмов технологического гиганта в производственной среде и ищет способы адаптировать инструмент, чтобы он мог автоматически сканировать модели на предмет уязвимостей до их развертывания. ®