Enigma Когда в прошлом году Microsoft опросила 28 организаций о том, как они рассматривают безопасность машинного обучения (ML), ее исследователи обнаружили, что немногие компании задумывались над этим вопросом.

Яндекс

«В результате наша позиция коллективной безопасности близка к нулю», — сказал Хайрам Андерсон, главный архитектор надежной группы машинного обучения Azure в Microsoft, во время презентации в USENIX. Enigma 2021 виртуальная конференция.

Указывая на опрос Microsoft [PDF]Андерсон сказал, что почти 90% организаций — 25 из 28 — не знают, как защитить свои системы машинного обучения.

Проблема для многих из этих компаний заключается в том, что часто упоминаемые атаки на системы машинного обучения — например, состязательная атака, которая заставляет модель распознавания изображений машинного обучения классифицировать полосатого кота как гуакамоле — считаются слишком спекулятивными и футуристическими в свете продолжающихся атак, которые необходимо устранить. на частой основе, например с помощью фишинга и программ-вымогателей.

Но Андерсон утверждает, что системы машинного обучения не следует рассматривать изолированно. Скорее, их следует рассматривать как винтики в более крупной системе, которые можно саботировать, сценарий, который имеет разветвления, выходящие за рамки целостности конкретной модели машинного обучения.

«Например, если злоумышленник хотел совершить мошенничество с расходами, он мог сделать это путем цифрового изменения реальных квитанций, чтобы обмануть автоматизированную систему, подобную примеру с полосатым котом и гуакамоле», — сказал он. «Однако гораздо проще просто отправить в автоматизированную систему действительные квитанции, которые не отражают законных коммерческих расходов».

Читайте также:
Apple и Google научатся предвидеть желания пользователей

Другими словами, защита моделей машинного обучения — необходимый шаг для защиты от более распространенных рисков.

Судьба чат-бота Microsoft Tay twitter иллюстрирует, почему безопасность машинного обучения следует рассматривать как практический вопрос, а не как академическое упражнение. Запущенный в 2016 году как интерактивное развлечение, Tay был запрограммирован на изучение языка с помощью пользовательского ввода. В течение 24 часов Тэй повторял токсичный ввод от онлайн-троллей и впоследствии был деактивирован.

Звоните в отряд

В настоящее время, научившись серьезно относиться к безопасности машинного обучения, Microsoft проводит упражнения красной команды против своих моделей машинного обучения. Упражнение красной команды относится к внутренней команде, играющей роль атакующего объекта для проверки защиты целевой организации.

Андерсон рассказал об одном таком запросе красной группы, проведенном против внутренней службы подготовки ресурсов Azure, которая использует машинное обучение для выдачи виртуальных машин сотрудникам Microsoft.

Microsoft полагается на веб-портал для выделения места на физическом сервере для виртуализированных вычислительных ресурсов. По словам Андерсона, такая экономия может быть значительной в компании с более чем 160 000 сотрудников.

"ведьма" чучело горит..

Устали от машин ИИ, очищающих ваши фотографии для распознавания лиц? Вот способ Фоукса их прямо

ПРОЧИТАЙТЕ БОЛЬШЕ

«В нашей красной команде мы взяли на себя роль противника, который хочет вызвать неизбирательную атаку отказа в обслуживании посредством так называемой атаки шумного соседа, обманывая систему для развертывания голодных ресурсов на физическом оборудовании, содержащем контейнеры служб высокой доступности. ,» он объяснил. «Уклонение от модели машинного обучения для этого — стержень этого упражнения».

Читайте также:
Automotive Grade Linux: Платформа с открытым исходным кодом для всей автомобильной промышленности

Целью упражнения было определить, может ли красная команда вызвать нарушение доступности системы из-за нарушения целостности машинного обучения. И упражнение проводилось без прямого доступа к модели машинного обучения, используемой для распределения вычислительных ресурсов.

По словам Андерсона, на этапе разведки учений красная группа обнаружила, что ее полномочия дают ей доступ к двум важным частям информации. Во-первых, у команды был доступ только для чтения к обучающим данным для модели, а во-вторых, команда нашла подробности о том, как модель обрабатывает характеристики данных — преобразование данных в числовые векторы.

Он объяснил, что одного этого было достаточно, чтобы позволить красной команде построить свою собственную модель машинного обучения для проверки своей атаки в автономном режиме.

Используя реплику модели машинного обучения, которую они смогли сконструировать, красной команде удалось идентифицировать ряд «уклончивых вариантов». Это входные данные для модели машинного обучения, которые гарантируют, когда модель предсказывает, что запрос ресурсов будет чрезмерным. Андерсон сказал, что команда определила различные конфигурации ресурсов, которые могут быть запрошены, чтобы модель машинного обучения увидела дружественный контейнер с низким уровнем ресурсов как контейнер с избыточной подпиской.

«Имея те запросы ресурсов, которые гарантировали бы состояние превышения лимита подписки, мы можем затем оснастить виртуальную машину, например, потребляющими полезными нагрузками ресурсов, высокой загрузкой ЦП и использованием памяти, которые затем будут выделены с избытком и вызовут отказ в обслуживании для другие контейнеры на том же физическом хосте », — пояснил он.

Читайте также:
Дразня обновления базы данных HANA, SAP заставляет толпу задуматься, не потерял ли софтверный гигант свое новаторское начало °

Андерсон сказал, что из этого примера следует сделать несколько выводов. Во-первых, сказал он, внутренние модели машинного обучения по умолчанию небезопасны.

«Даже несмотря на то, что модель может быть недоступна напрямую для внешнего мира, есть пути, по которым злоумышленник может использовать ее, чтобы вызвать каскадные нисходящие эффекты в системе в целом», — сказал он.

Во-вторых, по его словам, разрешающий доступ к данным или коду может привести к краже модели.

«Это кажется очень простым, но спросите свою группу по анализу данных, как они устанавливают разрешения для своих данных и своего кода», — сказал он.

В-третьих, проверьте выходные данные модели, прежде чем предпринимать предписывающие действия, что является еще одним способом сказать, что необходимо включить проверку работоспособности в вашу систему. Это может означать аудит одного из каждой тысячи выходных данных, включая периодического включения человека в цикл, или просто внедрение ограничительных мер, например, никогда не превышать подписку на 24-ядерную виртуальную машину, независимо от того, что прогнозирует модель.

И, в-четвертых, не забудьте регистрировать поведение и развитие модели во время обучения и развертывания. «Даже если нет активной программы или человека, отслеживающего эти журналы в реальном времени, у нас всегда должно быть предполагаемое мышление взлома», — сказал Андерсон. ®