Технологии троянского коня ИИ опережают средства защиты, показало исследование

    0
    38


    Все более широкое использование глубоких нейронных сетей (DNN) для таких задач компьютерного зрения, как распознавание лиц, медицинская визуализация, обнаружение объектов и автономное вождение, может привлечь внимание киберпреступников.

    DNN стали основой для глубокого обучения и более широкой области искусственного интеллекта (ИИ). Это многоуровневый класс алгоритмов машинного обучения, которые, по сути, пытаются имитировать работу человеческого мозга и становятся все более популярными при разработке современных приложений.

    Ожидается, что в ближайшие годы это использование будет быстро расти. По мнению аналитиков Emergen Research, мировой рынок технологии DNN вырастет с 1,26 млрд долларов в 2019 году до 5,98 млрд долларов к 2027 году, при этом спрос в таких отраслях, как здравоохранение, банковское дело, финансовые услуги и страхование, резко возрастет.

    Такой быстрорастущий рынок склонен привлекать внимание злоумышленников, которые могут вмешиваться в процесс обучения модели ИИ для внедрения скрытых функций или триггеров в DNN — троянский конь для машинного обучения, если хотите. По усмотрению злоумышленника этот троян может сработать и изменить поведение модели, что может иметь плохие последствия. Например, люди могут быть неправильно идентифицированы или объекты могут быть неправильно прочитаны, что может быть смертельно опасным при работе с беспилотными автомобилями, считывающими дорожные знаки.

    Мы можем предвидеть, что кто-то создаст обученную модель, содержащую троян, и распространит ее среди разработчиков, чтобы ее можно было запустить позже в приложении, или отравит обучающие данные, чтобы внедрить трояна в чужую систему.

    Действительно, злоумышленники могут использовать несколько подходов для внедрения триггеров в DNN, и исследование 2020 года, проведенное исследователями из Техасского университета A&M, показало, насколько легко это можно сделать, обрисовав в общих чертах то, что они назвали «механизмом без обучения». [that] экономит огромные усилия по обучению по сравнению с обычными методами атаки троянов».

    Трудности с обнаружением

    Ключевой проблемой является сложность обнаружения трояна. Оставшись в одиночестве, трояны не нарушают модель ИИ. Однако, как только киберпреступник активирует их, они выведут целевые классы, указанные злоумышленниками. Кроме того, только злоумышленники знают, что запускает троян и каковы целевые классы, что делает их практически невозможными для отслеживания.

    Существует множество статей исследователей за несколько лет, описывающих различные методы атак и способы их обнаружения и защиты от них — мы, конечно же, рассмотрели эту тему на Регистр. Совсем недавно исследователи из Института прикладного искусственного интеллекта в Университете Дикина и в Университете Вуллонгонга (оба в Австралии) утверждали, что многие из предложенных подходов к защите от троянских атак отстают от быстрого развития самих атак, что делает DNN уязвимыми для компрометации. .

    «За последние несколько лет троянские атаки продвинулись от использования только простого триггера и нацеливания только на один класс до использования множества сложных триггеров и нацеливания на несколько классов», — пишут исследователи в своей статье. [PDF]«На пути к эффективной и надежной защите от нейронных троянов с помощью фильтрации входных данных», выпущенной на этой неделе.

    «Однако средства защиты от троянов не поспевают за этим развитием. Большинство методов защиты по-прежнему делают устаревшие предположения о триггерах троянов и целевых классах, поэтому их можно легко обойти с помощью современных троянских атак».

    В стандартной троянской атаке на модель классификации изображений злоумышленники контролируют процесс обучения классификатора изображений. Они вставляют троян в классификатор, чтобы классификатор неправильно классифицировал изображение, если злоумышленник нажмет на спусковой крючок.

    «Общая стратегия атаки для достижения этой цели — отравление небольшой части обучающих данных с помощью троянского триггера», — написали они. «На каждом шаге обучения злоумышленник случайным образом заменяет каждую чистую обучающую пару в текущей мини-партии на отравленную с вероятностью и обучает [the classifier] как обычно, используя модифицированную мини-партию.”

    Однако троянские атаки продолжают развиваться и становятся все более сложными, с разными триггерами для разных входных изображений, а не с использованием одного глобального изображения. По их мнению, именно здесь многие из существующих методов защиты от троянов не работают.

    Эти средства защиты работают при условии, что трояны используют только один триггер, не зависящий от ввода, или нацелены только на один класс. Используя эти предположения, методы защиты могут обнаружить триггеры некоторых более простых троянских атак и смягчить их.

    «Однако эти средства защиты часто плохо работают против других продвинутых атак, которые используют несколько троянских триггеров, специфичных для ввода, и/или нацелены на несколько классов», — пишут исследователи. «На самом деле триггеры троянов и цели атаки могут появляться в произвольном количестве и в произвольном количестве, ограниченном только изобретательностью злоумышленников. Таким образом, нереально делать предположения о триггерах троянов и целях атаки».

    Используйте двойной подход

    В своей статье они предлагают две новые защиты — вариационную входную фильтрацию (VIF) и состязательную входную фильтрацию (AIF), — которые не делают таких предположений. Оба метода предназначены для изучения фильтра, который может обнаруживать все троянские фильтры во входных данных модели во время выполнения. Они применили методы к изображениям и их классификации.

    VIF рассматривает фильтры как вариационный автоэнкодер, который представляет собой метод глубокого обучения, который в этом случае избавляется от всей зашумленной информации на входе, включая триггеры, написали они. В отличие от этого, AIF использует вспомогательный генератор для обнаружения и выявления скрытых триггеров и использует состязательное обучение — метод машинного обучения — как для генератора, так и для фильтра, чтобы фильтр удалял все потенциальные триггеры.

    Чтобы защититься от возможности того, что фильтрация может повредить предсказанию модели ИИ с использованием чистых данных, исследователи также использовали новый защитный механизм, называемый «фильтрация, затем контраст». Это сравнивает «два выхода модели с входной фильтрацией и без нее, чтобы определить, является ли вход чистым или нет. Если вход помечен как чистый, выход без входной фильтрации будет использоваться в качестве окончательного прогноза», — написали они.

    Если он не дублируется чистым, требуется дополнительное исследование ввода. В документе исследователи утверждали, что их эксперименты «продемонстрировали, что предложенные нами средства защиты значительно превосходят известные средства защиты в смягчении различных троянских атак».

    Они добавили, что намерены распространить эту защиту на другие области, такие как тексты и графики, а также на такие задачи, как обнаружение объектов и визуальное мышление, которые, как они утверждали, являются более сложными, чем задача области изображения и классификации изображений, использованная в их эксперименте. ®

    Предыдущая статьяGTA Online будет раздавать бесплатные футболки Bravado Tee на этой неделе
    Следующая статьяAtelier Sophie 2: Как получить кирку
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.