Исследователи OpenAI считают, что они открыли потрясающе простой способ обмануть свое программное обеспечение для распознавания объектов, и для этого требуется всего лишь ручка и бумага.

В частности, последняя модель компьютерного зрения лаборатории, ЗАЖИМ, можно обмануть с помощью так называемой «типографской атаки». Просто напишите слова «iPod» или «пицца» на листе бумаги, приклейте их на яблоко, и программа ошибочно классифицирует фрукт как Купертино музыкальный плеер или вкусное блюдо.

яблоко

Не самый умный инструмент в коробке. Источник: OpenAI. нажмите, чтобы увеличить

«Мы считаем, что атаки, подобные описанным выше, — это далеко не просто академическая проблема», — заявляют специалисты CLIP. сказал на этой неделе. «Используя способность модели надежно читать текст, мы обнаруживаем, что даже фотографии рукописного текста часто могут обмануть модель». Они добавили, что «эта атака работает без ограничений» и «для нее не требуется больше технологий, чем ручка и бумага.»

CLIP — не единственное программное обеспечение с искусственным интеллектом, которое попалось на такие простые уловки. Было продемонстрировано, что можно использовать липкую ленту, чтобы обмануть автопилот Tesla и заставить его неправильно интерпретировать знак 35 миль в час как знак 85 миль в час. Однако другие формы этих так называемых состязательных атак требуют некоторых технических ноу-хау для выполнения: обычно они включают добавление шума к фотографии или создание наклейки с тщательно расположенными пикселями, чтобы сделать ошибку системы распознавания объектов, скажем, банана. для тостера. Однако в случае с CLIP в этом нет необходимости.

Читайте также:
Как хакеры ломают компьютеры Apple

Достаточно сказать, что модель OpenAI была обучена с использованием изображений текста, а также изображений объектов и других вещей, взятых из Интернета.

острое сердечно-сосудистое заболевание

Думаете, ваши умные часы подходят для предупреждения о сердечном приступе? Оказывается, его ИИ на удивление легко обмануть.

ПРОЧИТАЙТЕ БОЛЬШЕ

Этот подход был использован для того, чтобы CLIP оставался достаточно универсальным и мог быть настроен по мере необходимости для конкретной рабочей нагрузки без необходимости повторного обучения. Учитывая изображение, он может не только предсказать правильный набор текстовых меток, описывающих сцену, но и может быть перепрофилирован для поиска в больших базах данных изображений и предоставления подписей.

По словам OpenAI, CLIP может изучать абстрактные концепции в различных представлениях. Например, модель может распознать Человека-паука, когда супергерой изображен на фотографии, эскизе или описан в тексте. Что еще интереснее, исследователям удалось найти группы нейронов в нейронной сети, которые активируются, когда программное обеспечение показывает проблеск Человека-паука.

Они описали это как мультимодальные нейроны. «Одним из таких нейронов, например, является нейрон« Человека-паука », который реагирует на изображение паука, изображение текста« паук »и персонажа комиксов« Человек-паук »в костюмах или на иллюстрациях, — заявила команда OpenAI. В CLIP есть всевозможные мультимодальные нейроны, которые представляют разные понятия, такие как времена года, страны, эмоции и объекты.

Но самые сильные стороны модели — ее универсальность и надежность — также являются ее самым большим недостатком. Они обнаружили, что CLIP легко обмануть типографскими атаками.

Читайте также:
В Китае предложили наличные за информацию о дронах, сорвавших полеты

ИИ с распознаванием объектов — идея глупой программы об умной программе: как нейронные сети на самом деле просто смотрят на текстуры

ПРОЧИТАЙТЕ БОЛЬШЕ

Возвращаясь к примеру с яблоком и пиццей, мультимодальные нейроны, которые научились изображать яблоко, также не срабатывают, когда видят написанное слово «пицца». Вместо этого срабатывают нейроны, связанные с пиццей. Модель легко спутать.

Есть свидетельства того, что абстрактное обучение с использованием мультимодальных нейронов также происходит в человеческом мозге. Но, к сожалению, именно здесь современные машины бледнеют по сравнению со своими биологическими аналогами. Люди, очевидно, могут сказать, что яблоко с записью от руки, на которой написано «пицца», все еще является яблоком, в то время как модели искусственного интеллекта пока этого не могут.

OpenAI заявила, что CLIP не работает так хорошо, как некоторые модели компьютерного зрения, которые сегодня используются в производстве. Он также страдает от оскорбительных предубеждений, его нейроны ассоциируют понятие «Ближний Восток» с «терроризмом», а чернокожие — с гориллами. На данный момент модель используется только для исследовательских целей, и OpenAI все еще решает, выпускать ли код или нет.

«Наше собственное понимание CLIP все еще развивается, и мы все еще решаем, будем ли и как выпустить большие версии CLIP. Мы надеемся, что дальнейшее изучение сообществом выпущенных версий, а также инструментов, которые мы анонсируем сегодня, поможет улучшить общее понимание мультимодальных систем, а также информировать нас о принятии решений », — говорится в сообщении.

OpenAI отказался от дальнейших комментариев по поводу CLIP. ®

Читайте также:
Microsoft внедряет обнаружение масок в Azure Cognitive Services. И да, есть атрибут noseAndMouthCovered • Регистр