Исследователи OpenAI считают, что они открыли потрясающе простой способ обмануть свое программное обеспечение для распознавания объектов, и для этого требуется всего лишь ручка и бумага.

В частности, последняя модель компьютерного зрения лаборатории, ЗАЖИМ, можно обмануть с помощью так называемой «типографской атаки». Просто напишите слова «iPod» или «пицца» на листе бумаги, приклейте их на яблоко, и программа ошибочно классифицирует фрукт как Купертино музыкальный плеер или вкусное блюдо.

яблоко

Не самый умный инструмент в коробке. Источник: OpenAI. нажмите, чтобы увеличить

«Мы считаем, что атаки, подобные тем, которые описаны выше, — это далеко не просто академическая проблема», — заявляют специалисты, стоящие за CLIP. сказал на этой неделе. «Используя способность модели надежно читать текст, мы обнаруживаем, что даже фотографии рукописного текста часто могут обмануть модель». Они добавили, что «эта атака работает в дикой природе» и «она требует не больше технологий, чем ручка и бумага.»

CLIP — не единственное программное обеспечение с искусственным интеллектом, которое попалось на такие простые уловки. Было продемонстрировано, что можно использовать липкую ленту для обмануть автопилот Теслы в неправильном прочтении знака «35 миль в час» как «85 миль в час». Однако другие формы этих так называемых состязательных атак требуют некоторые технические ноу-хау для выполнения: обычно это включает добавление шума к фотографии или создание наклейка из аккуратно расположенных пикселей, чтобы система распознавания объектов ошибочно приняла, скажем, банан за тостер. Однако в случае с CLIP в этом нет необходимости.

Читайте также:
Это веб-приложение, по всей видимости, настроит ваши фотографии так, чтобы они сбивали с толку системы распознавания лиц. • The Register

Достаточно сказать, что модель OpenAI была обучена с использованием изображений текста, а также изображений объектов и других вещей, взятых из Интернета.

острое сердечно-сосудистое заболевание

Думаете, ваши умные часы подходят для предупреждения о сердечном приступе? Оказывается, его ИИ на удивление легко обмануть.

ПРОЧИТАЙТЕ БОЛЬШЕ

Этот подход был использован для того, чтобы CLIP оставался достаточно универсальным и мог быть настроен по мере необходимости для конкретной рабочей нагрузки без необходимости повторного обучения. Учитывая изображение, он может не только предсказать правильный набор текстовых меток, описывающих сцену, но и может быть перепрофилирован для поиска в больших базах данных изображений и предоставления подписей.

По словам OpenAI, CLIP может изучать абстрактные концепции в различных представлениях. Например, модель может распознать Человека-паука, когда супергерой изображен на фотографии, эскизе или описан в тексте. Что еще интереснее, исследователи смогли найти группы нейронов в нейронной сети, которые активируются, когда программное обеспечение показывает проблеск Человека-паука.

Они описали это как мультимодальные нейроны. «Одним из таких нейронов, например, является нейрон« Человека-паука », который реагирует на изображение паука, изображение текста« паук »и персонажа комиксов« Человек-паук »либо в костюме, либо на иллюстрации, — заявила команда OpenAI. В CLIP есть всевозможные мультимодальные нейроны, которые представляют разные понятия, такие как времена года, страны, эмоции и объекты.

Но самые сильные стороны этой модели — ее универсальность и надежность — также являются ее самым большим недостатком. Они обнаружили, что CLIP легко обмануть типографскими атаками.

Читайте также:
AWS делает вещи, которые «просто НЕЛЬЗЯ с 2015 года», - заявляет Elastic, когда фирма требует лицензии Apache 2.0 °

ИИ с распознаванием объектов — идея глупой программы об умной программе: как нейронные сети на самом деле просто смотрят на текстуры

ПРОЧИТАЙТЕ БОЛЬШЕ

Возвращаясь к примеру с яблоком и пиццей, мультимодальные нейроны, которые научились изображать яблоко, также не срабатывают, когда видят написанное слово «пицца». Вместо этого срабатывают нейроны, связанные с пиццей. Модель легко спутать.

Есть свидетельства того, что абстрактное обучение с использованием мультимодальных нейронов также происходит в человеческом мозге. Но, к сожалению, именно здесь современные машины бледнеют по сравнению со своими биологическими аналогами. Люди, очевидно, могут сказать, что яблоко с записью от руки, на которой написано «пицца», все еще является яблоком, в то время как модели ИИ пока не могут.

OpenAI заявила, что CLIP не работает так хорошо, как некоторые модели компьютерного зрения, которые сегодня используются в производстве. Он также страдает от оскорбительных предубеждений, его нейроны ассоциируют понятие «Ближний Восток» с «терроризмом», а чернокожие — с гориллами. На данный момент модель используется только для исследовательских целей, и OpenAI все еще решает, выпускать ли код или нет.

«Наше собственное понимание CLIP все еще развивается, и мы все еще решаем, будем ли и как выпустить большие версии CLIP. Мы надеемся, что дальнейшее изучение сообществом выпущенных версий, а также инструментов, которые мы анонсируем сегодня, поможет улучшить общее понимание мультимодальных систем, а также информировать нас о принятии решений », — говорится в сообщении.

OpenAI отказался от дальнейших комментариев по поводу CLIP. ®

Читайте также:
Micro Focus сообщает о 10% -ном падении выручки и многомиллиардных убытках от обесценения, но инвесторы не одобряют этого • Реестр