OpenAI выпустила краткую информацию о своей последней нейронной сети на основе GPT-3, модели с 12 миллиардами параметров, способной автоматически генерировать сотни поддельных изображений при наличии текстовой подписи, стилизованной под DALL · E.

Поначалу это может показаться не таким уж интересным, но вы должны увидеть DALL · E в действии, чтобы по-настоящему оценить его. Он может создавать реалистичные изображения животных, предметов или сцен. Мы поэкспериментировали с системой, и вот что она выдает, когда получает запрос «поперечное сечение сердца».

сердце

У DALL · E есть сердце. нажмите, чтобы увеличить

В качестве более сложного примера приведем «гостиная с двумя оливковыми креслами и картиной с изображением кальмара. Картина установлена ​​над журнальным столиком». Неплохо, а?

осьминог

Более сложный, но все же довольно хороший. нажмите, чтобы увеличить

Он также может придумывать рисунки для случайных, бессмысленных концепций и выдумывать предметы, которые, вероятно, не существуют, например, «иллюстрация крошки дайкона в пачке, выгуливающей собаку».

редис

Почему бы и нет? нажмите, чтобы увеличить

Есть всевозможные странные комбинации, с которыми вы можете поиграть, щелкая различные варианты раскрывающегося меню, чтобы выбрать отдельные слова в текстовой подсказке в примеры в блоге OpenAI. DALL · E был построен на основе массивной языковой модели GPT-3 и анализирует текст. Однако вместо того, чтобы генерировать слова и предложения, он выдает пиксели и изображения.

Он был обучен с набором данных, который, вероятно, содержал сотни миллионов изображений, извлеченных из Интернета, и соответствующие подписи. Исследовательская лаборатория пока хранит молчание о большинстве технических деталей, стоящих за DALL · E, и заявила, что планирует раскрыть больше в следующей академической статье.

Хотя в настоящее время это скорее любопытство, чем полезный инструмент, некоторые считают, что он может подорвать творческие индустрии. Если бы такой инструмент, как DALL · E, был коммерчески доступен, каково было бы будущее дизайнеров, иллюстраторов, художников и фотографов, если бы машина могла выполнять ту же работу быстрее?

«Мы осознаем, что работа с генеративными моделями имеет потенциал для значительного и широкого воздействия на общество», — сказал OpenAI. «В будущем мы планируем проанализировать, как модели, подобные DALL · E, связаны с социальными проблемами, такими как экономическое влияние на определенные рабочие процессы и профессии, возможность предвзятости в результатах модели и более долгосрочные этические проблемы, связанные с этой технологией».

Читайте также:
Ой, мы сделали это снова! Google признает, что не смог стереть X-Mode SDK из своего магазина Play °

Нет, DALL · E не означает навсегда смерть человеческого искусства

Люба Эллиотт, куратор и исследователь Creative AI, лаборатории, специализирующейся на пересечении AI и творчества, рассказала Реестр что, хотя «DALL · E, безусловно, можно использовать в качестве коммерческого продукта», всегда будет место для искусства, созданного руками человека.

«При условии, что он может генерировать очень реалистичные изображения по всем направлениям, он может конкурировать с Shutterstock или Getty Images в некоторых случаях использования, в зависимости, конечно, от стоимости изображения и простоты создания. Эти варианты использования могут включать изображения для статей и сообщений в блогах, где основное внимание уделяется письму, а изображение выступает в качестве наполнителя содержания.

«Что касается фотографов и художников, это зависит от того, какой тип работы они делают. Иллюстраторы и стоковые фотографы вполне могут потерять часть работы из-за таких инструментов, но мы все еще далеки от того, чтобы заменить фотографов изобразительного искусства и художников с особым стилем и творчеством. Это связано с тем, что на данном этапе машины изо всех сил пытаются как придумывать, так и воплощать в жизнь по-настоящему новые идеи, часто их результат в значительной степени основан на тренировочных данных из прошлого и становится интересным, когда художник-человек формирует и придает смысл ».

Shutterstock и Getty Images не ответили на наши вопросы.

София Креспо и Фейлиакан Маккормик, цифровые художники, работающие в студии под названием Entangled Others, согласны с этим. Они считали, что компании, продающие стоковые изображения, вероятно, пострадают сильнее, чем сами фотографы и иллюстраторы, но считали, что DALL · E еще недостаточно хорош, чтобы заменить реальные изображения. Его творения просты, а качество варьируется в зависимости от формулировки текстовой подсказки.

Если вводимый текст описывает слишком много объектов или слишком многословен, это может сбить машину с толку, и она будет генерировать неверные изображения. «По мере того, как добавляется больше объектов, DALL · E склонен сбивать с толку ассоциации между объектами и их цветами, и вероятность успеха резко снижается. Мы также отмечаем, что DALL · E хрупкий в отношении перефразирования заголовка в этих сценариях: альтернативные, семантически эквивалентные заголовки часто не дают правильной интерпретации », — пояснили исследователи.

Читайте также:
В России заблокировали Reddit

Вот пример, который явно запрашивает изображение, содержащее три куба: красный сверху, зеленый посередине и синий внизу. Модель изо всех сил пытается понять и придумывает несколько неправильных интерпретаций — ее изображения содержат неправильное количество кубиков, и они часто сложены в неправильном порядке.

кубики

Хорошо, не очень хорошо. нажмите, чтобы увеличить

Как и его предшественник GPT-3, DALL · E поначалу броский, но не настолько умный. Примеры, продемонстрированные в сообщении блога, показывают только 32 верхних изображения из 512 сгенерированных — это означает, что остальные 94 процента или около того скрыты от просмотра. Вероятно, что если бы были показаны все примеры, качество изображения постепенно ухудшалось бы.

Кайл Макдональд, еще один художник, работающий с кодом, считает, что такие инструменты, как DALL · E, вероятно, «по крайней мере через три-пять лет дойдут до того, чтобы создавать изображения с высоким разрешением, необходимые для универсальной стоковой фотографии. Только несколько видов изображений. конкретные изображения, такие как лица и пейзажи, сейчас покрыты », — сказал он.

Система ранжирования могла бы быть не так уж плоха, если бы DALL · E был способен создавать более качественные изображения, сказал нам Том Уайт, художник и преподаватель Школы дизайна Веллингтонского университета Виктории в Новой Зеландии. «Автоматизация этого ранжирования результатов очень важна и делает эту систему намного более практичной, чем она могла бы быть в противном случае».

Это дает пользователю возможность автоматически фильтровать хорошее от плохого без необходимости вручную сортировать все творения машины.

Проблемы авторского права и предвзятость

Если что-то вроде DALL · E станет коммерческим инструментом, появятся дополнительные проблемы помимо сокращающихся возможностей трудоустройства для фотографов, художников-карикатуристов и тому подобное.

Массивные генеративные модели склонны запоминать свои обучающие данные. Чем больше нейронная сеть, тем больше данных необходимо для ее обучения и тем больше она запоминает. Группа исследователей под руководством Университета Беркли обнаруженный что при использовании GPT-2, уменьшенной версии GPT-3 с меньшим количеством параметров, чем DALL · E, они могли извлекать такие вещи, как речи, заголовки новостей, сотни цифр числа пи, стихи из Библии и Корана и даже строк кода, просто снабдив модель предложениями, взятыми из Интернета. Модель хорошо запоминает информацию — при появлении подсказки она заполняет пробелы тем, что видела раньше.

Читайте также:
Приносим извинения за ожидание, мы перегружены. Да, это больница. Что вам нужно ?! Проводите аудит лицензий на программное обеспечение? • Реестр

Поскольку DALL · E принадлежит к тому же типу, изображения, которые он генерирует, также представляют собой мешанину того, что он видел в Интернете. Иногда он может создавать что-то подозрительно похожее на существующий рисунок или фотографию, сделанную настоящим художником. «Основная этическая проблема DALL · E — отмывание авторских прав, — объяснил Алекс Шампандард, соучредитель creative · ai. Эль Рег. «Он обучен на большом наборе данных, извлеченном из Интернета без указания авторства. Было показано, что языковые модели GPT дословно воспроизводят свой обучающий контент, поэтому правовая ситуация здесь, например, о добросовестном использовании, неясна до тех пор, пока она не будет проверена в суде».

Еще одна вопиющая проблема, которая затрагивает все модели ИИ, от которых DALL · E не ускользнет, ​​- это предвзятость. Что, если кто-то использует его для создания оскорбительных, расистских или непристойных изображений? Что, если эти типы изображений созданы по ошибке? «Пока есть люди, которые могут их отфильтровать, все в порядке, но это будет проблемой, если DALL · E станет автономным автоматизированным инструментом», — сказал Шампандард.

Опасения пока остаются спекулятивными, если разработчики не создадут высокоэффективные и широко доступные версии-подражатели. Но не так уж и безумно полагать, что что-то вроде DALL · E в конечном итоге будет коммерциализировано. В конце концов, Microsoft обладает исключительными правами на лицензирование технологии OpenAI GPT-3. Возможно, Редмонд может использовать эту модель в качестве инструмента для обновления картинок и визуализации документов Word или презентаций PowerPoint.

Microsoft и OpenAI от комментариев отказались. ®