OpenAI учит роботов справляться с CLIP °

От

01.10.2021

Роботы, работающие на нейронных сетях, очень хрупкие. Им необходимо увидеть многочисленные демонстрации конкретной задачи в симуляции, прежде чем они смогут начать выполнять те же действия в физическом мире. Однако новый метод обещает ускорить процесс.

Исследователи из Вашингтонского университета и Nvidia пытались решить проблему необходимости тратить длительные периоды времени на сбор данных, чтобы научить ботов, работающих на нейронной сети, распознавать объекты в своей среде и манипулировать ими.

Простая задача, например, сложить красный блок поверх синего, является сложной для машин. Им нужно скармливать множество изображений как красных, так и синих блоков в различных позах, чтобы узнать их форму и цвет, а затем несколько видеороликов, показывающих, в каком порядке их складывать. Робот также должен будет обнаруживать эти блоки, чтобы найти их раньше. можно начать перемещать их.

Однако попросите его сделать то же самое, скажем, с кружками, и его производительность, вероятно, упадет. Его нужно заново обучать распознавать новые объекты, даже если он только что научился складывать вещи. Это кропотливый процесс, когда приходится загружать машины с ложечки для тысяч демонстраций с использованием различных комбинаций объектов в разных средах, чтобы сделать их более надежными.

Однако новый метод, описанный исследователями из Вашингтонского университета и Nvidia, обещает сделать машины умнее. Используя систему, известную как «CLIPort», команда смогла научить робота-захватчика, как манипулировать объектами, без необходимости явно обучать его распознавать объекты в первую очередь.

Модель состоит из двух частей: CLIP, нейронной сети, разработанной OpenAI, обученной на изображениях и тексте, извлеченных из Интернета, и транспортной сети для классификации пикселей и определения пространственных отношений между объектами. Поскольку CLIP уже предварительно обучен распознавать объекты и описывать их в тексте, исследователи могут давать инструкции роботу в тексте, и он автоматически определяет, о чем они говорят.

«Мы представляем CLIPort, агент для обучения имитации и обучения языку, который сочетает в себе широкое семантическое понимание (что) CLIP с пространственной точностью (где) Transporter», – говорится в статье команды о arXiv.

«Наша сквозная структура способна решать разнообразные настольные задачи, определенные языком, от упаковки невидимых объектов до складывания ткани, и все это без каких-либо явных представлений позы объектов, сегментации экземпляров, памяти, символических состояний или синтаксических структур».

Например, в команде «собрать все вишни и положить в ящик». Часть системы CLIP будет знать, как выглядят «вишенки» и «коробочка». Чтобы понять это, робота не нужно обучать работе с многочисленными изображениями вишен или коробок. Затем робототехники могут перейти ко второму этапу тренировочного процесса и просто показать механической руке точное движение, чтобы схватить вишни и бросить их в контейнер одну за другой.

Затем транспортер направляет робота, чтобы имитировать действие для выполнения задачи в реальном мире. Он может делать и другие вещи, например складывать ткань или подметать зерна, не подвергаясь воздействию изображений полотенец или кофейных зерен.

«В отличие от существующих детекторов объектов, CLIP не ограничивается предопределенным набором классов объектов», – сказал Мохит Шридхар, первый автор статьи и аспирант Вашингтонского университета. °.

“И в отличие от других моделей языка видения, он не ограничен нисходящим конвейером, который обнаруживает объекты с ограничивающими прямоугольниками или сегментацией экземпляров. Это позволяет нам отказаться от традиционной парадигмы обучения явных детекторов для ткани, плоскогубцев, квадратов шахматной доски, стеблей вишни. , и другие произвольные вещи “.

Шридхар объяснил, что существуют и другие подобные системы, которые используют предварительно обученные классификаторы изображений, такие как CLIP, но они не обучены такому количеству типов объектов. Новая система означает, что роботы на базе CLIPort могут быть настроены для выполнения новых задач с «очень небольшим объемом данных».

Что еще более полезно, так это то, что он лучше выполняет те же задачи, которым раньше учили, с новыми объектами, которых он раньше не видел. Робот может складывать серию блоков в определенном цветовом порядке во время обучения и научиться выполнять одну и ту же задачу с разными цветными блоками, которых он раньше не видел.

Вы можете увидеть это действие ниже.

YouTube видео

Обратной стороной CLIPort, однако, является то, что ему все еще требуется более сотни демонстраций видео, прежде чем он сможет что-то сделать достаточно успешно. Некоторые задачи сложнее других; Помещение фигуры в ее правое отверстие особенно сложно для CLIPort, когда он не видел демонстрации задачи с использованием объекта другой формы.

OpenAI учит роботов справляться с CLIP °

ОСТАВЬТЕ ОТВЕТ Отменить ответ

GhostBSD делает FreeBSD немного менее пугающим

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Путь к инновациям с помощью ИИ и машинного обучения –

Промышленные системы, интегрирующие цифровые технологии –

Generative AI and the wizardry of the wide-open ecosystem

ОСТАВЬТЕ ОТВЕТ Отменить ответ

GhostBSD делает FreeBSD немного менее пугающим

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА