OpenAI учит роботов справляться с CLIP °

    0
    63


    Роботы, работающие на нейронных сетях, очень хрупкие. Им необходимо увидеть многочисленные демонстрации конкретной задачи в симуляции, прежде чем они смогут начать выполнять те же действия в физическом мире. Однако новый метод обещает ускорить процесс.

    Исследователи из Вашингтонского университета и Nvidia пытались решить проблему необходимости тратить длительные периоды времени на сбор данных, чтобы научить ботов, работающих на нейронной сети, распознавать объекты в своей среде и манипулировать ими.

    Простая задача, например, сложить красный блок поверх синего, является сложной для машин. Им нужно скармливать множество изображений как красных, так и синих блоков в различных позах, чтобы узнать их форму и цвет, а затем несколько видеороликов, показывающих, в каком порядке их складывать. Робот также должен будет обнаруживать эти блоки, чтобы найти их раньше. можно начать перемещать их.

    Однако попросите его сделать то же самое, скажем, с кружками, и его производительность, вероятно, упадет. Его нужно заново обучать распознавать новые объекты, даже если он только что научился складывать вещи. Это кропотливый процесс, когда приходится загружать машины с ложечки для тысяч демонстраций с использованием различных комбинаций объектов в разных средах, чтобы сделать их более надежными.

    Однако новый метод, описанный исследователями из Вашингтонского университета и Nvidia, обещает сделать машины умнее. Используя систему, известную как «CLIPort», команда смогла научить робота-захватчика, как манипулировать объектами, без необходимости явно обучать его распознавать объекты в первую очередь.

    Модель состоит из двух частей: CLIP, нейронной сети, разработанной OpenAI, обученной на изображениях и тексте, извлеченных из Интернета, и транспортной сети для классификации пикселей и определения пространственных отношений между объектами. Поскольку CLIP уже предварительно обучен распознавать объекты и описывать их в тексте, исследователи могут давать инструкции роботу в тексте, и он автоматически определяет, о чем они говорят.

    «Мы представляем CLIPort, агент для обучения имитации и обучения языку, который сочетает в себе широкое семантическое понимание (что) CLIP с пространственной точностью (где) Transporter», – говорится в статье команды о arXiv.

    «Наша сквозная структура способна решать разнообразные настольные задачи, определенные языком, от упаковки невидимых объектов до складывания ткани, и все это без каких-либо явных представлений позы объектов, сегментации экземпляров, памяти, символических состояний или синтаксических структур».

    Например, в команде «собрать все вишни и положить в ящик». Часть системы CLIP будет знать, как выглядят «вишенки» и «коробочка». Чтобы понять это, робота не нужно обучать работе с многочисленными изображениями вишен или коробок. Затем робототехники могут перейти ко второму этапу тренировочного процесса и просто показать механической руке точное движение, чтобы схватить вишни и бросить их в контейнер одну за другой.

    Затем транспортер направляет робота, чтобы имитировать действие для выполнения задачи в реальном мире. Он может делать и другие вещи, например складывать ткань или подметать зерна, не подвергаясь воздействию изображений полотенец или кофейных зерен.

    «В отличие от существующих детекторов объектов, CLIP не ограничивается предопределенным набором классов объектов», – сказал Мохит Шридхар, первый автор статьи и аспирант Вашингтонского университета. °.

    “И в отличие от других моделей языка видения, он не ограничен нисходящим конвейером, который обнаруживает объекты с ограничивающими прямоугольниками или сегментацией экземпляров. Это позволяет нам отказаться от традиционной парадигмы обучения явных детекторов для ткани, плоскогубцев, квадратов шахматной доски, стеблей вишни. , и другие произвольные вещи “.

    Шридхар объяснил, что существуют и другие подобные системы, которые используют предварительно обученные классификаторы изображений, такие как CLIP, но они не обучены такому количеству типов объектов. Новая система означает, что роботы на базе CLIPort могут быть настроены для выполнения новых задач с «очень небольшим объемом данных».

    Что еще более полезно, так это то, что он лучше выполняет те же задачи, которым раньше учили, с новыми объектами, которых он раньше не видел. Робот может складывать серию блоков в определенном цветовом порядке во время обучения и научиться выполнять одну и ту же задачу с разными цветными блоками, которых он раньше не видел.

    Вы можете увидеть это действие ниже.

    YouTube видео

    Обратной стороной CLIPort, однако, является то, что ему все еще требуется более сотни демонстраций видео, прежде чем он сможет что-то сделать достаточно успешно. Некоторые задачи сложнее других; Помещение фигуры в ее правое отверстие особенно сложно для CLIPort, когда он не видел демонстрации задачи с использованием объекта другой формы.

    Кроме того, если есть объект, которому CLIP не подвергался в процессе обучения, CLIPort также не знает, как его распознать. Хотя система более надежна, она недостаточно универсальна, чтобы знать, как выполнять задачу, не увидев ее вначале.

    «Возможности CLIPort ограничены только действиями, показанными во время обучающих демонстраций. Если он обучен« складывать два блока », и вы просите его« сделать башню из 5 блоков », он не будет знать, как это сделать. Все глаголы также тесно связаны с обучающими демонстрациями, в том смысле, что они не будут делать ничего, кроме навыков действия, полученных во время обучения », – добавил Шридхар.

    По его словам, CLIPort специально разработан, чтобы держать людей в курсе. Человек-эксперт должен обучить робота с помощью демонстраций, а также предоставить языковые команды во время выполнения. Вы можете увидеть его код здесь. ®

    Предыдущая статьяBandai Namco представляет новый корпоративный логотип
    Следующая статьяQlik теряет данные Vis и делает ставку на автоматизацию °
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.