Это выглядит странно, но довольно впечатляюще.

Усиление обучения (Reinforcement learning) – это практика преподавания и руководства поведения с использованием системы вознаграждения. Желательное поведение дает награды, и как показывает практика, нежелательного поведения нет. Это обычный инструмент, используемый для машинного обучения, и теперь команда Alphabet использовала его, чтобы научить DeepMind AI успешно проходить курс паркура.

Команда хотела увидеть, будут ли простые награды работать в сложной среде. Они создали виртуальный курс паркура с каплями, препятствиями и выступами и наградой за продвижение вперед. На самом базовом уровне система была следующей: чем быстрее AI перемещался по местности, тем больше вознаграждений. Дополнительные стимулы и штрафы были добавлены для более сложных программ.

Все навигационные данные о палочке преподавались посредством обучения подкрепления. ИИ использовал систему проб и ошибок, чтобы выяснить, как двигаться вперед максимально быстро, без «прекращения движения».

Понятно, что DeepMind использует креативные решения, чтобы обойти препятствия, с которыми он сталкивается. Большую часть времени, движение, которое обеспечивает наиболее эффективное решение, не совсем естественно выглядит. Он представляет интересные возможности для будущего ИИ, потому что роботам на самом деле не нужно ограничиваться человекоподобными движениями, чтобы достичь поставленных целей. Будет интересно посмотреть, влияет ли это на будущие разработки и AI и роботов.

По материалам Engadget.

Читайте также:  Автомобили Lyft с самообслуживанием ИИ порадуют улицы Сан-Франциско