Этот робот Google научил себя ходить без посторонней помощи за два часа

39

Вы помните ту сцену в « Бэмби» Уолта Диснея, где титульный олень учится вставать и ходить своим ходом? Это очаровательная виньетка в фильме, демонстрирующая умение, которое множество маленьких животных — от свиней до жирафов и оленей — приобретают в течение нескольких минут после их рождения. В течение первых нескольких часов жизни эти животные быстро улучшают свои моторные навыки, пока не получат полный контроль над своей собственной передвижением. Люди, которые учатся держаться за вещи около семи месяцев и начинают ходить с 15 месяцев, безнадежно медлительны по сравнению с животными.

Угадай, какая последняя задача, которую роботы удивили нас? В новом исследовании, проведенном исследователями из Google , инженеры научили робота-минитавра четвероногого передвигаться, ну, на самом деле, совсем не нужно его многому учить. Скорее, они использовали тип целенаправленного искусственного интеллекта, чтобы заставить четвероногого робота научиться ходить вперед , назад и поворачивать влево и вправо полностью самостоятельно. Он смог успешно научить себя делать это на трех разных территориях, включая плоскую поверхность, мягкий матрас и половик с расщелиной.

«Роботы на ножках могут обладать большой мобильностью, потому что ноги необходимы для навигации по грунтовым дорогам и местам, предназначенным для людей» , — сказал Digital Trends Джи Тан , главный исследователь проекта и руководитель направления усилий Google по передвижению. «Мы заинтересованы в том, чтобы роботы на ножках могли ориентироваться в наших разнообразных и сложных реальных условиях, но сложно вручную разработать роботизированные контроллеры, способные справиться с таким разнообразием и сложностью. Поэтому важно, чтобы роботы могли учиться самостоятельно. Эта работа впечатляет, потому что это ранняя демонстрация того, что с нашей системой робот с ножками может успешно учиться ходить самостоятельно ».

Положительное подкрепление

Технология, лежащая в основе этого конкретного проекта, — это то, что называется глубоким обучением подкрепления, особым подходом к глубокому обучению, который вдохновлен поведенческой психологией и методом проб и ошибок. Преданные максимизировать определенное вознаграждение, программные агенты учатся действовать в среде, которая будет достигать этих результатов наиболее точным и эффективным способом. Сила обучения с подкреплением была продемонстрирована в 2013 году, когда Google DeepMind выпустил документ, показывающий, как он обучил ИИ играть в классические видеоигры Atari. Это было достигнуто без каких-либо инструкций, кроме показаний на экране и приблизительно 30 000 пикселей, составляющих каждый кадр видеоигр, в которые он играл.

Исследователи робототехники также часто используют видеоигры или, по крайней мере, симуляции. Симуляция имеет идеальный смысл в теории, поскольку она позволяет робототехникам тренировать свою машину в виртуальном мире, прежде чем переходить в реальный. Это спасает роботов от неизбежных крушений и износа, которым он подвергнется, когда научится выполнять определенную задачу. В качестве аналогии представьте, что все ваши уроки вождения проводились с использованием симулятора вождения. Можно привести аргумент, что вы будете учиться быстрее, потому что вам не нужно быть настолько осторожным, рискуя своей физической безопасностью или повреждением своего автомобиля (или чужого автомобиля). Вы также можете тренироваться быстрее, не дожидаясь назначенных уроков или того, что водитель, имеющий лицензию, будет готов взять вас с собой.

Проблема в том, что, как знает любой, кто когда-либо играл в автомобильную видеоигру, довольно сложно смоделировать реальный мир так, как будто это настоящий мир. Вместо этого исследователи Google начали разрабатывать улучшенные алгоритмы, которые позволят их роботу учиться быстрее с меньшим количеством испытаний. Основываясь на предыдущем исследовании Google, опубликованном в 2018 году , их робот смог научиться ходить всего за пару часов в этой последней демонстрации.

Это также можно сделать, подчеркивая более осторожный и безопасный подход к обучению, включающий меньшее количество падений. В результате это сводит к минимуму количество вмешательств человека, которые необходимо предпринять, чтобы поднять робота и вычистить его каждый раз, когда он падает.

Создание лучших роботов

Обучение ходьбе в течение двух часов может быть не таким уж высоким уровнем эффективности обучения, но инженерам совсем не нужно явно программировать, как робота обычно учат маневрировать. (И, как уже отмечалось, это намного лучше, чем младенцы могут справиться в такие сроки!)

«Несмотря на то, что многие алгоритмы обучения без присмотра или подкрепления были продемонстрированы в симуляции, применение их на реальных роботах на ножках оказывается невероятно трудным», — объяснил Тан. «Во-первых, обучение подкреплению требует много данных, а сбор данных роботов стоит дорого. Наша предыдущая работа решила эту проблему. Во-вторых, обучение требует, чтобы кто-то проводил много времени, наблюдая за роботом. Если нам нужен человек, чтобы следить за роботом и вручную сбрасывать его каждый раз, когда он спотыкается — сотни или тысячи раз — это займет много усилий и очень много времени, чтобы обучить робота. Чем дольше это займет, тем сложнее расширить обучение многим роботам в самых разных средах ».

Однажды это исследование может помочь создать более гибких роботов, которые быстрее адаптируются к различным местностям. «Потенциальных применений много», — сказал Тан. Тем не менее, Тан подчеркнул, что «это все еще первые дни, и есть много проблем, которые нам еще предстоит преодолеть».

В соответствии с темой обучения подкреплению, это, безусловно, награда, которую стоит максимизировать!

DIGITAL TRENDS

5 2 votes
Рейтинг
Подписаться
Уведомление о
guest
0 Комментарий
Inline Feedbacks
View all comments