Абстрактный

Эволюция и машинное обучение в робототехнике

Мохаммед Терри Джек

В основе робота лежит политика, которая сообщает ему, что делать (т. е. какое действие предпринять) в любой конкретной ситуации. Это может быть набор простых правил или сложная математическая функция. Но как узнать, как должны выглядеть правила или математическая функция? К счастью, существуют алгоритмы машинного обучения для аппроксимации функции (например, машины ядра, глубокое обучение и т. д.) или автоматического вывода этих правил (например, индуктивное логическое программирование, случайные леса и т. д.). Однако алгоритмы контролируемого обучения требуют большого количества обучающих данных, которые могут быть недоступны. Эволюционные методы (например, генетические алгоритмы) и другие алгоритмы оптимизации не требуют никаких обучающих данных для оценки и поиска в пространстве политик и нахождения оптимальных правил или функций. В качестве альтернативы, путем прямого приравнивания политики к поиску (через пространство состояние/действие-состояние), как это делается в обучении с подкреплением, следующее лучшее действие может быть найдено с помощью обученной функции оценки (например, V или Q-функции).

Отказ от ответственности: Этот реферат был переведен с помощью инструментов искусственного интеллекта и еще не прошел проверку или верификацию