Uma Abordagem de Aprendizado online para o Seguimento de Trajetórias usando Robôs não Holonômicos

  • Mateus Sousa Franco Instituto de Ciência e Tecnologia, Universidade Federal de São Paulo
  • Sérgio R. Barros dos Santos Instituto de Ciência e Tecnologia, Universidade Federal de São Paulo
  • Fabio Augusto Faria Instituto de Ciência e Tecnologia, Universidade Federal de São Paulo
Keywords: Aprendizado por reforço, Q-learning, Controlador PID, Visão computacional

Abstract

Este artigo investiga a aplicação de um método de Aprendizado por Reforço (RL) para derivar as leis de controle de robôs não holonômico, considerando o acoplamento e a não linearidade do sistema. Os controladores são derivados on-line através da interação entre o agente real e o ambiente desconhecido, usando uma abordagem baseada no algoritmo Q-Learning, que visa descobrir qual a melhor ação a ser tomada pelo agente, de modo a maximizar as recompensas recebidas em cada tentativa de execução do seguimento da trajetória desejada. Resultados experimentais mostraram que os controladores aprendidos são capazes de realizar o seguimento de diferentes trajetórias, de forma eficiente, levando em conta a variação das velocidades de translação e de rotação do robô e a maximização do valor das recompensas ao longo das iterações, conforme apresentado nos estudos de caso.

Published
2020-12-07
Section
Articles