Uma Abordagem de Aprendizado online para o Seguimento de Trajetórias usando Robôs não Holonômicos
Abstract
Este artigo investiga a aplicação de um método de Aprendizado por Reforço (RL) para derivar as leis de controle de robôs não holonômico, considerando o acoplamento e a não linearidade do sistema. Os controladores são derivados on-line através da interação entre o agente real e o ambiente desconhecido, usando uma abordagem baseada no algoritmo Q-Learning, que visa descobrir qual a melhor ação a ser tomada pelo agente, de modo a maximizar as recompensas recebidas em cada tentativa de execução do seguimento da trajetória desejada. Resultados experimentais mostraram que os controladores aprendidos são capazes de realizar o seguimento de diferentes trajetórias, de forma eficiente, levando em conta a variação das velocidades de translação e de rotação do robô e a maximização do valor das recompensas ao longo das iterações, conforme apresentado nos estudos de caso.