Aplicação de Aprendizado por Reforço no Blackjack: Estudo de Caso de Estimação de Parâmetros
Abstract
Este trabalho aplica a técnica de Aprendizado por Reforço (AR) no domínio do jogo de cartas Blackjack com o intuito de estimar os parâmetros de taxa de aprendizado (α) e fator de desconto (γ), de modo a maximizar o desempenho do algoritmo no jogo de cartas. São testadas 64 combinações de parâmetros e a definição da melhor combinação é obtida através da técnica estatística de Análise de Variância (ANOVA) e do uso do método Scott-Knott (SK). A combinação dos parâmetros estimada foi comparada com parâmetros adotados em outros trabalhos da literatura e obteve o melhor desempenho, com um número médio de vitórias e empates maior do que o número de derrotas.