Aplicação de Aprendizado por Reforço no Blackjack: Estudo de Caso de Estimação de Parâmetros

  • Heitor Magno Rodrigues Junior Universidade Federal de Juiz de Fora
  • André Luiz Carvalho Ottoni Universidade Federal do Recôncavo da Bahia
Keywords: Aprendizado por reforço, Blackjack, Estimação de parâmetros, Aprendizado de máquina, IA em jogos

Abstract

Este trabalho aplica a técnica de Aprendizado por Reforço (AR) no domínio do jogo de cartas Blackjack com o intuito de estimar os parâmetros de taxa de aprendizado (α) e fator de desconto (γ), de modo a maximizar o desempenho do algoritmo no jogo de cartas. São testadas 64 combinações de parâmetros e a definição da melhor combinação é obtida através da técnica estatística de Análise de Variância (ANOVA) e do uso do método Scott-Knott (SK). A combinação dos parâmetros estimada foi comparada com parâmetros adotados em outros trabalhos da literatura e obteve o melhor desempenho, com um número médio de vitórias e empates maior do que o número de derrotas.

Published
2020-12-07
Section
Articles