Aplicação de Aprendizado por Reforço no Blackjack: Estudo de Caso de Estimação de Parâmetros

Heitor Magno  Rodrigues Junior; André Luiz  Carvalho Ottoni

doi:10.48011/asba.v2i1.1732

Heitor Magno Rodrigues Junior Universidade Federal de Juiz de Fora
André Luiz Carvalho Ottoni Universidade Federal do Recôncavo da Bahia

DOI: https://doi.org/10.48011/asba.v2i1.1732

Keywords: Aprendizado por reforço, Blackjack, Estimação de parâmetros, Aprendizado de máquina, IA em jogos

Abstract

Este trabalho aplica a técnica de Aprendizado por Reforço (AR) no domínio do jogo de cartas Blackjack com o intuito de estimar os parâmetros de taxa de aprendizado (α) e fator de desconto (γ), de modo a maximizar o desempenho do algoritmo no jogo de cartas. São testadas 64 combinações de parâmetros e a definição da melhor combinação é obtida através da técnica estatística de Análise de Variância (ANOVA) e do uso do método Scott-Knott (SK). A combinação dos parâmetros estimada foi comparada com parâmetros adotados em outros trabalhos da literatura e obteve o melhor desempenho, com um número médio de vitórias e empates maior do que o número de derrotas.