Aprendizado Ativo via Algoritmo de Evolução Diferencial

Marcus Vinicius  de Freitas Diadelmo; Marcus Vinicius  de Paula; Tamires  Martins Rezende; Antônio  de Pádua Braga; Cristiano  Leite de Castro

doi:10.48011/asba.v2i1.1726

Marcus Vinicius de Freitas Diadelmo Instituto Federal de Minas Gerais
Marcus Vinicius de Paula Universidade Federal de Minas Gerais
Tamires Martins Rezende Universidade Federal de Minas Gerais
Antônio de Pádua Braga Universidade Federal de Minas Gerais
Cristiano Leite de Castro Universidade Federal de Minas Gerais

DOI: https://doi.org/10.48011/asba.v2i1.1726

Keywords: Aprendizado de máquina, Aprendizado ativo, Algoritmo evolucionário, Evolução diferencial, Máquina de vetores de suporte

Abstract

Este trabalho apresenta uma metodologia para classicação de dados, em duas etapas, utilizando uma técnica de aprendizado ativo. A primeira etapa da metodologia consiste em determinar um ponto de partida para a escolha dos dados iniciais a serem rotulados. Na segunda etapa, o algoritmo de aprendizado ativo é aplicado aos dados. Uma vez que a rotulação pode apresentar alto custo em diversas aplicações, o objetivo da metodologia proposta consiste em
obter uma boa performance do algoritmo de aprendizado ativo com o menor número possível de dados rotulados. O método proposto possui informações a priori sobre a distribuição dos dados não rotulados. Por meio dessa distribuição, a população do algoritmo de evolução diferencial converge para próoximo da região de separação das classes. A população empregada nesta tarefa ée distribuída no domínio dos dados não rotulados e evolui para regiões de baixa densidade de dados. Ao finalizar a execução do algoritmo evolucionário, um hiperplano é gerado usando a população final. Em seguida, o processo de aprendizado ativo (pool - based) é iniciado. O classicador é obtido utilizando um algoritmo de máquina de vetores de suporte (SVM). Por meio dos experimentos realizados, verificou-se que o algoritmo de aprendizado ativo obteve uma acurácia de acertos próximo da máxima (quando todos os dados são utilizados para
o treinamento) com menos de 20% dos dados rotulados. Conclui-se que o conhecimento a priori da distribuição das classes permite obter resultados acurados considerando um número relativamente pequeno de dados rotulados.