Índice de validação de agrupamento de dados baseado em curvas principais

  • Franciele A. Ferreira Universidade Federal de Lavras
  • Danton D. Ferreira Universidade Federal de Lavras
  • Bruno H. G. Barbosa Universidade Federal de Lavras
Keywords: Índices de validação, Agrupamento de dados, Curvas principais, Método não supervisionado, Distribuição não Gaussiana

Abstract

Os algoritmos de agrupamento de dados são métodos não supervisionados que buscam separar o conjunto conjunto de dados em k grupos sem depender do conhecimento prévio do conjunto de dados. Os índices de validação de cluster são comumente usados para validar o resultado desses algoritmos, já que nenhum rótulo está disponível. O agrupamento de dados com base nas curvas principais, é uma generalização não linear da Análise de Componentes Principais e pode mapear as não linearidades dos dados de várias dimensões para uma dimensão, gerando vetores de representação de dados compactos. Ele é capaz de lidar com clusters de dados com distribuição não gaussiana, mas, em geral, os índices de validação são construídos combinando uma medida de compactação e uma medida de separação que nem sempre reflete a qualidade do cluster para esse tipo de distribuição de dados e pode, portanto, apresentar resultados enganosos. Neste artigo, um novo índice de validação é proposto para agrupamento de dados com base nas curvas principais. Foram realizados experimentos em bases de dados sintéticas. Os resultados mostraram que o índice proposto é adequado para o método de agrupamento baseado em curvas principais para diferentes distribuições

Published
2020-12-08
Section
Articles