Análise de cluster

Por 14 de maio de 2018Summary

Quando falamos de técnicas estatísticas, objetivos comuns são descrever os dados ou até fazer previsão. Porém existem mais utilidades, e uma delas é o agrupamento das observações, através da análise de Cluster/Grupo, de forma que:

  • Dentro dos grupos as observações sejam homogêneas;
  • Fora dos grupos as observações sejam heterogêneas.

Mas como fazer? Existem diversos tipos de técnicas de agrupamento, nós trataremos aqui talvez mais famosa, a análise de cluster hierárquica. Neste caso temos duas vertentes:

  • Aglomerativo: Neste método parte-se do princípio que cada observação pertence à um grupo, ou seja, se nosso banco tem tamanho n, teremos n grupos de tamanho 1, assim junta-se os grupos mais próximos formando assim um novo cluster, e este processo se repete até termos 1 grupo de tamanho n;
  • Divisivo: O processo aqui é o contrário, partimos de 1 grupo com tamanho e posteriormente vamos dividindo este grande grupo até termos n clusters de tamanho 1.

Já é possível ver que a partir deste método hierárquico geraremos todas as combinações possíveis de agrupamentos de tamanhos 1 a n. Isto pode ser interessante nos casos em que não se sabe qual o tamanho do número de grupos desejado, porém traz complicações computacionais para bancos de dados maiores, vide que é uma tarefa bem custosa gerar todas as possibilidades, mas não se preocupe, outros métodos podem sanar esta complicação, como os métodos não-hierárquicos, mas isso é assunto para um outro post.

Enfim, entendemos um pouco do seu funcionamento, mas onde afinal se aplica o método? Muitas aplicações são possíveis, como:

  • Mídias sociais: agrupar usuários com comportamento semelhante para envio de conteúdos específicos;
  • Segmentação de marketing: separar seus clientes através de características desejadas, para elaborar diferentes campanhas;
  • Sistemas de recomendação: criar um método de sugestão de produtos;
  • Detecção de anomalias: busca de observações tão heterogêneas que formem grupos isolados.

Para uma simples visualização de como pode ser o resultado de um agrupamento, faremos um breve exemplo.

Flor de íris.

Íris é um dos conjuntos de dados mais famosos, utilizado pelo renomado estatístico Sir Ronald A. Fisher no artigo The use of multiple measurements in taxonomic problems em 1936. Os dados em si foram coletados pelo botânico Edgar Anderson que buscava avaliar a variação nas características morfológicas de 3 tipos diferentes de flores de íris, em que as características mensuradas foram: comprimento e largura das sépalas e pétalas.

Análise descritiva das flores.

Gráfico de dispersão da largura x comprimento das pétalas e sépalas, por espécie.

Olhando o gráfico já temos alguns indícios, por exemplo, o tamanho da pétala diferencia bem as espécies, principalmente Setosa que possui pétalas bem menores que as demais, ainda a espécie Virginica possui pétalas maiores, em que suas menores observações se mesclam com  a espécie intermediária (em termos de pétala) Versicolor. Ao se avaliar as sépalas, a espécie Setosa apresenta menor largura e maior comprimento, novamente se isolando das demais espécies, enquanto aqui as demais espécies não apresentam uma separação tão clara como no caso das pétalas.

Assim, faz-se a aplicação do método de agrupamento, visando aqui 2 grupos, utilizando das 4 variáveis presentes no conjunto.

Análise de cluster para o conjunto de dados Iris.

Gráfico de dispersão de largura x comprimento das pétalas e sépalas, por cluster.

Vê-se que o cluster 2 é basicamente composto da espécie Setosa, sendo que também acomodou algumas das menores flores do conjunto, pertencente as outras espécies.

Fácil não? A princípio sim, mas este é um post meramente introdutório do conceito, todo processo por de trás do agrupamento foi omitido. Ainda a escolha da técnica de agrupamento é crucial, pois pode mudar drasticamente o resultado obtido, bem como gerar uma interpretação errônea. Mas não fique desanimado, se possui algum problema e acha que a análise de cluster pode ser útil, faça o seguinte:

Entre em contato conosco

Autor Vinícius Felix

Mais posts de Vinícius Felix

Insira uma resposta