Diferença entre agrupamento hierárquico e particional

Anonim

Grupos hierárquicos vs agrupamentos parciais

O agrupamento é uma técnica de aprendizado de máquina para analisar dados e dividir em grupos de dados semelhantes. Esses grupos ou conjuntos de dados semelhantes são conhecidos como clusters. A análise de cluster analisa os algoritmos de agrupamento que podem identificar clusters automaticamente. Hierárquica e Particional são duas dessas classes de algoritmos de agrupamento. Algoritmos de agrupamento hierárquico dividem os dados em uma hierarquia de clusters. Os algoritmos parciais dividem o conjunto de dados em partições mutuamente disjuntas.

O que é o agrupamento hierárquico?

Os algoritmos de agrupamento hierárquico repetem o ciclo de mesclagem de clusters menores em maiores ou dividindo agrupamentos maiores para pequenos. De qualquer forma, produz uma hierarquia de clusters chamada dendograma. A estratégia de agrupamento agglomerativo usa a abordagem de baixo para cima da fusão de clusters em grandes, enquanto a estratégia de clustering divisória usa a abordagem de cima para baixo para dividir em menores. Normalmente, a abordagem gananciosa é usada para decidir quais clusters maiores / menores são usados ​​para mesclar / dividir. A distância euclidiana, a distância de Manhattan e a semelhança de coseno são algumas das métricas mais comumente usadas de similaridade para dados numéricos. Para dados não-numéricos, métricas como a distância de Hamming são usadas. É importante notar que as observações reais (instâncias) não são necessárias para o agrupamento hierárquico, pois apenas a matriz de distâncias é suficiente. Dendograma é uma representação visual dos clusters, que mostra a hierarquia com muita clareza. O usuário pode obter diferentes agrupamentos dependendo do nível no qual o dendograma é cortado.

O que é Clustering Particional?

Os algoritmos de agrupamento particional geram várias partições e, em seguida, avaliá-los por algum critério. Eles também são referidos como não-hierárquicos, uma vez que cada instância é colocada exatamente em um dos k grupos mutuamente exclusivos. Como apenas um conjunto de clusters é a saída de um algoritmo de agrupamento particional típico, é necessário que o usuário insira o número desejado de clusters (normalmente chamado de k). Um dos algoritmos de agrupamento particional mais utilizados é o algoritmo de agrupamento k-means. O usuário é obrigado a fornecer o número de clusters (k) antes de iniciar e o algoritmo inicia os centros (ou centroides) das partições k. Em poucas palavras, o algoritmo de agrupamento k-means, em seguida, atribui membros com base nos centros atuais e re-estima centros baseados nos membros atuais. Esses dois passos são repetidos até que uma função objetiva de similaridade intragrupo e função objetivo de dissimilaridade inter-cluster sejam otimizadas.Portanto, a inicialização sensível dos centros é um fator muito importante na obtenção de resultados de qualidade a partir de algoritmos de agrupamento particional.

Qual a diferença entre o agrupamento hierárquico e particional?

O agrupamento hierárquico e particional tem diferenças importantes no tempo de execução, premissas, parâmetros de entrada e clusters resultantes. Normalmente, o agrupamento particional é mais rápido do que o agrupamento hierárquico. O agrupamento hierárquico requer apenas uma medida de similaridade, enquanto o agrupamento particional requer pressupostos mais fortes, como o número de clusters e os centros iniciais. O agrupamento hierárquico não requer nenhum parâmetro de entrada, enquanto os algoritmos de agrupamento particional exigem que o número de clusters comece a ser executado. O agrupamento hierárquico retorna uma divisão de clusters muito mais significativa e subjetiva, mas o agrupamento particional resulta em clusters exatamente k. Os algoritmos de agrupamento hierárquico são mais adequados para dados categóricos, desde que uma medida de similaridade possa ser definida de acordo.