Diferença entre agrupamento e classificação | Clustering vs Classification
Diferença-chave - Clustering versus Classificação
Embora o agrupamento e a classificação parecem ser processos semelhantes, há uma diferença entre eles com base em seu significado. No mundo da mineração de dados, o agrupamento e a classificação são dois tipos de métodos de aprendizagem. Ambos os métodos caracterizam objetos em grupos por um ou mais recursos. A principal diferença entre agrupamento e classificação é que o agrupamento é uma técnica de aprendizado sem supervisão usada para agrupar instâncias semelhantes com base em características enquanto que a classificação é uma técnica de aprendizagem supervisionada usada para atribuir tags pré-definidas a instâncias no com base em características.
O que é Clustering?
O agrupamento é um método de agrupamento de objetos de tal forma que os objetos com características semelhantes se juntam, e os objetos com características diferentes desaparecem. É uma técnica comum para análise de dados estatísticos utilizada na aprendizagem de máquinas e na mineração de dados. O agrupamento pode ser usado para análise e generalização de dados exploratórios.
Clustering pertence à mineração de dados não supervisionada, e o cluster não é um único algoritmo específico, mas um método geral para resolver a tarefa. O agrupamento pode ser alcançado por vários algoritmos. O algoritmo de cluster apropriado e as configurações de parâmetros dependem dos conjuntos de dados individuais. Não é uma tarefa automática, mas é um processo iterativo de descoberta. Portanto, é necessário modificar o processamento de dados e modelagem de parâmetros até o resultado alcançar as propriedades desejadas. O clustering K-means e o agrupamento hierárquico são dois algoritmos de cluster comuns usados na mineração de dados.
O que é Classificação?
A classificação é um processo de categorização onde os objetos são reconhecidos, diferenciados e entendidos com base no conjunto de dados de treinamento. A classificação é uma técnica de aprendizagem supervisionada onde um conjunto de treinamento e observações corretamente definidas estão disponíveis.
O algoritmo que implementa a classificação é freqüentemente conhecido como classificador, e as observações são muitas vezes conhecidas como instâncias. Os algoritmos K-Nearest Neighbor algoritmo e decisão são os algoritmos de classificação mais famosos utilizados na mineração de dados.
Qual a diferença entre Clustering e Classification ?
Definições de Clustering e Classificação:
Clustering: O agrupamento é uma técnica de aprendizado não supervisionada usada para agrupar instâncias semelhantes com base em recursos.
Classificação: A classificação é uma técnica de aprendizagem supervisionada usada para atribuir tags pré-definidas a instâncias com base em recursos.
Características do agrupamento e classificação:
Supervisão:
Clustering: O agrupamento é uma técnica de aprendizagem não supervisionada.
Classificação: A classificação é uma técnica de aprendizagem supervisionada.
Conjunto de treinamento:
Agrupamento: Um conjunto de treinamento não é usado no agrupamento.
Classificação: Um conjunto de treinamento é usado para encontrar semelhanças na classificação.
Processo:
Clustering: Os conceitos estatísticos são usados e os conjuntos de dados são divididos em subconjuntos com recursos semelhantes.
Classificação: Classificação usa os algoritmos para categorizar os novos dados de acordo com as observações do conjunto de treinamento.
Etiquetas:
Agrupamento: Não há rótulos no agrupamento.
Classificação: Existem rótulos para alguns pontos.
Objetivo:
Clustering: O objetivo do cluster é agrupar um conjunto de objetos para determinar se existe alguma relação entre eles.
Classificação: O objetivo do cluster é encontrar a qual classe um novo objeto pertence ao conjunto de classes predefinidas.
Clustering vs. Classification - Resumo
O agrupamento e a classificação podem parecer semelhantes porque ambos os algoritmos de mineração de dados dividem o conjunto de dados em subconjuntos, mas são duas técnicas de aprendizado diferentes usadas na mineração de dados com o objetivo de obter informações confiáveis de uma coleção de dados brutos.
Cortesia da imagem: "Cluster-2" pelo Cluster-2. gif: trabalho derivado de hellisp: (Public Domain) via Wikimedia Commons "Magnetismo" de John Aplessed - Trabalho próprio. (Domínio público) via Commons