Diferença Entre KDD e Data mining

Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) é um campo de informática, que inclui ferramentas e teorias para ajudar os seres humanos a extrair informações úteis e anteriormente desconhecidas (ou seja, conhecimento) de grandes coleções de dados digitalizados. O KDD consiste em várias etapas, e a Data Mining é uma delas. A Data Mining é a aplicação de um algoritmo específico para extrair padrões de dados. No entanto, KDD e Data Mining são utilizados de forma intercambiável.

O que é KDD?

Como mencionado acima, o KDD é um campo da informática, que trata da extração de informações anteriormente desconhecidas e interessantes de dados brutos. O KDD é todo o processo de tentar entender os dados, desenvolvendo métodos ou técnicas adequadas. Este processo trata do mapeamento de dados de baixo nível em outras formas, que são mais compactos, abstratos e úteis. Isso é conseguido criando relatórios curtos, modelando o processo de geração de dados e desenvolvendo modelos preditivos que podem prever casos futuros. Devido ao crescimento exponencial dos dados, especialmente em áreas como negócios, a KDD tornou-se um processo muito importante para converter esta grande riqueza de dados em inteligência de negócios, uma vez que a extração manual de padrões se tornou aparentemente impossível nas últimas décadas. Por exemplo, atualmente é usado para várias aplicações, como análise de redes sociais, detecção de fraude, ciência, investimento, fabricação, telecomunicações, limpeza de dados, esportes, recuperação de informações e principalmente para marketing. O KDD geralmente é usado para responder perguntas como quais os principais produtos que podem ajudar a obter alto lucro no próximo ano no Wal-Mart?. Este processo tem várias etapas. Começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, criando um conjunto de dados de destino. Isto é seguido por limpeza, pré-processamento, redução e projeção de dados. O próximo passo é usar o Data Mining (explicado abaixo) para identificar o padrão. Finalmente, o conhecimento descoberto é consolidado através da visualização e / ou interpretação.

O que é a mineração de dados?

Como mencionado acima, o Data Mining é apenas um passo dentro do processo KDD geral. Existem dois principais objetivos de Mineração de Dados, conforme definido pelo objetivo do aplicativo, e são, nomeadamente, verificação ou descoberta. A verificação é verificar a hipótese do usuário sobre os dados, enquanto a descoberta encontra automaticamente padrões interessantes. Existem quatro tarefas importantes de mineração de dados: agrupamento, classificação, regressão e associação (resumo). Clustering está identificando grupos similares a partir de dados não estruturados. A classificação é regras de aprendizagem que podem ser aplicadas a novos dados. A regressão é encontrar funções com erro mínimo para dados do modelo.E a associação procura relacionamentos entre variáveis. Então, o algoritmo de mineração de dados específico precisa ser selecionado. Dependendo do objetivo, podem ser selecionados diferentes algoritmos como regressão linear, regressão logística, árvores de decisão e Bayes Naïve. Em seguida, os padrões de interesse em uma ou mais formas representacionais são pesquisados. Finalmente, os modelos são avaliados usando precisão preditiva ou compreensão.

Qual a diferença entre KDD e Data mining?

Embora, os dois termos KDD e Data Mining sejam fortemente utilizados de forma intercambiável, eles se referem a dois conceitos relacionados, porém um pouco diferentes. O KDD é o processo geral de extração de conhecimento de dados, enquanto a Data Mining é um passo dentro do processo KDD, que trata da identificação de padrões em dados. Em outras palavras, a Data Mining é apenas a aplicação de um algoritmo específico com base no objetivo geral do processo KDD.