Cerchiamo di verificare la differenza tra data mining e data warehousing con l'aiuto di un grafico di confronto mostrato di seguito.
Grafico comparativo
Base per il confronto | Estrazione dei dati | Data Warehousing |
---|---|---|
Di base | Il data mining è un processo per recuperare o estrarre dati significativi dal database / data warehouse. | Il data warehouse è un repository in cui le informazioni provenienti da più origini sono archiviate in un singolo schema. |
Definizione di data mining
Il data mining è un processo per scoprire la conoscenza, che non ti saresti mai aspettato di esistere nel tuo database . Utilizzando lo strumento di query tradizionale è possibile recuperare solo le informazioni conosciute dai dati. Tuttavia, Data mining ti offre il modo di recuperare informazioni nascoste dai dati . Il data mining estrae informazioni significative dal database che possono essere utilizzate per il processo decisionale .
La scoperta della conoscenza nei database, denominata KDD, mostra relazioni e schemi . La relazione può essere tra due o più oggetti diversi, tra attributi dello stesso oggetto. Pattern è un altro risultato del data mining che mostra la sequenza regolare e intelligibile di informazioni che aiuta nel processo decisionale.
I passaggi coinvolti in KDD, ovvero Knowledge Discovery in Database, possono essere riassunti come prima selezione del set di dati su cui eseguire il data mining. La prossima è la pre-elaborazione che comporta la rimozione di dati incoerenti. Poi arriva la trasformazione dei dati in cui i dati vengono trasformati nella forma appropriata per il data mining. Il prossimo è il data mining, qui gli algoritmi di data mining vengono applicati ai dati. E infine, interpretazione e valutazione che comportano l'estrazione della relazione o del modello tra i dati.
Il data mining si adatta bene all'ambiente del data warehouse che ha archiviato i dati in modo aggregato e riepilogativo. Come diventa facile estrarre i dati nel data warehouse
Definizione di Data Warehousing
Data Warehouse è una posizione centrale in cui le informazioni raccolte da più fonti sono memorizzate in un unico schema unificato . I dati vengono inizialmente raccolti, diverse fonti di impresa vengono quindi pulite, trasformate e archiviate in un data warehouse. Una volta che i dati sono stati inseriti in un data warehouse, rimangono lì per un lungo periodo di tempo e possono essere consultati in caso di necessità.
Data Warehouse è una miscela perfetta di tecnologie come la modellazione dei dati, l'acquisizione dei dati, la gestione dei dati, la gestione dei metadati, la gestione degli archivi di strumenti di sviluppo . Tutte queste tecnologie supportano funzioni come l'estrazione dei dati, la trasformazione dei dati, l'archiviazione dei dati, fornendo interfacce utente per l'accesso ai dati .
Il data warehouse non è un prodotto o un software, è un ambiente informativo, che fornisce informazioni come una visione integrata di un'impresa. È possibile accedere ai dati correnti e storici dell'azienda che aiutano nel processo decisionale. Supporta le transazioni effettuate per il processo decisionale senza influenzare i sistemi operativi. È una risorsa flessibile per ottenere informazioni strategiche.
Differenze chiave tra data mining e data warehouse
- C'è una differenza fondamentale che separa il data mining e il data warehousing che è il data mining è un processo di estrazione di dati significativi dal grande database o dal data warehouse. Tuttavia, data warehouse fornisce un ambiente in cui i dati sono archiviati in una forma integrata che facilita il data mining per estrarre i dati in modo più efficiente.
Conclusione:
Il data mining può essere eseguito solo quando esiste un database di grandi dimensioni ben integrato, ad esempio il data warehouse. Quindi il data warehouse deve essere completato prima del data mining. Il data warehouse deve avere informazioni in forma ben integrata in modo che il data mining possa estrarre le conoscenze in modo efficiente.