Data Mining er en proces, som bruges til at opdage mønstre i store datasæt, som involverer metoder i skæringspunktet mellem Machine Learning, statistik og databasesystemer. Data Mining er en proces, mens datalogi er et område. Målet med Data Mining er altså at gøre dataene mere anvendelige, mens målet med datalogi er at opbygge datacentriske produkter til en organisation.
Data Mining er en aktivitet, som er en del af en bredere videnopdagelse i databaseprocessen (KDD), mens Data Science er et felt ligesom matematik eller informatik.
Data Mining arbejder mod at finde uoverensstemmelser, mønstre og korrelationer i store datasæt for at forudsige resultater. Ved at bruge en bred vifte af teknikker kan man bruge disse oplysninger til at reducere omkostninger, øge indtægterne, forbedre kundeforholdene eller reducere risikoen.
Grundlaget består af tre videnskabelige discipliner: statistik, kunstig intelligens og Machine Learning. Machine Learning i Data Mining bruges mere til mønstergenkendelse, mens den i datalogi har en mere generel anvendelse.
Mange af algoritmerne blev opfundet for mange år siden, men med de sidste ti års fremskridt inden for processorkraft og hastighed – er det nu muligt at automatisere meget, som før krævede manuel behandling. Jo mere komplekse datasættene er, jo større er potentialet for at finde relevante sammenhænge.
De vigtigste trin i Data Mining processen er:
I Cegals AI- og analyseprojekter er Data Mining et grundlæggende element i at udvinde indsigt fra data. F.eks. har vi arbejdet med et projekt, hvor vi skulle indsamle data fra flere sensorer fra forskellige vandkraftværker. I dette tilfælde var det let at forstå de forskellige trin ift. Data Mining: