Data Mining er prosess, mens datavitenskap er et område. Målet med Data Mining er å gjøre dataene mer brukbare, mens målet med datavitenskap er å bygge datasentriske produkter for en organisasjon.
Data Mining er en aktivitet som er en del av en bredere kunnskapsoppdagelse i databaser (KDD) prosessen, mens Data Science er et fagfelt akkurat som anvendt matematikk eller informatikk.
Data Mining er prosessen med å finne avvik, mønstre og korrelasjoner i store datasett for å forutsi resultater. Ved å bruke et bredt spekter av teknikker kan du bruke denne informasjonen til å kutte kostnader, øke inntekter, forbedre kundeforhold, eller redusere risiko.
Grunnlaget består av tre vitenskapelige disipliner: statistikk, kunstig intelligens og maskinlæring. Maskinlæring i data mining brukes mer i mønstergjenkjenning mens det i datavitenskap har en mer generell bruk.
Mange av algoritmene ble oppfunnet for mange år siden, men med det siste tiåret sine fremskritt innen prosessorkraft og hastighet – er det nå mulig å automatisere mye som krevde manuall behandling før. Desto mer komplekse datasettene er, desto større potensial er det for å finne relevant innsikt.
De viktigste trinnene involvert i en Data Mining prosess er:
I Cegal sine AI & Analyse-prosjekter er Data Mining et grunnleggende element for å hente ut innsikt fra data. For eksempel, i ett av energiprosjektene vi har jobbet med – data fra flere sensorer fra forskjellige vannkraftstasjoner. I dette tilfellet er det lett å forstå de forskjellige trinnene i data mining:
Les mer om: Cegal sine tjenester innenfor Data og Analytics >