Data Mining är en process, medan datavetenskap är ett område. Målet med Data Mining är att göra data mer användbara, medan datavetenskapens mål är att bygga datacentrerade produkter för en organisation.
Data Mining är en aktivitet som ingår i en bredare kunskapsupptäckt i databaser (KDD), medan Data Science är ett fält precis som tillämpad matematik eller informatik.
Data Mining är processen att hitta avvikelser, mönster och korrelationer i stora datamängder för att förutsäga resultat. Genom att använda ett brett spektrum av tekniker kan du använda denna information för att sänka kostnaderna, öka intäkterna, förbättra kundrelationer eller minska risken.
Grunden består av tre vetenskapliga discipliner: statistik, artificiell intelligens och maskininlärning. Maskininlärning inom datautvinning används mer i mönsterigenkänning medan det inom datavetenskap har en mer allmän användning.
Många av algoritmerna uppfanns för många år sedan, men med det senaste decenniets framsteg inom processorkraft och hastighet – är det nu möjligt att automatisera mycket som krävde manuell bearbetning tidigare. Ju mer komplexa datauppsättningarna är, desto större är potentialen för att hitta relevanta insikter.
De viktigaste stegen i en Data Mining-process är:
I Cegals AI- och analysprojekt är Data Mining ett grundläggande element för att utvinna insikt från data. Till exempel i ett av de energiprojekt vi har arbetat med – data från flera sensorer från olika vattenkraftstationer. I det här fallet är det lätt att förstå de olika stegen i datautvinning: