En Data Scientist er en person, som har specialiseret sig i at udtrække essensen af store mængder data ved hjælp af maskinlæring og udvinde viden og indsigt fra strukturerede og ustrukturerede data. Resultaterne kan både være visualiseringer, brugergrænseflader, tekst og tal og kan bruges både direkte af beslutningstagere og som en del af et større eller mindre datasæt.
Der findes specialiserede uddannelser indenfor machine learning, men en Data Scientist har ofte en anden naturvidenskabelig baggrund, en lang programmeringserfaring og arbejder altså som udgangspunkt med machine learning. Arbejdet er i høj grad relateret til at udarbejde proprietære datasæt, og analysere disse, inden maskinlæring og visualisering kan bruges til at drage konklusioner. Det er også ofte bedre at bruge erfaringsbaserede beregninger kombineret med maskinlæring — især i analyser relateret til fysiske, kemiske og biologiske processer, såsom i et vandkraftværk. Der er ofte mange kendte faktorer og sammenhænge, hvorfor det ikke altid er hensigtsmæssigt at bruge maskinlæring til alt. En erfaren Data Scientist ved, hvornår et problem bedre kan løses med andre metoder end maskinlæring alene.
For at have en reel nytteværdi af maskinlæring kræves gode computersystemer til dataindsamling og lagring, og gode analyser og visualiseringer kræver en grundig forståelse af forretningslogik. En dygtig Data Scientist har derfor også evnen til at forstå både det forretningsmæssige aspekt af problemerne, samt evnen til at skabe løsninger, der passer ind i et omfattende computersystem.
Cegal har flere eksperter i Data Science. Hos Cegal hjælper vores Data Scientist vores kunder med at skabe skræddersyede løsninger til maskinlæring og analyse. Vores konsulenter på dette område har især specialiseret sig i elnettet, større offentlige systemer mm., men har desuden også god erfaring med video- og tekstanalyse. Vi leverer også konsulenter, som fokuserer på data- og informationsdrevne løsninger inden for Business Intelligence (BI), Data Warehouse, Big Data, Predictive analytics og Data Mining, Master Data Management (MDM), Performance Management, Data Quality og Integration
Et eksempel er et projekt for en af vores energikunder, hvor vi har leveret en løsning til at visualisere, hvilke jordkabler der skal udskiftes eller vedligeholdes først, baseret på historiske data og maskinlæring. Der er mange personer med lang erfaring i organisationen, og dermed god viden omkring, hvordan man prioriterer udskiftning og vedligeholdelse. Løsningen giver kunden et matematisk referencepunkt og bidrager på den måde til beslutningsprocessen.