En Data Scientist är en person som är specialiserad på att extrahera kärnan i stora mängder data med hjälp av maskininlärning. Resultaten kan vara visualiseringar, användargränssnitt, text och siffror och kan användas både direkt av beslutsfattare och som en del av ett större eller mindre datorsystem.
Det finns specialutbildningar inom maskininlärning, men en Data Scientist har ofta en annan vetenskaplig bakgrund och lång programmeringserfarenhet och har gått över till att arbeta med maskininlärning som utgångspunkt. Arbetet är mycket relaterat till att förbereda egna datauppsättningar och analysera dessa innan maskininlärning och visualisering kan användas för att dra slutsatser.
Det är dessutom ofta bättre att använda erfarenhetsbaserade beräkningar i kombination med maskininlärning – särskilt i analyser relaterade till fysiska, kemiska och biologiska processer, till exempel i ett vattenkraftverk eller en laxodling. Det finns så många kända faktorer och sammanhang här, att det inte är lämpligt att använda maskininlärning för allt. En erfaren Data Scientist vet när ett problem kan lösas bättre med andra metoder än enbart maskininlärning.
För att ha ett verkligt användbart värde av maskininlärning krävs bra datasystem för datainsamling och lagring, och goda analyser och visualiseringar kräver en grundlig förståelse för affärslogiken. Att använda realtidsalgoritmer som en del av ett större datorsystem kräver också förståelse för alla programmeringslager. En skicklig Data Scientist har därför också förmågan att förstå både affärsaspekten av problemen, samt förmågan att skapa lösningar som passar in i ett omfattande datorsystem.
Cegal har flera experter inom datavetenskap. På Cegal hjälper våra datavetare våra kunder att skapa skräddarsydda lösningar för maskininlärning och analys. Våra konsulter inom detta område har specialiserat sig på elnätet och de har också erfarenhet av video- och textanalys.
Ett exempel är ett projekt för en av våra energikunder, där vi tillhandahöll en lösning för att visualisera vilka jordkablar som bör bytas ut eller underhållas först, baserat på datahistorik och maskininlärning. Det finns många individer med lång erfarenhet i organisationen och därmed fler åsikter om hur man ska prioritera utbyte och underhåll. Lösningen ger kunden en matematisk referenspunkt för dessa åsikter och bidrar på så sätt till beslutsprocessen.