Huvudmeny

2015-05-13 08:12

SIIR-forskare reflekterar


Vi har bett våra forskare på SIIR att reflektera över något aktuellt, inom eller utanför sin forskning. Denna gång är det Rikard König, forskare inom maskininlärning med inriktning mot dataanalys, som reflekterar över Big Data.

Big Data, Data Mining eller Data Science?

Rikard KönigBig Data har de senaste åren varit en stor hype både inom företagsvärlden och forskarvärlden. Ofta används dock begreppet felaktigt som en synonym för dataanalys, antingen pga. av okunskap eller för att dra nytta av den rådande hypen. Egentligen handlar Big Data istället om tre datarelaterade problem:

  • Stora datamängder - datamängder som är så pass stora (x petabyte) att de inte kan hanteras av typiska standardsystem
  • Strömmande data - att data konstant flödar in organisationer vilket gör att analyser och slutsatser ständigt behöver uppdateras
  • Varierad data – idag kan data bestå av allt från strukturerade enkätsvar och transaktioner till ostrukturerade data som texter, foton, ljud och film. Ostrukturerad data kan inte analyseras direkt utan måste först genomgå tidskrävande preprocessering

Hanteringen av dessa tre problem är kärnan i Big Data som därmed handlar om att möjliggör en analys och inte om själva analysen i sig. Hypen kring Big Data är dock på väg att lägga sig. En anledning är att det i verkligheten inte är så många företag som har verkliga Big Data problem, förutom företag som Facebook 40PB, Yahoo 60PB och Ebay 40PB. Dessutom är det inte heller många företag som i dag ser ett stort mervärde i att analysera stora mängder film eller foton.

Det ”nya” modeordet är istället Data Science, ”att extraherar värdefull kunskap från data”. Definitionen ligger väldigt nära definitionen för Data Mining men Data Science är ett mycket bredare begrepp där Data mining är en del. Data Science tar ett helhetsgrepp om processen och inkluderar tekniker och metoder från breda områden som matematik, statistik, maskininlärning, programmering, visualisering, osäkerhetsmodellering, data warehousing och high performance computing. Big Data är en intressant aspekt av Data Science men som Leek (2013) skriver så ligger fokus inte på ”data” utan på ”Science”, dvs. hur man extraherar kunskap på ett systematiskt sätt som säkerställer att den kunskap som genereras verkligen är korrekt och kan tänkas gälla även i framtiden. Detta är vitalt då dagens maskininlärningstekniker kan skapa modeller över samband ifrån nästan vilken datamängd som helst. Problemet är att en modell aldrig blir bättre än den data som den är baserade på och att den data som t.ex. företag  samlar in om sina kunder är långt ifrån komplett, ofta innehåller fel och alltid slumpmässigt brus. Eller som statistikerna Box och Draper noterade redan (1976), i grunden är alla modeller fel, frågan är hur fel de måste vara för att bli oanvändbara.

Varför är det då viktigt att prata om Data Science istället för Big Data? För min egen del är det på grund av tre anledningar:

  • Data Science lägger som sagt fokus på ett systematiskt och korrekt tillvägagångssätt vilket behövs för att säkerställa att den kunskap som genereras verkligen är korrekt.
  • Få organisationer har Big Data men många har värdefull data och använder man Big Data som en synonym for dataanalys riskerar man att mindre företag inte tror att dataanalys är något för dem.
  • Rätt skall vara rätt!

Jeff Leek (2013). "The key word in "Data Science" is not Data, it is Science". Simply Statistics.

Box, G. E. P., & Draper, N. R., (1987), Empirical Model Building and Response Surfaces, John Wiley & Sons, New York, NY.