Better Decisions
For Better Life

Wat is Big Data? En moeten we er wat mee?

-

big data Er is veel te doen over Big Data. Als manager krijg je bijna een schuldgevoel als je de veelal groots uitgewerkte, welhaast onweerlegbare voordelen niet direct gaat gebruiken binnen jouw organisatie. Big Data is een populair begrip, ondanks of misschien juist dankzij de heersende onduidelijkheid rond de definitie van de term. Om te kijken of Big Data iets voor jou als manager kan betekenen, is het toch van pregnant belang om een goed beeld te hebben van wat de term Big Data nu allemaal behelst. In dit artikel gaan we daarom enkele veel gebruikte definities wat verder ontleden, om zo te komen tot een context waarbinnen we beter kunnen besluiten of we wel of niet moeten gaan investeren in dit nieuwe fenomeen.

Wat is Big Data?

ICT research company, Gartner

Wie de term Big Data als eerste gebruikte is ongetwijfeld ook onderwerp van discussie, maar de oudste bron die ik kon vinden is een bijdrage door Doug Laney (Gartner) uit 2001. Hij introduceerde de drie eerste V’s (Volume, Velocity en Variety) als handvat bij de kwantificering van Big Data. Inmiddels (2011) heeft Gartner deze begrippen onderdeel gemaakt van een meer integrale kijk op wat zij noemen 'extreme information management (EIM)'. 

Big Data

Hierbij worden een 12-tal facetten of invalshoeken genoemd die komen kijken bij het besturen van jouw informatie infrastructuur (voor de volledigheid hiernaast opgesomd in het tekstvak). Helaas is het acroniem EIM al eerder gebruikt voor Enterprise Information Management, maar desondanks associeert de term wel beter met de werkelijkheid dan Big Data.

De definitie die Gartner bij Big Data hanteert luidt als volgt (in het Engels om verdere spraakverwarring te vermijden): “Big data is high-volume, -velocity and -variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making”. Hierbij merkt Gartner op, dat het zeker niet alleen gaat om die drie V’s, maar vooral ook om de twee daaropvolgende onderdelen van hun definitie.

ICT supplier, IBM

IBM geeft in haar lezenswaardige boekje 'Harness the power of Big Data' ook aan dat niemand in ICT gelukkig is met de term Big Data en de definitie ervan. IBM’s Research manager Matt Aslett gebruikt dan ook liever een definitie die zijns inziens bijna universeel geaccepteerd is, namelijk: “Big Data…. refers to the realization of greater business intelligence by storing, processing and analyzing data that was previously ignored due to limitations of traditional data management technologies”. Waarbij de 'limitations' worden gedefinieerd door combinaties van de V’s, veelal in ieder geval 'Volume', 'Velocity' en 'Variety', terwijl de auteurs van het boekje daar zelf graag nog 'Veracity' aan toevoegen.

ICT supplier, Oracle

Oracle gebruikt naar ons weten geen directe definitie, maar typeert Big Data door middel van een viertal karakteristieke V’s, namelijk 'Volume', 'Velocity', 'Variety' en 'Value', die gezamenlijk moeten optreden. Volume alleen is dus niet genoeg om over Big Data te kunnen spreken. 'Value' wordt genoemd, omdat de wijze waarop de waarde wordt ontdekt (een steeds verfijnder modelleerproces), een unieke eigenschap van Big Data zou zijn.

Management consultancy, McKinsey

McKinsey Global Institute gebruikt de definitie “Big Data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze”. Zij hanteren als onderscheidend criterium dus vooral het volume van de data in relatie tot de beschikbare verwerkingstools (per sector), maar laten expres vrij wat dat volume precies is. Dit doen zij omdat de tools en technieken steeds beter worden waardoor die grens ook steeds kan opschuiven naarmate de tijd voortgaat.

Naast de voorbeelden hierboven bestaan er nog vele varianten van definities, maar die zullen we je besparen omdat we dan toch in wat nodeloze herhaling gaan vervallen. Het moge duidelijk zijn dat er grote verschillen bestaan, maar toch ook regelmatigheden zichtbaar zijn. Om het overzicht compleet te maken voordat we naar een conclusie gaan, verwijzen we graag even naar een handig overzicht van veel gehanteerde V’s en hun bron, dat we hier in verband met de leesbaarheid niet hebben opgenomen. Geen artikel over Big Data zonder de V’s, nietwaar?

De definities beoordeeld

Het gebruik van V-woorden in de definities. Big Data als term leidt bijna automatisch tot de associatie dat het vooral gaat om 'veel' data. Die term is dus intrinsiek verraderlijk want we zijn het er allemaal wel over eens dat het niet alleen om volume gaat. Naast de oorspronkelijke drie V’s: Volume, Velocity en Variety, duiken er ook nog eens constant nieuwe V’s op, met als meest genoemde toch wel 'Veracity'. Even nog los van het aantal V’s; het is volstrekt onduidelijk wanneer die V’s leiden tot de classificatie van Big Data. Alleen 'Volume' is in ieder geval niet afdoende volgens de meeste interpretoren (misschien met uitzondering van McKinsey). Er moet ook 'Variety' en 'Velocity' aanwezig zijn en alles overziend wellicht ook 'Veracity'. Maar in welke mate die V’s aanwezig moeten zijn of hoe we die V’s uiteindelijk meten en waarderen om tot een classificatie van Big Data te komen, is ook nog apert onduidelijk.

De verwerkingsproblemen als onderdeel van de definitie

De definities beschouwend is er wel een brede consensus over het feit dat nieuwe, geavanceerde dataverwerkings-, dataopslag- en analyse-technieken nodig zijn bij zoiets als Big Data. Het vervelende van dit soort definitie-onderdelen is dat zij niet exclusief zijn voor Big Data, waarbij ook nog eens kan worden verwacht dat die technieken over vijf jaar weer gemeengoed zijn. De definitie volgend, zou er dan over vijf jaar dus wellicht helemaal geen sprake meer zijn van Big Data.

Het doel als onderdeel van de definitie

Tevens verwacht men van Big Data dat het nieuwe inzichten en een verbeterde besluitvorming zal opleveren. In feite overeenkomend met het V-woord 'Value'. Ook hier is sprake van niet-exclusiviteit voor Big Data. Alle nieuw aangeboorde en ontsloten data-bronnen (kunnen) leiden tot meer inzicht en mogelijk bredere besluitvorming.

Met andere woorden, de definities kunnen niet of nauwelijks ter classificatie dienen. Terug naar het nut van Big Data en de basisvraag: wanneer wordt het interessant voor een manager om erin te investeren?

Conclusie

Waar komt het met Big Data nu eigenlijk op neer? Al jarenlang gebruiken we onze traditionele, vaak transactionele databronnen om management-informatie te genereren in onze BI-omgeving. Tegenwoordig krijgen we steeds meer de mogelijkheid om data uit nieuwe bronnen te verkrijgen, zoals:

  • sentimenten vanuit de vaak genoemde sociale media (Blogs, Twitter, Facebook);
  • proces-events vanuit sensoren in interne processen (via logs of de Enterprise Service Bus) of externe processen ('The Internet of Things'). 

Deze data is granulair van aard en daarom vaak volumineus (Volume), a-periodiek van aard (Velocity) en daarnaast gevarieerd qua inhoud en structuur (Variety). Deze karakteristieken maken het best lastig om die data te verwerken. Hierdoor laten veel organisaties het afweten om deze data, voor zover ze de data al ter beschikking hebben, te integreren in hun management rapportages. Moderne opslag- en analysetechnieken brengen die data echter makkelijker binnen bereik.

Deze data kan een welkome aanvulling zijn om onze Management Informatie mee te verrijken, maar niet per definitie! Onderzoek naar de waarde van de investeringen om die additionele informatie voor de betrokken organisatie te ontsluiten en gebruiken, is belangrijk. Je zou het kunnen vergelijken met het zoeken naar een waardevolle naald in een hooiberg: gemeten sentimenten kunnen jouw multi-channel marketing-discipline helpen bij het vaststellen van het effect van een marketingcampagne via televisie of e-mail. Voor de procesmanagement-discipline zou directe informatie uit de loop van het bedrijfsproces kunnen worden verwerkt om zo te kijken waar de bottlenecks zitten in een E2E-bedrijfsproces en wat er aan verbeterd kan worden. Deze voorbeelden worden vaker genoemd in verband met Big Data, maar net als voor elke investering geldt: ben je er aan toe om Big Data te ontsluiten ook qua interne organisatie(volwassenheid)? Is jouw BI-afdeling, zelfs zonder Big Data, niet al een ‘drama’ dat eerst moet worden aangepakt? Zijn er goedkopere databron-alternatieven die misschien niet het volmaakte detail weergeven, maar wel de situatie in wat bredere zin duidelijk kunnen maken waardoor het management ook prima aan de slag kan?

Misschien is het meest betekenisvolle wel dat in de meeste definities van Big Data wordt aangegeven dat het gaat om data die verwerkt moet worden met geavanceerde, moderne technieken. Uit ervaring weten managers echter dat een bleeding-edge technologie meestal duur is en vaak kinderziektes kent. Qua status van het werkveld begreep ik tijdens de laatste DAMA conferentie (Turkey chapter, Istanbul, maart 2013) dat de succesverhalen van dit moment alleen Big Data oplossingen betreffen met maar één zogeheten 'data-point'. Dat wil zeggen: er zijn dus nog geen succesverhalen bekend over het integreren van Big Data met meerdere datatypen.

Kortom, tenzij jouw organisatie ofwel direct afhankelijk is van het gebruik van moderne technologie (bijvoorbeeld een organisatie gebaseerd op de waarde-drijver 'Product-Innovation') of als 'early adapter' gewend is om altijd voorop te staan met het gebruik van de nieuwste technologie, is het wellicht geboden om heel precies te duiden waar je de waarde zoekt en dan zo eenvoudig mogelijk een start te maken met het ontsluiten van dat soort bronnen of…. misschien gewoon nog even de kat uit de boom te kijken?

New Call-to-action

Dit blogartikel is geschreven door Gerrit Versteeg