Business Intelligence voor Managers – Big Data zonder Warehouse (1)

13 december 2016 - Gerrit Versteeg

BI & Analytics MKB

Deze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en hypes.

Big Data professionals lijken sterk gekant tegen data warehouses. Komt dat door een nieuw oplaaiende geloofsstrijd, door de herdefinitie van BI-terminologie, incompatibiliteit van de onderliggende tools en technieken of iets anders?

Big Data

Zoals in voorgaande blogs beschreven is Big Data een centrale factor in Business Intelligence voor de verwerking van grote hoeveelheden data uit externe, niet-beïnvloedbare bronnen. Daarbij worden nieuwe technieken en tools gebruikt. Ook de werkwijze binnen BI wordt daarvoor aangepast, om preciezer te zijn: de data-integratie functie verplaatst. Daar ligt ook een flinke uitdaging voor bedrijven bij het bouwen van Big Data oplossingen.

In een eerdere blog heb ik al eens iets geschreven over de mogelijke combinatie van data lakes (opslag-vehikel voor Big Data) en data warehouses (opslag-vehikel voor klassieke, interne data). Misschien was dat iets te vroeg voor de 'strijdende' partijen en moet eerst een discussie over basismethoden of 'basis geloven' opgestart worden.

Het Big Data geloof

Big Data wordt in beginsel ongestructureerd of beter gezegd ongerelateerd opgeslagen in moderne file system based data lakes. Het niet leggen van relaties tussen de data is essentieel. Relaties worden pas gelegd als je hebt bepaald waarvoor je de data wilt gebruiken. Bovendien leg je die relaties alleen voor dat specifieke gebruik. Per gebruik kunnen de relaties dus ook verschillen. In vaktermen: we doen extractie (E) en laden (L) maar nog geen transformatie of integratie (T). Transformatie start pas als het specifieke gebruik van de data is bepaald. Dat is de ELT-aanpak. Omdat data alleen maar per gebruik wordt geïntegreerd, is er geen behoefte aan een integrerend data warehouse. Want daarin zou je de data al voorafgaand aan het gebruik met elkaar in verband brengen.

Het data warehouse geloof

Een data warehouse is de verzamelplaats voor data waarin relaties direct gelegd worden. Dit gebeurt vanuit de bedrijfscontext. De meeste entiteiten hebben nu eenmaal onderlinge relaties gebaseerd op de manier waarin ze binnen het bedrijf zijn ontstaan. Die relaties worden dus niet zozeer gelegd vanuit een specifiek gebruik voor managementinformatie (MI-producten). De integratie wordt veelal vormgegeven door een datamodel waarin deze relaties staan gedefinieerd. Opnieuw in vaktermen: de data worden geëxtraheerd (E), getransformeerd en geïntegreerd (T) waarbij alle relaties gelegd worden en daarna in het data warehouse geladen (L). Anders gezegd: de ETL-aanpak.

Big believers

Zoals bij elk geloof zijn er ook 'big believers' en wel binnen beide opvattingen. Als vanouds kennen we BI-professionals die als uiteindelijk doel hebben de relaties te leggen tussen alle data. Dat betekent dus een centraal data warehouse met één enterprise datamodel. Daarbij worden termen gebruikt als: 'één ontologie voor het hele bedrijf' om alle semantische verwarring te voorkomen en 'a single version of the truth'. Klinkt al een beetje als de woorden van een big believer, toch?

De Big Data beweging kent ook big believers. Je kunt je waarschijnlijk wel voorstellen hoe ook zij, in strikte regels redeneren. "In een Data Lake mogen geen relaties gelegd worden, anders is het geen data lake meer". "Alleen als het 'gebruik' is gedefinieerd, gaan we data uit het data lake halen en relaties leggen om een specifieke datalevering vorm te geven". De Big data aanpak sluit trouwens best aardig aan bij een agile aanpak, want zowel de collectie en opslag van data als de combinatie ervan voor gebruik, kunnen in kleine leveringen vorm krijgen.

Kort samengevat (en dus ook wat ongenuanceerd): de ETL-ers ('klassiek') willen naar de extreem waarbij je alle relaties in het begin van de datastroom legt, voordat het in het data warehouse wordt opgeslagen. Terwijl de ELT-ers ('Big Data') de relaties juist zo laat mogelijk leggen en het liefst voor elk individueel gebruik.

Sounds good...?

Het klinkt goed zou je zeggen, lekker agile software ontwikkelen in kleine hapklare brokjes. Dit in plaats van de grote, centrale effort om een bedrijfsbreed datamodel te ontwikkelen waarin alle relaties voorgedefinieerd worden. Veel grote bedrijven hebben immers inmiddels jaren besteed aan die modellering, met vaak magere resultaten. Maar zoals zo vaak ligt de praktische waarheid niet in het genadeloos toepassen van één van de extremen. In mijn volgende blog zal ik de twee geloven eens wat nader beschouwen en dan kijken we wat we in de praktijk van elke geloof kunnen gebruiken.

Blijf op de hoogte van onze blogs

Ben je nieuwsgierig naar het tweede deel van deze blog of onze andere blogs over Big data, Data Science en BI? Abonneer je via onderstaande knop dan op het thema ‘Management & BI’. Zodra er een nieuwe blog in de reeks verschijnt, krijg je automatisch een seintje (per e-mail) met een link.

Meer weten over Big Data en wat kan de groei van Big Data kan betekenen voor uw bedrijf? Op deze vraag zal onderstaand eBook antwoord geven. Dit eBook is een verzameling van blogs door Gerrit Versteeg geschreven over Big Data vanuit het perspectief van de manager.