Better Decisions
For Better Life

Marketing Intelligence voor Managers – Big Data voor MKB

-

big data Deze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en hypes.

Iedereen heeft de mond vol van Big Data. Welke ‘big data’ interessant zou kunnen zijn voor moderne marketing in het MKB heb ik in een eerder blog al eens beschreven. Net als wat ‘Big Data’ eigenlijk is. In deze blog ga ik wat dieper in op de status van de Big Data inspanningen van de multinationals, wat daar de voor- en nadelen van zijn en wat je daar als MKB-bedrijf van kunt leren.

De stand van zaken rond Big Data

De leveranciers van Big Data technologie en de meeste commerciële analisten zijn het met elkaar eens: Big Data goed gebruiken, kan bedrijven een flink concurrerend voordeel kan geven. In hoeverre hun onderzoek en conclusies enigszins gekleurd zijn door niet geheel wetenschappelijke motieven is lastig te zeggen, maar het gevolg is wel dat veel van de grotere bedrijven inmiddels druk bezig zijn met het ontplooien van Big Data initiatieven. Zij bereiden zich veelal voor op de goede dingen die beloofd zijn en zijn wellicht ook een beetje bang om de ‘Big Data’ boot te missen.

Wat doen ze precies? De meeste bedrijven zijn - kortweg gezegd - alvast potentieel interessante data aan het verzamelen. Dat doen zij in wat tegenwoordig een ‘Data Lake’ wordt genoemd. In de meeste gevallen is niet geheel duidelijk wat die data hen voor competitieve voordelen gaat bieden. Zij verzamelen deze data alvast omdat enerzijds expertise op te bouwen rond de Big Data technologie en anderzijds omdat de data misschien weleens relevant zou kunnen zijn in de toekomst. Hand in hand met het gebruiken van Big Data, loopt de trend om deze data te analyseren met behulp van Data Science. Derhalve is het aantal vacatures voor data scientists exponentieel toegenomen. Een grappige bijkomstigheid is, dat je als data scientist in opleiding op de universiteit als eerste leert dat het bij Data Science niet gaat om de data, maar om de ‘science’. En dat je altijd eerst een vraagstuk moet formuleren en dan pas de daarvoor relevante data moet gaan proberen te verzamelen.

BigData_609x657.jpg

Wat is precies een ‘Data Lake’?

Een Data Lake is een opslagplaats voor ongestructureerde data. Voor een goed begrip is het van belang om de term ‘ongestructureerd’ iets nader te verklaren. Dus hier volgt even een kleine beetje theorie.

Van oudsher wordt met ongestructureerd bedoeld, dat de data die wordt ingelezen ‘ongeformaliseerd’ is, dat wil zeggen data die geen formele structuur kent in de vorm van goed beschreven entiteiten en attributen (als voorbeeld: vrije tekstvelden, social media berichten en dergelijke). Binnen Big Data en het Data Lake wordt met ‘ongestructureerd’ echter eerder bedoeld: data die is opgeknipt in individuele elementen en los wordt opgeslagen in het Data Lake zonder deze data-elementen onderling met elkaar in verband te brengen. Dat betekent dus dat er geen voorafgaande datastructuur (i.e. datamodel) wordt opgesteld waar de data in moet passen, maar dat de data losstaand in aparte ‘database-kolommen’ wordt opgeslagen. Het is daarbij de bedoeling dat de structuur - het datamodel - pas wordt aangebracht wanneer je de data gaat gebruiken om er zinvolle informatie van te maken. De term die techneuten daarvoor gebruiken is ‘schema on read’ of ELT. Dat staat voor Extractie van data, het Laden van de data in het lake en pas bij het gaan gebruiken van de data, het Transformeren en integreren van de data.

Wat is nu het verschil met de ‘normale’ manier van werken binnen Marketing?

Vanouds ben je waarschijnlijk gewend om al je klant- en prospect-gegevens in een marketing data warehouse (dwh) op te slaan. De data in het data warehouse is in hoge mate gestructureerd in een goed beschreven datamodel. Zo voorzie je marketingcampagnes van goede en complete klantinformatie waarmee je een integraal klantbeeld kunt samenstellen. Je bent dus feitelijk gewend om ‘data te integreren’ voordat je de data opslaat. Zo breng je alle interessante data bij elkaar, zodat je de klant of prospect in zijn geheel kunt beschouwen en met een beetje goede voorspelwaarde een segmentatie kunt aanbrengen of de ‘next best action’ kunt bepalen. Het is dus van belang om brondata te integreren voordat je deze als klantinformatie kunt gebruiken in je marketing praktijk.

Data-integratie is het kernprobleem

Het integreren van alle brondata uit je bedrijf tot zinvolle managementinformatie - zoals bijvoorbeeld een integraal klantbeeld voor marketing - is het essentiële probleem. Integratie is verreweg ook de meest complexe functie binnen Marketing Intelligence (voor meer informatie hierover zie ons eBook De 10 Need-to-know’s rond BI voor managers).

Het zal je inmiddels zijn opgevallen dat het juist deze integratiefunctie is, die bij Big Data niet wordt uitgevoerd op de data in het Data Lake. Het integreren van de data wordt immers uitgesteld tot je de data uit het Data Lake gaat halen om er zinvolle marketinginformatie van te maken. Het is dan ook niet verwonderlijk dat zoveel bedrijven met Big Data bezig kunnen zijn. Het geeft ze immers de mogelijkheid om het kernprobleem (data-integratie) voor zich uit te schuiven, terwijl ze toch allerlei data kunnen verzamelen.

Misschien is dat typerend voor de Big Data trend. “We weten nog niet goed wat de voordelen van Big Data voor ons bedrijf zullen zijn, maar we gaan er maar alvast mee beginnen want anders zijn we misschien te laat” lijkt sterk op “We weten nog niet welke onderzoeksvragen we precies willen stellen, maar laten we maar alvast beginnen met het verzamelen van data ”.

Wordt er dan helemaal niets met die big data gedaan?

Ook al wordt de big data in het Data Lake nog slechts weinig ingezet voor het maken van managementinformatie, het is wel een dankbare databron voor data sciencists. Ondanks de geldigheid van de eerder gemaakte opmerking (“verzamel geen data zonder een voorafgaand opgestelde bedrijfsgeörienteerde onderzoeksvraag”), vormt het Data Lake wel een interessante zee aan data waarin de data scientist graag rondzwemt.DataScience_500x500.jpg

Big Data databases zoals Hadoop, kunnen samen met de big data toolset op indrukwekkend snelle wijze losse gegevenselementen zoeken, sorteren en filteren. Daarom willen de voorsorterende multinationals ook graag data scientists aantrekken. Zij kunnen met al die mooie tools gaan vissen in deze rijke, maar zeer granulaire data-zee. Op zoek naar interessante data of eventueel onverwachte, statistisch relevante verbanden tussen data-elementen. Misschien eigenlijk wel vissen naar de business case voor Big Data.

Moeten we dan maar gewoon afwachten wat er gaat gebeuren?

Dit is de hamvraag. De meeste bedrijven (zo tussen de 25 en 5000 medewerkers) zou ik adviseren om nog even te wachten. Het heeft immers zo weinig zin om te investeren in zaken waarvan het nog te onduidelijk is wat het rendement zal zijn. Tenzij je een duidelijke business case hebt om (een specifieke soort) Big Data te gaan verzamelen als brandstof voor nadere analyse. Die business case leidt dan ook gelijk tot de onderzoeksvragen voor de data scientist.

Er zijn een drietal opmerkingen over data lakes vol met big data, die van invloed kunnen zijn op een mogelijke beslissing om te starten met de technologie:

  • Uiteindelijk moet de data in het data lake een keer gebruikt gaan worden voor zinvolle marketinginformatie. Het is dan ook te voorzien dat het data lake zal worden gebruikt als voedingsbron voor een data-integratie stap naar een marketing data warehouse (of data marts). Het relatieve voordeel van deze aanpak is dat de scope van de data-integratie naar alle waarschijnlijkheid beperkt zal worden tot de specifieke informatie die je op dat moment nodig hebt. Dat is een voordeel omdat het eerder genoemde kernprobleem van data-integratie complexer wordt naarmate je meer soorten data met elkaar wilt combineren. Als je het aantal data-soorten weet te beperken tot specifieke informatievragen, dan is je integratieprobleem navenant kleiner en dus behapbaarder. Of dat voor jouw situatie ook betekent dat een data lake met big data een goed plan is, kan een goede BI-architect je wel vertellen. Laat je daarin dus adviseren, voordat je gaat investeren.
  • De aanpak om via een data lake te gaan werken en je data pas te integreren op basis van specifieke informatievragen, past goed bij de nieuwe agile manier van werken. Ben je dus een bedrijf dat agile development hoog in het vaandel heeft staan, dan sluit een data lake (beter gezegd: de ELT-aanpak) daar goed bij aan.
  • Het kan zinvol zijn om data alvast in een data lake te stoppen als je data hebt die je nog niet goed weet te structureren (lees: integreren), maar waarvan je wel al duidelijk hebt dat die data een belangrijke rol gaat spelen in je marketingstrategie. Laat dan wel een data scientist - met een goede werkopdracht - actief aan de gang gaan met die data middels data-discovery en analyse.

Conclusie

Voor de meeste ‘kleinere’ bedrijven is Big data een technologie waar je op dit moment eerder geld mee kwijtraakt, dan ermee verdient. De ROI voor Big Data is nog te onduidelijk. Als je echter een duidelijk nut kunt formuleren voor data dat direct bijdraagt aan je bedrijfsresultaat (of je klantinzicht voor marketing), maar waarvan het nog onduidelijk is hoe je die data kunt integreren, dan heb je misschien een business case om te gaan experimenteren met een data lake (bijvoorbeeld met Hadoop in de cloud). Focus je dan wel op die specifieke ‘onderzoeksvraag’, want zo geef je je data scientist een legitieme werkopdracht.

Je kunt een data lake ook gebruiken om juist die data te ontdekken, die voor jou van het grootste nut is (data-discovery). Om bijvoorbeeld de data te vinden die klantgedrag het best voorspelt. Dit is op zich een prima opdracht voor een data scientist> let wel op dat dit het risico van desinvestering vergroot omdat het kan voorkomen dat hij geen attributen met een betere voorspellende waarde kan vinden. Voor de meeste ‘niet-multinationals’ is dit nu vaak nog een te groot risico. 

Ben je nieuwsgierig naar de komende blogs over Marketing Intelligence? Abonneer je via onderstaande knop dan op het thema ‘Management & BI’. Zodra er een nieuwe blog in de reeks verschijnt, krijg je automatisch een seintje (per e-mail) met een link.

Link to request advice session

 

Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen de reeks wordt besproken.