Marketing Intelligence voor Managers – Het Data Science Proces
Deze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en hypes.
Wat voor activiteiten gaat de data scientist - zoals ik die vorige week heb beschreven - nu eigenlijk uitvoeren? Welke proces wordt er typisch binnen data science uitgevoerd?
Deze blog gaat eens wat dieper in op het data science proces, zodat je daar een beeld van kunt vormen.
Introductie
Data science is voor een groot deel een ‘trial and error’ proces, omdat je van tevoren gewoonweg niet alles kunt voorzien. Het lukt misschien niet om meteen de juiste data te vinden en als je data vindt kan het zijn dat deze bijna onbruikbaar is door vervuiling. Bij het zoeken naar verbanden of structuren is het mogelijk dat je wel tientallen modellen moet onderzoeken om er uiteindelijk één te vinden die het beste aansluit bij jouw data (en vraagstelling). Misschien blijkt het dat je algoritmes nodig hebt die nog niet bestaan. Die moet je dan eerst samenstellen uit allerlei informatie die je bij Stack Overflow of Rbloggers inwint.
Ook al is het proces zo onvoorspelbaar en zullen er onvermijdelijk fouten gemaakt worden die leervermogen en volharding vereisen, uiteindelijk zijn er wel een aantal distincte activiteiten te onderkennen.
Stap 1. Van vraag naar onderzoeksmodel
De data scientist start altijd met het opzetten van een onderzoeksmodel. De gestelde vraag moet worden vertaald naar een model waarin de gebruikte concepten en onderzoeksvragen goed zijn gedefinieerd. Hieruit leid je door operationalisatie de afhankelijke en onafhankelijke variabelen en hypotheses af. Deze stap verhoogt de mate waarin het onderzoek controleerbaar en herhaalbaar is. Het blijft immers science.
Stap 2. Van raw data naar tidy data
De in het onderzoeksmodel bepaalde variabelen helpen de data scientist beslissen welke data hij nodig gaat hebben tijdens zijn onderzoek. Met die kennis gaat hij op zoek naar die data, want die kan in principe overal vandaan komen. Denk bijvoorbeeld naast interne bronnen ook aan data van externe partijen zoals Twitter, Facebook, LinkedIn, Webpages, enzovoorts. Daarover lees je meer in de volgende blog.
Veel werk gaat zitten in het verkrijgen en schoonmaken van data. Vaak is de data die de data scientist binnenhaalt in ruwe vorm opgeslagen (raw data). Dat kan bijvoorbeeld data uit het ’scrapen’ van een webpage zijn. Hij moet die raw data dan nog op allerlei manieren bewerken om er nette R-objecten van te maken (tidy data) voordat hij ermee kan gaan werken.
Zonder er formeel dieper op in te gaan - maar om een beetje gevoel te krijgen voor wat ‘tidy’ is - geef ik hieronder de vaak gehanteerde criteria:
- Elke variabele heeft zijn eigen kolom in de data tabel.
- Elke verschillende observatie moet in een verschillende rij staan.
- Er is één data tabel voor één soort variabele.
- Als er meerdere data tabellen zijn, moeten ze onderling koppelbaar zijn middels een sleutelkolom.
De uitleg van de precieze bedoeling van deze criteria strekt een beetje te ver voor deze blog, maar ben je geïnteresseerd dan kan ik je deze paper (PDF) van Hadley Wickham aanraden.
Tidy data is een noodzakelijke voorwaarde voor het starten met het inhoudelijk onderzoeken van die data. Het proces van raw data naar tidy data moet goed gestructureerd plaatsvinden. Data scientists gebruiken daar vaak een ‘code book’ voor. Daarin staat bijvoorbeeld:
- Het onderzoeksmodel waarin naast een beschrijving van (de reden voor) het onderzoek, ook staat aangegeven hoe je de ruwe data hebt gevonden en binnengehaald.
- De data beschrijving (een sectie die soms zelf weer code book wordt genoemd), met daarin een beschrijving van alle variabelen en eenheden die gebruikt worden, zowel voor de tidy data als voor de variabelen die niet in de tidy data terecht zijn gekomen.
- Een recept dat aangeeft welke bewerking de data scientist heeft gebruikt om van de raw data, tidy data te maken, inclusief handmatige stappen en eventuele R- of Python-scripts.
Met behulp van dit codebook zou elke willekeurige data scientist, uit de ruwe data, precies dezelfde tidy data moeten kunnen genereren. Zie hier de opnieuw de herhaalbaarheid en controleerbaarheid van ‘science’. Dat dat zinvol is blijkt bijvoorbeeld uit
Stap 3: Exploratieve Data Analyse
De data scientist zal de uiteindelijk voorbereide tidy data eerst gaan onderzoeken met exploratieve data analyse. Hiermee kan hij de waarde van de data voor het onderzoek vaststellen. Ook deze stap kent allerlei statistische analyses. Het kan zijn dat de data scientist toch weer op zoek moet naar nieuwe, betere databronnen en dus de vorige stap herhaald moet uitvoeren. Maar dat is allemaal onderdeel van de ‘trial and error’ aanpak binnen het strak omlijnde onderzoeksmodel. Ook hier zie je de volhardendheid van de data scientist terugkomen.
Stap 4. Het onderzoek uitvoeren
Uiteindelijk heeft de data scientist de juiste tidy data en kan het werkelijke onderzoek zoals gesteld in het onderzoeksmodel beginnen. Het uitvoeren van het ten principale reproduceerbare onderzoek, behelst zaken als statistical inference, regressiemodellen, machine learning en het ontwikkelen van data producten. Alles om de hypotheses in het model te onderzoeken. In principe kunnen uit dit onderzoek weer redenen ontstaan om terug te keren naar nieuwe of betere databronnen en dus de iteratie van voorgaande stappen, waarbij het codebook natuurlijk navenant wordt bijgewerkt.
Vaak is het zo dat allerlei modellen en algoritmes experimenteel worden toegepast en weer verworpen voor nieuwe modellen. Dat is een repeterend proces totdat de juiste, best aansluitende modellen bepaald zijn, waardoor de data scientist tot een sluitend, betekenisvol onderzoeksresultaat kan komen. Ook hier is vindingrijkheid en volhardendheid een vereiste.
Stap 5. Resultaten presenteren
Het presenteren van de onderzoeksresultaten kan in allerlei vormen. Veelal zullen hierbij ‘plots’ gebruikt worden, grafieken die de gevonden correlatie of regressie duidelijk zichtbaar maken. Inhoudelijk gezien worden hypotheses verworpen of geaccepteerd. Voor marketing betekent dit bijvoorbeeld dat aangetoond wordt welke variabelen een invloed uitoefenen op bijvoorbeeld koopgedrag of churn. Uit die constateringen kunnen dan weer voorspellende modellen worden afgeleid, die weer gebruikt kunnen worden voor campagnes of voor NBA-engines.
Belangrijk is dat je begrijpt dat elke simulatie maar een simulatie is en dat dergelijke voorspellende modellen op basis van de werkelijke resultaten moeten worden bijgesteld om tot goede resultaten te komen.
Marketing en het data science proces
De marketing discipline zit vaak verlegen om antwoorden op allerlei vragen. Soms kunnen deze vragen op een goede manier door data science worden geadresseerd. Het data science proces wordt vrijwel altijd buiten het marketing productieproces geplaatst als een soort research laboratorium. Dit voor het vinden van voorspellende modellen met bruikbare, onafhankelijke variabelen die afhankelijke variabelen in voldoende mate verklaren. Zo kan marketing erachter komen dat mannen met snorren en baarden meer bier drinken. Of dat 60% van de bezoekers die de blog rond de OLED-technologie uit eigener beweging kiezen en langer dan 30 seconden lezen, de nieuwe TV van Samsung binnen 30 dagen aanschaffen als ze tussen de 20 en 25 jaar zijn.
Welk klantgedrag voorspelt een aankoop? Welke bezoekerseigenschappen zijn bepalend voor het kiezen van een nurture path voor een bepaalde bezoeker? Laat je data science lab het eens uitzoeken.
De data science reeks
Na deze blog over het proces van marketing data science, zal ik in de komende blog eens wat dieper in de databronnen voor data science duiken.
Nu al meer weten over Data Science? Download dan onderstaand eBook. Dit eBook is een verzameling van blogs door Gerrit Versteeg geschreven over data science vanuit het perspectief van managers. Het biedt houvast aan managers die willen begrijpen hoe data science in hun omgeving kan worden gebruikt.
Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen de reeks wordt besproken.