Better Decisions
For Better Life

Marketing Intelligence voor Managers – Data Science Exploratory Analysis

-

marketing intelligenceDeze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en hypes.

In vorige blogs heb ik nader toegelicht wat data science is en hoe het voor marketing waardevol kan zijn. Ook heb ik de rol van de data scientist, het proces van data science en de databronnen voor data science wat nader beschreven.

Interne en externe databronnen leveren data op. Data die de data scientist wellicht eerst eens wil bekijken op eventueel verklarende verbanden. Daarom leek het me goed om deze keer eens te kijken naar exploratieve data analyse. Anders gezegd: het analyseren van data om te onderzoeken of daarin verbanden zijn te vinden.

Introductie

Exploratory Data Analysis (EDA) is een eerste stap in het bekijken van de geëxtraheerde en schoongemaakte data. Meestal doe je dat door deze data visueel te maken in wat genoemd worden: Exploratory Graphs.

Met exploratieve data analyse wil je een eerste indruk krijgen van de data door deze op verschillende manieren aan elkaar te relateren. Het is mogelijk dat sommige ‘variabelen’ een onderling verband laten zien en sommige juist niet. Met de gevonden verbanden tussen bepaalde variabelen kun je dan proberen statistische modellen te vinden die het best aansluiten bij dat mogelijke verband.

centrality_scatterplot_matrix1.png

Principes van Exploratieve Data Analyse

In paar zaken zijn kenmerkend voor EDA:

  • Vergelijkend onderzoek
    Het vinden van bewijs voor een bepaalde hypothese is altijd relatief tegenover een alternatieve hypothese. Je stelt je dus altijd de vraag: “maar vergeleken met wat dan?”. Binnen marketing gebruik je daarvoor meestal een ‘control groep’. Bijvoorbeeld een groep prospects die niet wordt blootgesteld aan bepaalde reclame-uitingen. Hiermee krijg je een soort ‘ceteris paribus’ (alle andere omstandigheden gelijkblijvend). De control groep vertoont het ‘normale’ gedrag zonder de invloed van prikkels. De target groep krijgt wel prikkels, waardoor je het resulterend gedrag tussen target en control groep met elkaar kunt vergelijken.

  • Causaliteit
    Binnen EDA wordt altijd gezocht naar een mogelijke onderliggende verklaring van een (ogenschijnlijk) verband. Je zoekt naar een oorzaak-gevolg relatie, naar een logisch verklarend mechanisme of naar een systematische structuur. Veelal probeer je ‘tussenliggende’ variabelen te vinden die hetzelfde verband laten zien en die bijdragen aan de logische verklaring van het fenomeen.

  • Multivariate data
    De data scientist werkt meestal met meerdere variabelen tegelijkertijd, omdat er vaak meerdere variabelen tegelijk van invloed kunnen zijn op het verband dat we proberen te vinden. Ook al helpt de control/target-groep-constructie om één ‘onafhankelijke’ variabele beïnvloedend te laten zijn, het is vrijwel onmogelijk om de werkelijke tegenwoordige wereld te temmen. Om ons heen bestaan zoveel prikkels, dat het zeer onwaarschijnlijk is dat slechts één variabele zo netjes valt te separeren. Daarom werkt de data scientist in veel gevallen met veel meer variabelen. Stel dat je een jaar lang meet hoe een wekelijks geplaatste advertentie het aankoopgedrag van het geadverteerde product beïnvloedt. Als je deze tegenover elkaar zet in een exploratieve grafiek dan zou je een aflopend verband kunnen vinden en tot de conclusie kunnen komen dat die advertentie geen positief effect heeft. Stel dat je diezelfde data eens in vier grafieken naast elkaar zet voor elk van de vier seizoenen, dan kan het blijken dat alle seizoenen een stijgende verkoop laten zien! Dus: houden, die advertentie. Je zal zeggen: “dat is onmogelijk”. Maar dat is niet zo! Voor de liefhebbers: het is een voorbeeld van Simpson’s paradox (go check a funny youTube of kijk even op Wikipedia). Feitelijk verstoort de variabele ‘seizoen’ (confounding variable) de relatie tussen advertentie en koopgedrag. Daarom is het van belang om veel variabelen mee te nemen als je verbanden probeert te ontdekken.

  • Bewijsvoering
    Bij EDA is het belangrijk om de bewijsvoering van je gevonden verbanden niet alleen als grafiek te tonen met duidelijke labels, grootheden en gebruikte bronnen, maar om die te combineren met beschrijvingen van de logica, in woorden, cijfers en plaatjes. Hierbij geldt: de analyse is zo sterk als haar kwaliteit, relevantie en integriteit. Ook hier dus ‘content is king’.

Visualisatie van Exploratieve Data Analyse

Bij EDA wordt veel gebruik gemaakt van het visualiseren van data in zogenoemde ‘Exploratory Graphs’. Dit zijn snel opgestelde ‘plots’ van tegenover elkaar gezette variabelen om patronen inzichtelijk te maken. De toolbox van de data scientist kent daarvoor bijvoorbeeld in R, drie algemeen gebruikte graphing-packages namelijk: base, lattice of ggplot2. Naast deze standaard tools, kun je tegenwoordig echter ook gebruik maken van betaalde visualisatie-tools, zoals Tableau of QlikSense.

Explorative graphing wordt niet gebruikt om resultaten te presenteren, maar om de eigenschappen van je data te begrijpen, om patronen te vinden in de data, om suggesties te verkrijgen voor manieren om de data te modelleren en om fouten uit je analyse te detecteren. Explorative graphs worden dan ook quick & dirty gemaakt, als een soort try-out en je zal er tijdens de EDA-fase veel van maken. Ze zijn bedoeld voor persoonlijk inzicht en ze worden niet fraai gemaakt voor presentatie van de resultaten of voor communicatie.

Voor het weergeven van eendimensionale data worden meestal boxplots, histograms, density plots of barplots gebruikt. Voor tweedimensionale data zijn dat meestal multiple 1D-plots of (smooth) scatterplots. Meer dan twee dimensies doet de data scientist vaak in multiple 2D-plots, door het variëren van grootte, kleur of vorm van de meetpunten of zelfs door spinning plots en echte 3D-plots. Maar die laatste zijn in de praktijk minder bruikbaar.

Wil je meer weten over Data Science? Download dan onderstaand eBook. Dit eBook is een verzameling van blogs door Gerrit Versteeg geschreven over data science vanuit het perspectief van managers. Het biedt houvast aan managers die willen begrijpen hoe data science in hun omgeving kan worden gebruikt. 

New Call-to-action

Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen de reeks wordt besproken.