Better Decisions
For Better Life

Marketing Intelligence voor Managers – Marketing Data Science Bronnen

-

marketing data Deze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en hypes.

In de vorige blogs heb ik nader toegelicht wat data science is en hoe het voor marketing waardevol kan zijn. Ook heb ik de rol van de data scientist en het proces van data science wat nader beschreven. Daarin werd duidelijk dat de data scientist uitgaat van een onderzoeksmodel met duidelijk benoemde variabelen. Waarna hij op zoek gaat naar databronnen die hem die variabelen kunnen geven.

Naast voor de hand liggende data bronnen binnen de eigen organisatie (interne brondata), zal een data scientist voor de variabelen uit zijn model vaak gebruik maken van data uit externe bronnen. In deze blogreeks rond data science voor marketing leek het me daarom aardig om eens wat meer voorbeelden te geven van types van databronnen waaruit zinvolle data kan worden gehaald. Zo krijg je een idee van de variatie aan bronnen die je potentieel kunt ontsluiten. Het is goed om je te realiseren dat je de data gebruikt voor onderzoek. Als daaruit blijkt dat de bron zinvolle data oplevert, kun je gaan kijken hoe je zo’n externe bron kunt stabiliseren voor reguliere data-extractie.

Introductie

Natuurlijk zijn interne bronnen de meest voor de hand liggende plaats om goed geborgde, stabiele en relevante (‘tidy’) bedrijfsdata uit te halen. Toch blijkt er, uitgaande van het type onderzoeksvragen die marketing vaak stelt, vaak behoefte te zijn aan data die (nog) niet beschikbaar is in de interne bedrijfshuishouding. In dat geval zal de data scientist gaan zoeken naar representatieve data uit externe bronnen. Er is een schat aan data publiek beschikbaar op het internet die vaak onvoldoende onderkend wordt. Data science tools (bijv. R met allerlei handige en snelle ‘packages’) zijn heel krachtig in het inlezen en voorbewerken van ruwe data uit verschillende bronnen. Laten we eens gaan kijken naar de soorten bronnen die potentieel beschikbaar zijn.

Soorten interne databronnen voor marketing data science

De in het onderzoeksmodel bepaalde variabelen kunnen vaak voor een deel worden ingevuld met reeds beschikbare data uit de eigen bedrijfssystemen. Denk bijvoorbeeld aan contractgegevens, factuurgegevens, gebruiksgegevens of contactgegevens uit je klant- of financiële administraties. Voor de ontsluiting van die gegevens wordt vaak een data warehouse of data lake gebruikt. Het is voor de data scientist natuurlijk een ‘piece of cake’ als hij zijn data zo netjes geformatteerd en beschreven aantreft in een beschikbare interne bron.

Maar niet alle data die vanuit het bedrijf zou moeten komen, is al beschikbaar in een data warehouse of data lake. Soms moet de data scientist zelf op zoek naar bedrijfsdata, bijvoorbeeld in databases onder bedrijfsapplicaties of in logfiles. Het kan bijvoorbeeld blijken dat niet alle klantgegevens uit het CRM in het dwh zitten, waardoor hij zelf op zoek moet gaan naar klantattributen die in de database van het CRM zitten. Met voldoende mandaat, zijn feitelijk alle data uit alle databases binnen het bedrijf in principe beschikbaar voor de data scientist. Zelfs de data die verstopt zit in de bedrijfswebsite of in de outlook-mailbox van de bedrijfsaccounts. Zie daar, waar de ‘hacking skills’ voor nodig zijn.

Soorten externe databronnen voor marketing data science

Als blijkt dat het onderzoeksmodel van de data scientist dicteert dat er variabelen nodig zijn waarvoor de data niet wordt geregistreerd binnen het bedrijf, dan moet hij de data extern betrekken. Hiervoor zijn twee mogelijkheden beschikbaar: het bedrijf maakt gebruik van ‘cloud’ applicaties, waarbij de gegevens dus ook ‘extern’ staan of de data is geen eigendom van het bedrijf, maar is publiekelijk beschikbaar op het internet.

Eigen data in de cloud

Het komt steeds vaker voor dat bedrijven hun eigen data in de cloud hebben staan. Gebruik maken van cloud-applicaties (Software as a Service) betekent automatisch dat de data die bij die applicatie hoort, ook in de cloud is. Denk bijvoorbeeld aan gehoste applicaties zoals: Salesforce, Exact, Hubspot, Marketo, Magenta, Zendesk enzovoorts. Deze applicaties hebben als een schaalbaar ‘pay-as-you-go’ licentie-model wat enorm helpt om moderne software te kunnen gebruiken tegen lage kosten. Dat betekent ook dat heel veel bedrijven tegenwoordig cloud-oplossingen gebruiken en dat hun data daardoor niet direct intern beschikbaar is (tenzij je al een ontsluiting hebt gebouwd).

Als de data scientist deze data nodig heeft (en dat zal al snel zo zijn) dan moet hij die dus bij de cloud-applicatie gaan ophalen. Gelukkig is het zo dat een – zichzelf respecterende – cloud-supplier altijd een ‘API’ (Application Programming Interface) op zijn cloud-applicatie heeft gebouwd waarmee de klant zijn gegevens ‘eenvoudig’ kan ophalen. Als dat onverhoopt niet zo, kies dan voor een cloud-applicatie van een concurrent die zich beter gedraagt. Een goede API is zo beschreven, dat een data scientist er met behulp van R-scripts snel data mee kan extraheren. Elke cloud-applicatie heeft zijn eigen API gedefinieerd, dus daar moet de data scientist wel verschillende R-scripts voor maken. Waarschijnlijk moet hij die data ook nog opschonen en omvormen tot de tidy data, waarna hij er mee kan gaan werken. Je ziet, de data scientist is een beetje van alle markten thuis.

Publieke data van anderen

Algemeen wordt onderschat hoeveel data er beschikbaar is online. Vrijwel alle regeringen en veel onderzoeksinstellingen van ontwikkelde landen stellen hun data (soms tegen een relatief kleine vergoeding) online ter beschikking voor hergebruik. Denk bijvoorbeeld aan het CBS, de RDW, de KvK, de overheid met de BAG, de postcodegegevens en nog veel meer. Het Internet vormt een rijke bron van data die je kunt gebruiken in marketingonderzoek rond bijvoorbeeld demografische gegevens, internetgebruik, smartphone gebruik of surf- en kijkgedrag. Ook data die gebruikt is voor ander wetenschappelijk onderzoek is vaak online beschikbaar. Er wordt steeds meer gedeeld en met het IoT (Internet of Things) zal deze trend alleen maar sterk toenemen. De aanbieders dragen zelf zorg voor de beschikbaarheid van die data in allerlei vormen. Data kan beschikbaar zijn als:

  • Databases, zoals MySQL en HDF5
  • Downloadable bestand, zoals XML, JSON (Javascript Object Notation), CSV, XLSX, PDF, gzip, tar, enzovoorts
  • Website in HTML-formaat
  • Specifiek toepassingsformaat, zoals Minitab, S, SAS, SPSS, Stat, Systat
  • Image in jpeg, bmp, png of specifieke formaten vanuit allerlei visuele apparatuur
  • GIS-data, te lezen met packages als rdgal, rgeos en raster
  • Muziek, bijvoorbeeld mp3 met tuneR en seewave

Alvast ter verontschuldiging; de opsomming (afgeleid van J.F. Leek “getting and cleaning data”) is bedoeld om een indruk te geven rond de vele mogelijkheden, zonder elke mogelijkheid apart te behandelen.

Je ziet, zo gek als de aanbieders het nog niet hebben bedacht of er bestaat wel een R-package voor het lezen ervan. Jouw data scientist is redelijk ingevoerd in de bronnen die zoal beschikbaar zijn en anders gaat hij ernaar op zoek voor jouw specifiek vraag. Onthoud, veel is al beschikbaar. Bekijk dat eerst voordat je moeite, tijd en geld gaat stoppen in het zelf genereren van data door bijvoorbeeld eigen onderzoek (hoewel dat soms natuurlijk onvermijdelijk is).

Marketing en data voor data science

Typerend voor het vak data science is het vermogen om allerlei data uit allerlei bronnen te kunnen onttrekken en gebruiken. Soms kan het marketing niet gek genoeg zijn als het gaat om de vragen die ze stellen. Met de combinatie van data uit interne eigen bronnen, externe eigen bronnen en externe publieke bronnen kan marketing met data science een goed stuk research binnenhalen, waar waardevolle onderzoeksresultaten uit gehaald kunnen worden. En goede research helpt het marketingbedrijf binnen de organisatie weer een stuk verder.

Ben je nieuwsgierig naar de 10 wetenswaardigheden rondom Business Intelligence ? Download onderstaand eBook vol met tips en best practices. Beschreven vanuit het gezichtspunt van de manager en zoveel mogelijk ontdaan van technische ICT-termen.

Ebook Business Intelligence 'De 10 Need to Knows rond BI'

Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen de reeks wordt besproken.