Better Decisions
For Better Life

Business Intelligence voor managers: Need-to-know #3 Data-integratie

-

business intelligence

“Data-integratie is het kernprobleem binnen BI”

Deze tiendelige blogreeks is onderdeel van de themareeks Management & BI’. De blogreeks is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan in begrijpelijke taal zonder alle technische termen en hypes. De blogs vormen een samenvatting van de inhoud van het 100 pagina’s lange eBook ‘De 10 Need-to-Know’s, een introductie van Business Intelligence voor managers’

Dit is de derde blog in de reeks waarin ik één van de grootste, zo niet hét grootste probleem binnen BI bespreek, namelijk: de integratie van brongegevens. Deze stap in het proces is de oorzaak van veel falen­de BI-projecten en van veel slecht functionerende BI-omgevingen. Daarom is het belangrijk om er even terdege bij stil te staan en data-integratie eens goed onder de loep te nemen.

Integreren (en dus semantiek)

Na het verzamelen van de bron­data is het integreren van die brondata de volgende stap in het proces. In het ‘process data warehouse’ worden vrijwel altijd gegevens uit meerdere bronsystemen met elkaar gecombineerd (samengebracht, geïntegreerd). Denk bijvoorbeeld aan het koppelen van orderge­gevens aan productgegevens, klantgegevens en verkoper­gegevens of het koppelen van campagnegegevens met resulte­rende ordergegevens. Om dit te realiseren is een datamodel waarin alle brondata uit diverse syste­men een plek krijgt en aan elkaar wordt gerelateerd, noodzakelijk. Het samenbrengen, integreren van data uit meerdere bronnen in één datamodel is verreweg het grootste struikelblok van een BI-omgeving. Ook omdat het potentieel het meest complexe proces is. Data uit een verscheidenheid van systemen moet immers onder één semantische noemer worden gebracht en aan elkaar worden gerelateerd.

Het bij elkaar brengen van data uit verschillende systemen is complex in ontwerp en potentieel vertragend bij de periodieke dataverversing (de ‘frequency’ van de integratie). Hierbij speelt vooral de ‘scope’ van de integratie een rol. Met andere woorden: hoeveel bronsystemen en soorten data daarbinnen wil je met elkaar koppelen?

De ‘Scope/Frequency-tradeoff’

Hoe meer databronnen en hoe meer gegevens per databron, des te minder frequent de integratie en daar­mee de dataverversing in de praktijk kan verlopen. Elke tool-leverancier zal je vertellen dat het allemaal snel en zelfs realtime kan, maar dat is in de werkelijke praktijk slechts in uitzon­derlijke gevallen te realiseren. Denk aan een kleine scope, in goed opgezette omgevingen en met uiterst ervaren BI-ers.

Dit wordt niet veroorzaakt door het falen der techniek (snelheid van processoren, netwerken, databases, e.d.), maar door afhankelijkheden tussen de data-elementen in de diverse datastromen die met elkaar moeten worden verbonden. Het leggen van relaties tussen gegevens is bijvoorbeeld afhankelijk van de status van de betrokken gegevens in de tijd gezien, alsmede de levertijd­stippen, leverperioden en precieze periode-afsluitmomenten. Het is een beetje vergelijkbaar met het afsluiten van een boekjaar, technisch kan het op 1 januari, maar in de praktijk heb je er maanden voor nodig voordat de financiële gegevens ‘tot rust’ zijn gekomen.

Een prettig contra-effect

De trade-off is een vuistregel om rekening mee te houden. Hoe hoger de diversiteit van data, des te langer duurt het integratieproces. Echter, vanuit bestuurlijk perspectief is er wel een prettig contra-effect. Voor strategische beslissingen is de meest brede informatie - en daar­mee data uit allerlei hoeken - nodig. Gelukkig geldt dat onderne­mingsbrede strategische beslissingen ook ‘bedachtzamer’ worden genomen. Daarbij is informatie-ouderdom van een week of een maand helemaal geen punt. Je zou kunnen zeggen hoe ‘lager’ in de managementhiërarchie, des te sneller het besluit moet worden genomen…, maar des te minder data ervoor hoeft te worden gecombineerd.

Hoe kan ik de scope van mijn integra­tie in de hand houden?

Het probleem wordt veroorzaakt door het ‘onderling in verband brengen’ van diverse data-elementen. Anders gezegd: het combineren van data in één datamodel. Het helpt om meerdere datamodellen toe te staan. Feitelijk betekent dat het toestaan van meerdere ‘process data warehouses’. Een in de praktijk goed werkende opdeling is die naar managementdiscipline. Denk bijvoorbeeld aan een apart process data warehouse voor Marketing, voor Finance en/of voor HRM.

De volgende blog uit de reeks gaat specifiek over de illusie van de enige waarheid: ‘Business Intelligence voor Managers, Need-to-know #4: Het foute mantra: single point of the truth’. Een verdere uitleg over de problemen rond data-integratie en extra informatie over historische data vind je in het gratis eBook ‘De 10 Need-to-Know’s rond BI voor de manager’. Als je op de hoogte wilt blijven wanneer de volgende blog in deze reeks verschijnt, dan kun je je hier abonneren op het thema ‘Management & BI’.

 

 Ebook Business Intelligence 'De 10 Need to Knows rond BI'