Better Decisions
For Better Life

Business Intelligence voor managers - Geef Big Data de ruimte

-

Business Intelligence Deze blogreeks valt binnen ons thema ‘Management & BI’. Dit thema is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in begrijpelijke taal en zonder alle technische termen en

Big Data heeft ruimte nodig, meer ruimte dan je gewend bent in je 'normale' BI-omgeving. Met ruimte bedoel ik eerder ademruimte dan opslagruimte. Het gaat bij Big data niet om hoe groot jouw Hadoop-cluster wel niet is ten opzichte van je concurrenten, maar om de manier waarop je met die Big data omgaat. Let me explain.

Big Data

Big Data zijn anders dan we gewend zijn. Vanouds verwerken we in onze BI-omgevingen redelijk rustige, stabiele data uit hoofdzakelijk interne bronsystemen. Data waarvan we de context en de betekenis kennen. Data die netjes periodiek binnenkomen in een formaat dat we afgesproken hebben met de bronsysteemhouder (eventueel in een SLA) en die we automatisch kunnen verwerken in één of meerdere netjes vooraf ontworpen datamodellen in het data warehouse.

Zo niet Big Data. Deze data komen hoofdzakelijk uit externe bronnen, die we niet kunnen beïnvloeden. De dataleverancier stelt die data immers beschikbaar aan meerdere, onbekende partijen. De data zijn veelvormig ('variety'), veranderlijk, buiten onze macht ('veracity'), vaak volumineus (volume) en kan soms in een rap tempo ('velocity') binnenkomen als je daarvoor kiest. Big Data bestaan veelal uit 'eigenzinnige' data, die niet zomaar automatisch te verwerken zijn.

Ruimte voor een centrale verzamelplek

Daarom moeten we al beginnen met het apart opslaan van die data. Meestal in een daarvoor geschikt Data Lake als centraal verzamelpunt en dan liefst 'as such', op een 'losse' manier, zonder verbanden want die kennen we immers nog niet. Dus we moeten we een aparte opslagruimte inrichten. Een opslagruimte die geschikt is voor 'losse' opslag van databestanden in allerlei formaten. Daar is een traditioneel DBMS met opslag gebaseerd op datamodellen (relationeel, data vault, multidimensionaal etc.) niet bijster geschikt voor. Eigenlijk heb je een soort file-system nodig zoals je gewend bent op je eigen PC of server, daar kun je immers ook allerlei bestanden in allerlei formaten in opslaan. Hadoop is zo'n filesystem, maar dan met fancy extra mogelijkheden, zoals fout-tolerantie, backup en opslag over meerdere servers (nodes) inclusief automatische load-balancing van queries. Daarin kun je niet alleen nette data zoals CSV, XLS, JSON of XML-bestanden in kwijt, maar ook hele documenten zoals DOCX, PDF, JPG en HTML-bestanden.

In het data lake richt je dus je eerste rustpunt in als een centrale opslagruimte waar de weerspannige Big Data als 'ruwe' data wordt opgeslagen. Klaar voor onderzoek, bijvoorbeeld naar betekenis en eventuele onderlinge verbanden.

Ruimte voor onderzoek

Big Data is onlosmakelijk verbonden met Data Science. Als bedrijf moet je onderzoeken hoe je de data uit jouw lake precies moet interpreteren, welke betekenis de data hebben voor jouw business en of er verbanden bestaan tussen relevante databestanden. Er is dus ook ruimte nodig voor data-onderzoek. Je hebt een data science discipline nodig met onderzoeksprocedures en een geschikte onderzoeksomgeving (bijvoorbeeld R-Studio) met een geschikt onderzoekstool. R is verreweg de meest gebruikte tool en wordt drie keer zoveel gebruikt als zijn directe concurrent op de tweede plaats. Ruimte voor onderzoek betekent ook het aantrekken of opleiden van Data Scientists, het opstellen van onderzoeksprocedures om herhaalbaar onderzoek te borgen en onderzoeksresultaten veilig te stellen in bijvoorbeeld code books. Maar ook het reserveren van tijd en capaciteit om dat onderzoek te kunnen doen.

Data-onderzoek levert nieuwe data op, die je ook weer opslaat in je Data Lake:

1. Metadata over Big Data (semantiek)

Tijdens het ophalen en opschonen van ruwe data in het kader van een gestelde onderzoeksvraag, worden data onderzocht en indien mogelijk hersteld of geherstructureerd tot geschoonde 'tidy' data. Deze data is geschikt voor het onderzoek. Echter, daarbij worden nog steeds geen relaties gelegd. Tijdens dit 'Getting en Cleaning data'-proces wordt het geleerde over de data en hun schoning vastgelegd in een code book. Vanuit dit code book kunnen we een 'catalog' (i.e. woordenboek) over onze interpretatie van de onderzochte data samenstellen. Dat is dus ook de eerste plek voor het vastleggen van de gevonden semantiek van je Big Data.

2. Relaties tussen gegevens

Als we tijdens het onderzoek relaties onderkennen, dan leggen we die vast in zogenaamde triple-stores binnen het Data Lake. Let wel, we passen de relaties niet toe door die relaties te leggen in een datamodel, we registreren alleen het feit dat we een relatie hebben gevonden. Bij relaties kun je een onderscheid maken tussen semantische relaties en data-inhoudelijke relaties.

  • Semantische relaties zijn verbanden gebaseerd op betekenis, zoals factuurregels horen bij een factuur en een overeenkomst gerelateerd is aan een klant en aan een product. Dat is als het ware 'bij afspraak', omdat we de 'taal' nu eenmaal zo interpreteren.
  • Data-inhoudelijke relaties zijn verbanden die niet (vooraf) gedefinieerd zijn, maar die blijken uit statistisch onderzoek van de inhoud, de waarden van de data. Dit kan bijvoorbeeld blijken uit een hoge correlatie/covariantie tussen losse data (variabelen). Denk bijvoorbeeld aan: fijnstof in de lucht (PM5, PM10) heeft een effect op astmaklachten of het aantal likes heeft een causaal verband met de NPS (Net Promotor Score).

3. Nieuwe gegevens (statistieken of voorspellingen)

Tijdens het onderzoek worden niet alleen statistieken gevonden (gemiddelden, spreidingen, verdelingen, kwantielen etc.) maar kunnen ook voorspellingen worden gedaan op basis van regressiemodellen of machine learning. Ook deze nieuwe data wordt opgeslagen als 'losse' data in het Data Lake.

Ruimte voor aanpassing

Big data is veranderlijk, weerbarstig. Externe dataleveranciers kunnen de formaten aanpassen, de tekstopbouw van hun ongestructuurde documenten, zelfs de inhoud van de data anders gaan interpreteren. Het is voor de data science discipline dan ook niet voldoende om alleen maar de eerste ontsluiting van nieuwe data te doen. Zij moeten ook de status van de databronnen in de gaten houden en bij verandering nieuw onderzoek doen en eventueel verwerkingsscripts, catalogs of triples aanpassen. Er is dus ook ruimte nodig voor continue flexibiliteit. 

Conclusie

Als je als bedrijf voldoende aanleiding vindt om Big Data te gaan verzamelen, richt hiertoe dan expliciet ruimte in (binnen je BI-discipline). Niet alleen opslagruimte, maar vooral ook ruimte voor onderzoek in de vorm van een data science discipline met een duidelijke taakstelling, met duidelijke procedures, met gereserveerde capaciteit en opgeleide mensen. Plan tijd in voor het doen van onderzoek. Niet alleen voor het eerste gebruik van externe, maar ook voor de onvermijdelijke veranderingen die plaats gaan hebben op data die je al verwerkt. Dus ook ruimte voor het doen van aanpassingen, gedwongen door de beweeglijkheid van Big Data.

Doe Big Data er niet 'tussendoor'. Alloceer de benodigde resources (ook processen, mensen en tijd) expliciet, anders gaat Big Data al snel met jou aan de loop in plaats van andersom.

Meer weten over Big Data en wat kan de groei van Big Data kan betekenen voor uw bedrijf? Op deze vraag zal onderstaand eBook antwoord geven. Dit eBook is een verzameling van blogs door Gerrit Versteeg geschreven over Big Data vanuit het perspectief van de manager.

New Call-to-action

Laat hieronder een opmerking achter als je een bepaald onderwerp rond Business Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen het thema wordt besproken.