Predefined datamodellen: de balans

Diverse organisaties hebben voor hun business intelligence activiteiten een predefined datamodel aangeschaft. Zo’n aanschaf kost nogal wat. De vraag rijst of dit een goede aanschaf is geweest. Was het wel nodig: we hadden toch ook zelf een datamodel kunnen maken? Of we hadden toch ook een goed boek kunnen aanschaffen? Waarom moesten we een fors bedrag uittrekken om zo’n datamodel te kopen?

De laatste paar jaar zie ik dat grote organisaties gebruik maken van predefined datamodellen bij de business intelligence-activiteiten. Om maar eens twee voorbeelden te noemen: verschillende banken in Nederland hebben het IBM Banking Data Warehouse Model aangeschaft. Het gaat om een model dat volledig is uitgewerkt met alle mogelijk tabellen, velden en relaties – volledig voorzien van keurige definities. Als je alle tabellen op een rij zet, heb je een volledig overzicht van alle activiteiten van een bank, van sparen tot de hr-afdeling.

Een ander voorbeeld is een grote producent van voedsel- en persoonlijke verzorgingsproducten dat bij Teradata het Teradata Manufacturing Logical Data Model heeft aangeschaft. Hier gaat het dan om een datamodel dat in een document van ruim duizend pagina’s staat uitgewerkt en waarin alle aspecten van een voedsel- en persoonlijke verzorgingsfabriek staat verwoord. Wederom keurig voorzien van alle mogelijke definities, tabellen, velden en relaties.

Tijdwinst

De producten zijn ooit eens aangeschaft om een kant- en klaar datamodel te hebben dat vrijwel direct gebruikt kon worden. Het beeld is dat de doorlooptijden van business intelligence-projecten met 10 tot 15 procent zou kunnen worden verkort. Ondertussen zijn deze predefined modellen al weer zo’n tien jaar in gebruik. Het is dan tijd om de balans op te maken. Heeft de aanschaf inderdaad geleid tot snellere doorlooptijden of is het achteraf toch een miskoop gebleken?

Je kunt denken dat de predefined data modellen zonde van geld geweest zijn omdat er nog steeds veel effort gaat zitten in het aanpassen van de datamodellen naar de situatie van de betreffende organisatie die nu eenmaal net iets anders is dan de algemene organisatie waarvoor het predefined datamodel is geschreven.

Het is natuurlijk waar dat het aanpassen van het algemene datamodel nog steeds heel veel tijd kost. Maar het prettige is wel dat de datamodelleurs weten wat de structuur is van het model. Zorgvuldige vergelijking van het algemene datamodel met de eigen situatie laat allerlei verschillen zien die de datamodelleur mag aanpassen. Die aanpassingen moeten dan weer binnen het kader van het algemene datamodel gebeuren. Nu blijkt dat voor de meeste datamodelleurs prettig werken te zijn. De modelleur snapt meestal wel snel hoe het algemene model werkt en hij snapt ook wel snel hoe je het model moet aanpassen om nu precies de situatie te vatten die er in zijn organisatie geldt. Het laat onverlet dat het veel tijd kost. De zorgvuldige vergelijking kost nu eenmaal een hoop tijd en het vinden van een oplossing kost nog meer tijd.

Dus het aanschaffen van predefined datamodellen heeft niet geleid tot het laten verdwijnen van datamodelleer activiteiten. Het heeft wel geleid tot ander soort activiteiten. De datamodelleur hoeft het model niet zelf te verzinnen; hij moet een bestaand model aanpassen aan de situatie van het bedrijf.

In mijn optiek is de kwaliteit van het werk gestegen. In de organisaties was er via een predefined datamodel een fantastisch goed voorbeeld beschikbaar. Nadere analyse brengt dan een aantal aspecten naar voren die voor de betreffende organisatie niet zo handig zijn. Het werk van de datamodelleur bestaat dan uit het omvormen van een fantastisch goed model naar een aanpast mooi model.

Dit aanpassingswerk leidt tot kwalitatief beter werk dan het zelf van scratch maken van een datamodel. Zoals menig scholier wel weet: afkijken van een slimme buurman geeft een hoger cijfer dan het zelf oplossen van de sommen.

Kan het ook goedkoper?

De makers van de predefined datamodellen vragen behoorlijke bedragen voor hun datamodellen. Anderzijds kan men ook voor een paar tientjes een boek over datamodellen kopen. De vraag rijst of een dergelijk boek niet hetzelfde kan bereiken als de aanschaf van een uitgebreid datamodel dat een stuk duurder is.

Voor de liefhebbers van zo’n boek geef ik een titel. U kunt eens zoeken op Len Silverston ‘The Data Model Resource Book: 3 delen’. Ik zag dat het in Engeland voor minder dan honderd pond wordt aangeboden. Een stuk minder dat de bedragen die IBM en Teradata voor hun predefined datamodellen vragen.

Toch is de vergelijking van een boek over datamodellen met de producten van IBM en Teradata een tikje scheef. Inderdaad staat in het boek een datamodel en leveren IBM en Teradata een datamodel, maar daarmee houdt de overeenkomst eigenlijk wel een beetje op.

Drie verschillen

Er zijn drie belangrijke verschillen tussen een datamodel uit een boek en die van Teradata en IBM.

Ten eerste is het datamodel van Teradata en IBM veel uitgebreider dan de datamodellen uit de literatuur. Je ziet het wellicht niet direct, maar als de datamodelleur start met een concrete situatie (bijvoorbeeld het modelleren van de verlies- en winst rekening), ziet hij dat de modellen van Teradata en IBM veel uitgebreider zijn dan wat hij in het boek ziet. Ook hier geldt dan dat alle waar naar zijn prijs is: een boek is wellicht goedkoper, maar je krijgt ook minder datamodel.

Ten tweede verkopen firma’s als IBM en Teradata meer dan een stuk literatuur met een datamodel. Ze verkopen er ook training en consultancy bij. De groep datamodelleurs krijgt op die manier ook een goede inleiding in het model. Hem wordt uitgelegd wat de achtergrond is van het datamodel en van welke filosofie de verschillende modellen zijn opgezet. Andere onderwerpen die aan de orde komen, bereiden de modelleurs verder goed voor op het aanpassen van het algemene model aan de concrete situatie van de organisatie.

Ten derde zijn de datamodellen van Teradata en IBM opgezet vanuit een samenhangende filosofie. Deze samenhangende gedachte zorgt er dan weer voor dat verschillende modellen herkenbaar zijn: ken er je een onderdeel, dan ken je ze ook het geheel. Die achtergrondfilosofie zorgt ervoor dat grote modellen begrijpelijk zijn voor de it-afdeling.

Conclusie

Na tien jaar kunnen we wel begrijpen dat de aanschaf van generieke datamodellen een goede stap is geweest. Het heeft geleid tot hoge kwaliteit van datamodellen. Dat laat dan wel onverlet dat het aanpassen aan de concrete situatie nog steeds veel tijd kost. Maar al met al is het eindproduct een kwalitatief hoogststaand datamodel.

Dat wordt ook nog bevestigd door het feit dat de meeste organisaties die de stap hebben genomen om een predefined datamodel aan te schaffen, daar ook op blijven voortborduren. Hier zien we dat de klanten blijkbaar tevreden zijn. En deze tevredenheid toont dan de waarde van dergelijke producten aan.