De zin en onzin van metadata

08 september 2009 - 07:435 minuten leestijdOpinieData & AI

Metadata, er is al veel over geschreven en er worden ook al stappen gezet, maar waar staan we nu? Is het nog steeds iets wat alleen ict'ers belangrijk vinden of heeft de business er ook al wat aan? Een pleidooi voor een 'down to earth'-benadering van metadata.

Metadata, er is al veel over geschreven en er worden ook al stappen gezet. Begin jaren '80 met de opkomst van Case-tools, waardoor je in ieder geval met terugwerkende kracht de layout van een database kon ontdekken (reverse engeneering). Later gevolgd door de Icase-tools, waardoor je ook de modellen op je scherm kon toveren en aanpassen. Met een beetje geluk had je ook nog genoeg rechten om de aangepaste database daarna te maken en te voorzien van data (maar dan had je wel een heel geavanceerde tool). Veel van de tools waren databasespecifiek. Later kwamen er ook zogenaamde generic tools, onbetaalbaar, maar wel heel handig. Bij sommige van de tooltjes had je zelfs een tekstveld waarin je een beschrijving van een tabel of zelfs een kolom kwijt kon. En soms werden die ook nog gebruikt.

Hoe staat het er nu voor? Er zijn wel een aantal initiatieven. Als er al metadata worden opgeslagen, dan is het nu vaak in xml. Dat zorgt er in ieder geval voor dat het goed te lezen valt. xBRL zodat de uitwisseling van financiële gegevens beter gaat, hoewel daar dan wel weer dialecten voor allerlei bedrijfstakken zijn. In de pharmaceutische industrie is er nu CDISC. Heel fijn om te weten dat internationaal gezien over onze medicijnen een afspraak is gemaakt, zodat de mix van ingrediënten klopt. En ook in de huizenmarkt is er OSCRE Real Estate ontstaan en Math ML begint te komen. Maar wat mij betreft is dit pas het begin. Nu we in het integratietijdperk 'weten waar je het over hebt' zitten, is het ineens veel essentiëler geworden dan toen we nog ict-eilandjes hadden. Maar op een of andere manier blijft onze sector toch steken bij de technische beschrijving van veldjes, oftewel de technische metadata. En dat terwijl ik mijn studenten probeer te leren dat metadata zijn ‘dat wat je over data beschrijven moet om het zinvol te kunnen gebruiken’. Let op het woord zinvol, daar draait het om.

Natuurlijk is het daarom handig te weten of een veld drie of veertien karakters mag bevatten. En ook dat tabel x bestaat uit kolommen één, twee, drie en vier. Maar het belangrijkste staat er meestal niet bij. Wie heeft het eigendom van de inhoud van tabel x? Wat is de logische uitleg van tabel x, heeft tabel x relaties met andere tabellen? Heeft deze relatie in de business een bepaalde betekenis? En zo kan ik nog wel even doorgaan.

Wat ik hiermee wil zeggen is dat al die pagina’s vol technische metadata mij niet gaan vertellen wat de data betekent, hoe het wordt gebruikt in de business en daarom ook niet wat de lifecycle van de data moet zijn. Want op papier is vaak de business wel de eigenaar van de data, maar in het echt is het nog veel te vaak de ict-afdeling. Omdat de ict'ers er maar niet in slagen om de data zo te beschrijven dat de business het begrijpt en zich daarom eigenaar voelt. Voor de business is tabel x helemaal niet belangrijk. Wel is belangrijk om te weten welke klanten in het afgelopen jaar minder zijn gaan kopen. Dat ze daarvoor tabel x en tabel y en de relatie daartussen nodig hebben, interesseert ze niet. Dat moet ict weten. Kortom, echt eigenaarschap van de business voor de data gaat pas wat worden als we in businesstermen (business-metadata) kunnen uitleggen wat de data betekenen. En daarvoor zijn (bij mijn weten) nog geen goede hulpmiddelen die kostenefficiënt kunnen worden ingezet. En dan moeten deze onduidelijke verzamelingen aan elkaar gekoppeld worden? Veel succes, maar ik ben niet verbaasd over alle missers op dit gebied.

Bij een klant van mij zijn we nu aan het experimenteren met het inzetten van wiki-technologie voor dit doel, omdat je dan in ‘mensentaal' met de ‘mensen(on)logica' de gegevens aan elkaar kunt koppelen, niet hiërarchisch en toch doorzoekbaar. Ook het veranderen van samenhangen gaat kinderlijk eenvoudig. Het lijkt te werken, maar ik blijf het met argusogen volgen.

Wat mij betreft zijn metadata dus niet iets mysterieus, geheimzinnigs of ingewikkelds. Ik pleit voor de 'down to earth'-benadering: bewaar dat over data dat je niet met een tool kunt reverse engineren, wat uitlegd het doel en de betekenis van de data zjjn. Wat de samenhang van elementen is en welke businessdoelen met de data gediend worden. Dat scheelt heel wat bomen (papierverspilling) en is achteraf nog leesbaar voor collega's die met jouw werk verder moeten. Want zeg nou zelf, jij wordt toch ook niet heel gelukkig van al die lijsten met veldnamen die niets zeggen? Natuurlijk houdt een analist van puzzelen, maar er zijn grenzen.

Tot die tijd blijf ik mijn studenten voorhouden dat niet de gebruiker onze taal moet gaan spreken, maar dat wij (ict'ers) de taal van de klant moeten (blijven) spreken. Ik denk dat we daar de helft al mee winnen. Mocht je voorbeelden hebben van geslaagde metadataprojecten dan hoor ik het graag. En dan bedoel ik de projecten die nog steeds worden gebruikt door de business. Ik kom zelfs graag met mijn studenten kijken. Ik laat me graag overtuigen dat ik het allemaal wat te somber inzie.

Tanja Ubert

8 reacties op “De zin en onzin van metadata”

Berry schreef:

8 september 2009 om 11:09

Een erg interessant project in dit op zicht is FluidDB. In de volgende blog beschrijft Terry Jones, de bedenker van FluidDB, zijn argumenten om geen onderscheid te maken tussen data en metadata: http://blogs.fluidinfo.com/fluidDB/2009/09/05/metadata-vs-data-a-wholly-artificial-distinction/

Log in om te reageren
Tim schreef:

8 september 2009 om 11:58

Geachte mevrouw Ubert,
Met belangstelling las ik uw artikel waarmee u hier en daar de spijker op de kop slaat. Er is echter nog een ander veld waar het begrip metadata gebruikt wordt. Dat is namelijk waar informatie over informatie wordt vastgelegd. Informatie is dan breder dan data. Ik doel
hier op geavanceerde repository-technologie, waarmee een geheel IT-landschap inzichtelijk en overzichtelijk wordt. Data krijgt betekenis, doordat er een proces (lees programmalogica) op losgelaten wordt. Dat leidt tot informatie. Juist die ‘informatie’ is van belang
voor de gebruiker. Ook kan alleen hij de zin ervan bepalen. Dan zou u alleen nog nieuwsgierig moeten zijn hoe zo’n repository met terugwerkende kracht en dan dwars door verschillende platformen, programmeertalen en netwerk/hierarchische/relationele databases heen
geconstrueerd wordt. Dat is ons werk. Wij doen dat al zo’n 20 jaar. Uiteraard de huidige sophisticated aanpak pas de laatste 5 jaar. Maar toch, het principe werd al vroegtijdig toegepast. Eigenlijk moeten we spreken van een ERP of BPM systeem voor de IT zelf. Met dat verschil, dat wij niet langer dan 2 a 3 weken nodig hebben om het grootste IT-complex in de repository in te laden. Ons systeem heet G4/EAM (Enterprise Application Manager) met daarin de metadata opslag
G4/Repository en G4/Analyzer als user interface. U bent van harte uitgenodigd, liefst met een kritisch studentengezelschap, om een kijkje te komen nemen. We horen graag wanneer dat dit u schikt.

Log in om te reageren
Martin schreef:

8 september 2009 om 19:44

Tanja,

Hehe eindelijk een artikel dat de zin en onzin van metadata terug brengt tot op het niveau waar het bruikbaar is.
Er lopen genoeg fantasten en theoretici rond die denken dat ze met behulp van metadata de volledige functionaliteit van een applicatie + data kunnen beschrijven. Weet je, ik ben jaloers op ze. Ik droom daar elke dag van. Hoe kun je in een paar regels de data beschrijven en tevens de volledige functionaliteit die daar achter zit? Ik vind dat echt waanzinnig knap.
Weet dat je voor elke Functiepunt (FP) van een applicatie 2 pagina?s A4 nodig hebt om dat te beschrijven. Ik teken gelijk voor deze ongelofelijk slimme compressie techniek!
Ik daag iedereen uit om op metadata niveau te beschrijven wat de beschrijving zou zijn van een eenvoudig attribuut zoals pensioenaanspraak. Ik ben benieuwd. Reken er op dat je meer dan honderd pagina?s A4 nodig hebt omdat functioneel te beschrijven.

Advies: Zorg ervoor dat je data per attribuut functioneel beschreven is. Dit is leesbare taal voor de business. Beperk je tot dat. Geef indien van toepassing functionele afhankelijkheden aan. That?s all.

–Martin

PS. Herinnert zich iemand nog het Corporate Data Model? En? Was het een succes?
PSPS. Wantrouw elke toolleverancier op het gebied van metadata. Vraag altijd door. Doe dit minstens drie maal!

Log in om te reageren
Hugo schreef:

9 september 2009 om 10:44

Martin: Uiteraard kost een beschrijving van “pensioenaanspraak” heel veel papier, want dit is ten eerste geen attribuut maar een entiteit (zodat je dus ten mints alle attributen van het entiteit en alle relaties waar het entiteit in voorkomt moet beschrijven; dat loop snel op!) en ten tweede niet eenvoudig (speciaal voor de inkoppers onder de lezers: ja, dit is er eentje uit de categorie “ik begrijp het niet dus het kan niet eenvoudig zijn”).

En dat is precies de metadata uitdaging. Een beschrijving per attribuut kan redelijk kort blijven, maar levert een versnipperd beeld op omdat de samenhang tussen de attributen ontbreekt. Een beschrijving per entiteit is lasting omdat een entiteit alleen te beschrijven is als de optelsom van de beschrijvingen van alle attributen. En het allerlastigste is dat de business niet denkt in attributen, entiteiten en relaties, zodat een beschrijving die gebaseerd is op deze elementen nooit 100% kan aansluiten op het mentale model van de business.

Log in om te reageren
Paul schreef:

10 september 2009 om 10:35

Begrip is een lastig ding, want altijd afhankelijk van de overlap tussen de context van de schrijver en de lezer. Die context is vaak noodzakelijkerwijs impliciet, juist vanwege de beperking dat niet alles expliciet te maken is.

Het toepassen van meta-data is ??n van de vele hulpmiddelen om die context expliciet te maken, maar kent z’n natuurlijke beperking in de rijkwijdte ervan, zoals ook al in het artikel wordt aangegeven. Het gaat me echter wat ver om te stellen dat het begrip niet goed wordt overgebracht (“de meta-data is niet nuttig”) omdat de meta-data niet voldoende aanwezig is. Ik denk dat het begrip wat wordt gezocht (“hoe wordt de data gebruikt in de business, wat is de betekenis ervan, wat is de life-cycle”) niet gevangen kan worden op het lage abstractie-niveau van de data en de daaraan gekoppelde meta-data zelf. Het is niet voor niets dat architecturen gelaagd zijn, dat modellen gekoppeld zijn, dat er meerdere perspectieven op dezelfde artefacten bestaan. Dit is allemaal nodig om de juiste context af te dwingen opdat een klein stukje informatie daadwerkelijk leidt tot een gezamenlijk begrip. En het proces om dat tot stand te brengen is lastig, heel lastig, en daar worstelt de IT al jarenlang mee. Soms lukt het, en ontstaat er een architectuur die de juiste dingen op zodanige manier heeft kunnen modelleren dat er daadwerkelijk begrip wordt overgebracht.

Meta-data heeft hierin zijn eigen onmisbare plek, maar het is slechts ??n stukje van de zeer complexe puzzel. Dat puzzelstukje moet natuurlijk goed worden ingezet maar dan wel binnen de natuurlijke beperkingen ervan. Het overbrengen van het begrip van doel en betekenis van een stukje data alleen afhankelijk maken van meta-data, lijkt me een te grote verantwoordelijkheid voor dit puzzelstukje.

Log in om te reageren
rsj schreef:

12 september 2009 om 11:52

Metadata hebben meerdere functies. Ze zijn te gebruiken voor identificatie, interpretatie, zoeken en vinden, bepalen van de mate van beschikbaarheid van informatie (rechten en openbaarheid), (re)presentatie en het waarborgen voor betrouwbaarheid en authenticiteit van informatie. Deze functies bepalen wat je vastlegt en waar je het vastlegt.

De reikwijdte van het begrip gaat daarom verder dan alleen datadictionaries en eigenschappen van documenten.

Er is inderdaad veel over nagedacht, onderzocht en geschreven. Concrete resultaten daarvan zijn ook al beschikbaar. Zo is de NEN-ISO 23081 een voorbeeld van een norm die het nut en de noodzaak van metadata een goede basis geeft. Deze norm hoort trouwens thuis in het rijtje van NEN-ISO 15489 en NEN 2082. Een ander voorbeeld is Moreq2. Verder zijn er natuurlijk sets beschikbaar zoals de Dublin Core Metadata Element Set (ISO 15836) en de Overheid.nl Web Metadata Standaard (OWMS).

Log in om te reageren
Erik Leene schreef:

21 september 2009 om 19:39

Tanja, duidelijk verhaal. Ik deel je mening. Veel vaker is de uitdaging business wise. ICT krijgt vaak de opdracht het te regelen en gaat dan al snel op zoek naar een tool voor het beheer van de metadata. Het probleem is veel meer een organisatie probleem. Wie is eigenaar en voelt zich verantwoordelijk. En wie beheert ? Vooral dat laatste is een uitdaging en heb ik nog niet succesvol zien toegepast op een redelijk grote schaal.

Log in om te reageren
Annette Lijdsman schreef:

24 september 2009 om 09:10

Metadata aan het werk: pas op het moment waarop ik als projectleider van http://www.Inspectieloket.nl doorkreeg wat je met metadata kunt DOEN werd ik enthousiast. Op inspectieloket gebruiken we de metadata om automatisch de nieuwsberichten van rijksinspecties te genereren. Maar dat is slechts een begin. Wie kan mij nog andere voorbeelden aanreiken van bijvoorbeeld gemeenten, provincies of rijksoverheid?

Log in om te reageren