Door: Willem ter Berg
Binnenkort zal het nieuwe DCAT 1.1 profiel voor data.overheid.nl in gebruik genomen worden. Dit nieuwe DCAT profiel is door Textinfo ontwikkeld voor het Kennis- en Exploitatiecentrum Officiële Overheidspublicaties (KOOP). Het introduceert onder andere het gebruik van zogenaamde controlled vocabularies en is vooral gericht op het verhogen van de kwaliteit van de metadata van open data; voorheen werd er vooral gestuurd op het zoveel mogelijk binnenhalen van datasets.
Wat is DCAT?
DCAT is een metadatastandaard ontwikkeld door het W3C. Het W3C beschrijft het zelf als “DCAT is an RDF vocabulary designed to facilitate interoperability between data catalogs published on the Web”. Belangrijk hierbij is dat het puur gaat over de metadata van een dataset, en niet de data zelf. DCAT maakt het mogelijk om als open data catalogus datasets op een gestandaardiseerde wijze uit te wisselen met andere open data catalogi.
DCAT maakt het ook mogelijk om de DCAT standaard uit te breiden in de vorm van ‘Application profiles’. Hiermee is het mogelijk om te voldoen aan specifieke wensen en eisen van individuele open data catalogi. Het Europese dataportaal maakt gebruik van zo’n aangepaste vorm van de DCAT standaard. Het DCAT profiel dat gebruikt wordt op data.overheid.nl is gebaseerd op die van het Europese dataportaal.
Nieuw DCAT profiel, waarom?
De vraag voor een nieuw DCAT profiel voor data.overheid.nl komt voort uit twee belangen. Namelijk de doorontwikkeling van het Europese DCAT profiel in de vorm van DCAT-AP 1.1 en de ervaringen die zijn opgedaan uit het gebruik van het huidige DCAT profiel op data.overheid.nl.
Een van de belangrijkste elementen van het data.overheid.nl project is de samenwerking met het Europese dataportaal. Data.overheid.nl wil namelijk dat haar datasets ook gepubliceerd worden op dit Europese dataportaal. Dit is onder andere gerealiseerd door het DCAT profiel van data.overheid.nl te baseren op het DCAT profiel van Europa.
Daarnaast is er door het gebruik van het huidige DCAT profiel duidelijk geworden dat de kwaliteit van de metadata vergroot kan worden door op enkele plekken net iets strenger te zijn met de validatie van de metadata. Er heeft namelijk, doordat de validatie vrij laks ingesteld was, veel datavervuiling plaatsgevonden. Je kan je voorstellen dat er zonder enige validatie zo’n twintig verschillende spellingvormen binnenkomen van ‘Gemeente Nijmegen’, Gem. Nijmegen, Nijmegen, Nijmegen (Gemeente). Dit bevordert de vindbaarheid en presentatie van een dataset natuurlijk niet.
De oplossing: DCAT-AP-DONL 1.1!
De opdracht voor Textinfo was duidelijk. Zorg ervoor dat het DCAT profiel van data.overheid.nl conform het DCAT profiel 1.1 van Europa wordt. Daarnaast moet de validatie van metadata zo streng mogelijk zijn, maar natuurlijk niet te streng.
Veel van de datavervuiling problemen hebben we opgelost door gebruik te maken van controlled vocabularies bij het valideren van de properties. Dit betekent inhoudelijk dat je niet langer de keuze hebt om zelf een waarde te bedenken voor een property, maar dat je keuze moet komen uit een, door de KOOP vastgestelde, lijst met acceptabele waarden. Deze ‘waardelijsten’ zoals we deze noemen bestaan voornamelijk uit het vocabulair zoals de Nederlandse overheid deze heeft vastgesteld in het OWMS 4.0. Door gebruik te maken van de OWMS URIs en andere internationale URIs (zoals bijvoorbeeld voor IANA Mediatypes) maken we de metadata van de datasets een stuk interessanter voor linked data applicaties. Een compleet overzicht van al deze waardelijsten is online te vinden op waardelijsten.dcat-ap-donl.nl.
Omdat het hier gaat over open data is het natuurlijk logisch dat het publiekelijk beschikbaar komt. Onze implementatie van het DCAT-AP-DONL profiel in een CKAN plug-in is dus online beschikbaar gesteld en kan door iedereen vrij gebruikt worden in andere dataportalen.
Meer weten over DCAT-AP-DONL?
Alle informatie over het nieuwe DCAT profiel voor data.overheid.nl is online te raadplegen via dcat-ap-donl.readthedocs.io. Hier vind je ook informatie over hoe je het DCAT-AP-DONL profiel kan implementeren in de CKAN omgeving van je eigen organisatie!
Aanvullende vragen kunnen uiteraard gesteld worden via info@textinfo.nl
Tot slot
Met het nieuwe DCAT profiel voor data.overheid.nl zijn er flinke stappen genomen om de effectieve waarde van datasets binnen het data.overheid.nl dataportaal te vergroten. Door strenger te valideren en waardes te standaardiseren zal het voor hergebruikers van open data makkelijker zijn om met de metadata van datasets op data.overheid.nl om te gaan.
De komende maanden zal dit nieuwe DCAT profiel flink getest worden. De datasets op data.overheid.nl moeten namelijk allemaal geconverteerd worden zodat deze conform het nieuwe profiel in elkaar zitten. Ook zullen alle aanbieders van open data hun datasets in het nieuwe formaat moeten gaan aanleveren.
Uit al deze toetsingen van het profiel zullen er ongetwijfeld aandachtspunten naar boven komen die we willen uitwerken voordat het DCAT profiel landelijk uitgerold gaat worden. Hierover en over de algemene ervaringen van het gebruik van het nieuwe DCAT 1.1 profiel later meer.