Cookies op DEN.nl
den.nl maakt gebruik van cookies voor het anoniem meten van het website bezoek en het vergroten van het gebruiksgemak. Door op 'ga verder' te klikken, geef je toestemming voor het gebruik van deze cookies.

Gastblog NDE Bruikbaar - Webarchieven beschrijven op basis van gedeelde thesauri

21 maart 2016
In dit gastblog, geschreven in het kader van het werkpakket Bruikbaar van het Netwerk Digitaal Erfgoed, geeft Lotte Belice Baltussen een toelichting op een van de projecten die voor het werkpakket wordt uitgevoerd. Lotte is projectleider van een pilot waarbij de thesaurus van Beeld en Geluid wordt ingezet om het webarchief van het RHC Groninger Archieven te annoteren en schrijft over de achtergrond van het project en de huidige stand van zaken.

Webarchivering in Nederland


Steeds meer archieven, bibliotheken en andere (erfgoed)instellingen houden zich bezig met het archiveren van websites, voor ze veranderen of zelfs helemaal verdwijnen. Zo archiveert de Koninklijke Bibliotheek websites vanuit de opdracht Nederlandse publicaties te verzamelen en richt Beeld en Geluid zich op websites met betrekking tot het Nederlandse av-domein. De Rijksoverheden dragen zorg voor het archiveren van hun websites in het kader van de Archiefwet. En zo zijn er nog veel meer partijen die vanuit diverse perspectieven delen van het Nederlandse web ‘crawlen’. Van dit brede landschap wordt momenteel een inventarisatie gemaakt binnen het werkpakket Houdbaar van het Netwerk Digitaal Erfgoed.

In Nederland hebben instellingen met webarchieven nog relatief weinig ervaring met het opnemen van deze ‘nieuwe’ collecties in hun systemen. Vaak staat een webarchief -- zowel de assets als de metadata -- zelfs volledig buiten deze systemen, bijvoorbeeld bij de leveranciers die de crawls uitvoeren. Het is dus noodzakelijk dat er generieke workflows en mogelijkheden in kaart worden gebracht voor het opslaan en ontsluiten van webarchieven, zowel voor de archiverende instellingen als hun eindgebruikers.

De case: webarchief RHC Groninger Archieven


Om de mogelijkheden van het in archiefsystemen metadateren van webarchieven te exploreren wordt er binnen het werkpakket Bruikbaar van het Netwerk Digitaal Erfgoed een concrete case uitgevoerd. Te weten: het webarchief van het RHC Groninger Archieven, dat momenteel rond de 100 websites bevat die een dwarsdoorsnede geven van het dagelijks leven en werk van Groningers. Dit archief staat nu nog volledig los van MAIS-Flexis, het collectiebeheerssysteem van Groninger Archieven.


Afbeelding: Een door Groninger Archieven gearchiveerde versie van Schokkend Groningen, de website van de gelijknamige actiegroep die zich richt op het in kaart brengen van gaswinnings- en aardbevingsproblematiek.

Zelfs voor een nog relatief klein webarchief zoals dat van Groninger Archieven is het voor eindgebruikers lastig om een goed inzicht te krijgen in de grootte en breedte van het archief, aangezien deze al gauw uit honderduizenden verschillende elementen en pagina’s bestaat. Hierdoor ontstond de wens van het inzetten van een thesaurus die het mogelijk maakt te zoeken en browsen op categorieën, rubrieken of trefwoorden. Hierbij is de keuze gevallen op de Onderwerps-as van de GTAA, de thesaurus van Beeld en Geluid. Hoewel de onderwerpen in deze as (meer dan 4.000 in totaal) zijn ontwikkeld om audiovisueel materiaal te annoteren, bleken zij zowel breed als specifiek genoeg te zijn om ook het Groningse webarchief te dekken. Daarbij is de GTAA beschikbaar onder een open licentie, wordt deze onderhouden door de NDE netwerkpartners Beeld en Geluid en Nationaal Archief en kan er gebruik worden gemaakt van de open source OpenSKOS-architectuur, waarbinnen de GTAA wordt onderhouden en beschikbaar wordt gemaakt.

Voordat deze onderwerpen kunnen landen in het systeem van Groninger Archieven moeten er echter eerst aanpassingen worden gedaan aan MAIS-Flexis. Ten eerste moet er een aparte instantie met zijn eigen metadatamodel worden ontwikkeld om webarchief records te kunnen beschrijven (een zogeheten Archiefeenheidssoort) en vervolgens moet de Onderwerps-as van de GTAA hierbinnen gebruikt kunnen worden.


Afbeelding: De redactie-omgeving van de GTAA, met informatie over de term "aardbevingen"

Stand van zaken: metadatamodel en GTAA-incorporatie


Er is een eerste opzet gemaakt voor het metadatamodel, gebaseerd op MODS-lite. Dit is een standaard voor het beschrijven van webarchieven van de Library of Congress. Het is een flexibel en schaalbaar formaat. Bovendien is MODS-lite goed gedocumenteerd en te mappen naar andere standaarden, mocht dit in de toekomst nodig zijn. De opzet voor het model is recentelijk gedeeld met de klankbordgroep van het project, waarin Stadsarchief Rotterdam, het Utrechts Archief, de Koninklijke Bibliotheek, het Nationaal Archief (en daarmee ook Archief2020) en Beeld en Geluid zitting nemen. Na de input van de klankbordgroep kan er verder worden gegaan met het incorporeren van de Archiefeenheidssoort in MAIS-Flexis.

Daarnaast zijn er de afgelopen maanden gesprekken gevoerd met onder meer experts van Beeld en Geluid, Picturae en De Ree over de beste manier om de Onderwerps-as van de GTAA in MAIS-Flexis in te bouwen. Hiervoor zijn meerdere mogelijkheden: van het inzetten van periodieke ‘dumps’ van de Onderwerps-as in bestaande functionaliteiten van MAIS-Flexis (lijsten, thesauri) tot het incorporeren van de OpenSKOS API, waardoor direct de ‘live’ data kan worden aangesproken. Iedere optie kent zo zijn haken en ogen, die momenteel in kaart worden gebracht en uitgewerkt.

De toekomstvisie: algemene aanbevelingen en een gedeeld referentienetwerk


Het uiteindelijke doel van het project is niet alleen tot een succesvolle incorporatie van het webarchief van Groninger Archieven in MAIS-Flexis te komen. Het moet leiden tot resultaten en aanbevelingen die van belang zijn voor de Netwerk Digitaal Erfgoed en in zijn algemeenheid voor Nederlandse partijen die actief zijn op het gebied van webarchivering.

Daarnaast kunnen de uitkomsten van het onderzoek en pilot ook voor andersoortige collecties van belang kunnen zijn. Het Netwerk Digitaal Erfgoed beoogt een gedeeld referentienetwerk voor de Nederlandse ergoedsector, onder meer door het inzetten van nationaal gebruikte en open herbruikbare thesauri. De GTAA is slechts één van deze schakels. Via diensten als CultuurLINK worden termen van meerdere van dergelijke thesauri naar elkaar ‘gemapt’, waardoor ze direct onderdeel worden van de nationale digitale erfgoedinfrastructuur. Zo wordt de basis gelegd voor het gemakkelijker en uniformer verbinden van de Nederlandse digitale collecties. Door binnen dit project op kleine schaal de grotere vraagstukken te exploreren en concretiseren hopen we aan deze toekomstvisie bij te dragen. We zullen de voortgang dan ook de komende weken en maanden blijven delen.

Mocht je vragen hebben over het project, neem dan contact op met projectleider Lotte Belice Baltussen, lotte[at]lottebelice[punt]nl.
10 plus 6 is:*
(anti-spam)

Reacties (0)

Er zijn nog geen reacties geplaatst.