Cookies op DEN.nl
den.nl maakt gebruik van cookies voor het anoniem meten van het website bezoek en het vergroten van het gebruiksgemak. Door op 'ga verder' te klikken, geef je toestemming voor het gebruik van deze cookies.

Wie bewaart het internet? Verslag conferentie 404 over webarchivering en born digital bronnen in Boedapest

8 december 2017 - Kees Teszelszky




Kees Teszelszky is onderzoeker webarchivering bij de Koninklijke Bibliotheek. In oktober bezocht hij de conferentie '404- wie bewaart het internet' in Hongarije en gaf daar een lezing. Voor DEN blogt hij over de conferentie en over (internationale) webarchivering.

"Op vrijdag 13 oktober gaf ik een lezing over webarchivering in Nederland en België op een conferentie in de Nationale Bibliotheek van Hongarije te Boedapest. De Hongaarstalige conferentie met de inspirerende titel:“404 – Wie bewaart het internet?” was georganiseerd door het projectteam webarchivering van deze bibliotheek en werd bezocht door ongeveer honderd  mensen, waaronder bibliothecarissen, wetenschappers en journalisten.


Kees Teszelszky

Pilotproject webarchivering

Het pilotproject webarchivering in Hongarije is in april 2017 begonnen en zal duren tot december 2018. Het doen van wetenschappelijk onderzoek naar de collectie en collectievorming is een belangrijke taak van de Hongaarse nationale bibliotheek: de afdeling onderzoek telt 65 medewerkers verspreid over de hele organisatie. Ze houden zich bezig met uiteenlopende zaken: van boekgeschiedenis tot big data. Deze brug naar de wetenschap komt ook tot uiting in de website en de wiki van het project met documentatie van andere webarchieven en publicaties van wetenschappers.

Het doel van webarchivering in Hongarije is de opbouw van een nationale webcollectie. Hongarije heeft een wettelijk depot wat betreft digitale publicaties, net als alle andere landen in de wereld behalve Nederland en Zwitserland. Volgend jaar wordt daarom een domain harvest van het nationale domein gedaan. Nu worden al selectieve oogsten uitgevoerd van specifieke websites van cultuurhistorisch belang. Dit tweesporenbeleid is vergelijkbaar met dat van de British Library en de Bibliothèque Nationale de France.

Netwerk van webarchiveerders

Een ander verschil met Nederland is de training van experts in webarchivering werkzaam in de Hongaarse GLAM-sector. Hiermee bouwt de bibliotheek een nationaal netwerk van webarchiveerders op die websites kunnen aandragen en invoeren in een nationaal webarchiveringssysteem. Dit lijkt op het Franse en Zwitserse beleid: de bibliotheek is de virtuele poort van en naar het nationale erfgoed.
Het doel is dat de nationale bibliotheek op termijn gebruik kan maken van het bestaande landelijk netwerk van lokale en thematische erfgoedkennis. Het team coördineert dan de landelijke preservering en beschikbaarstelling en kan zich concentreren op nationale taken, zoals onderzoek naar het nationale webdomein, selectiebeleid, ontwikkeling van techniek, juridische aspecten, kwaliteitscontrole en beschikbaarstelling.
Miklós Péternak, directeur van het Hongaarse mediamuseum, sprak over het bewaren van webkunst. Hackers, kunstenaars en technici waren de dominante scheppers van de digitale wereld. Omdat Nederland een pioniersrol vervulde op het web, liet hij ook aantal Nederlandse digitale kunstenaars zien.


Ingang Nationale Bibliotheek Hongarije Foto: Kees Teszelszky

Archivering van academische websites

Wetenschapper-webarchivist György Kampis vertelde over de webarchiveringspilot die hij had uitgevoerd in 2013. Het doel was academische websites te bewaren. Met eenvoudige middelen en beperkte data toonde hij verhelderende visualisaties van de webcollectie. Deze zijn van nut bij het aanscherpen van de selectiecriteria en het instellen van de webarchiveringssoftware.
Een voorbeeld was het overzicht van de grootte van de gearchiveerde websites: de sites van universiteiten bevatten significant veel meer data dan die van andere instellingen. Bij nadere bestudering van de inhoud van de site bleek dat dit kwam omdat veel wetenschappers (met name medici) gekopieerde cd-roms, ingescande publicaties en andere grote bestanden op de sites hadden gezet in verborgen mappen. Enerzijds werd zo duidelijk welke bestandsformaten buiten de harvest dienden te worden gehouden om de omvang van de crawl beperkt te houden. Anderzijds geeft deze inhoudsanalyse een blik op de schaduwzijde van het academische leven in een arm land: wetenschap bestaat voor een groot deel uit ruilhandel van digitale data, omdat noch onderzoekers, noch bibliotheken geld hebben voor kostbare licenties.


Overzicht van grootte van universiteits- en hogeschoolwebsites


Vervolgens bleek uit de sites van onderzoeksinstellingen dat er een enorm verschil is in hoeveelheid data die per site wordt aangeboden. Deze verdeling zegt iets over de digitale presentatie van een instelling: hoe groter de site, des te prominenter de aanwezigheid op het web. Ook hier is een les uit te trekken: befaamde en eerbiedwaardige instellingen rusten op hun analoge academische lauweren, de medewerkers publiceren in bekende wetenschappelijke tijdschriften en zijn nauwelijks aanwezig op het web (bijvoorbeeld het juridische onderzoeksinstituut, het lettereninstituut en het archeologie-instituut). Juist de jongere instellingen, zoals het sociologisch instituut en minder bekende of nieuwe universiteiten timmeren hard aan de digitale snelweg. Deze strategie heeft ook op termijn invloed op de impactcijfers van de wetenschappers van deze instellingen. Een webarchief is dus niet alleen interessant voor toekomstig onderzoek, maar kan ook nu belangrijke informatie geven.


Overzicht van grootte van onderzoeksinstellingen-websites

Het webarchief waar je voor betaalt

Kampis eindigde zijn verhaal met de waarschuwing dat je het webarchief krijgt waar je voor betaalt. Die boodschap is ter harte genomen in de bibliotheek aldaar: het team bestaat uit vijf voltijds medewerkers en een systeembeheerder (de Koninklijke Bibliotheek heeft er twee, de British Library acht).
Projectleider László Drótos vertelde vervolgens over de plannen voor de komende twee jaar. Drótos was een van de twee grondleggers van de Hongaarse nationale digitale bibliotheek in 1994 en kreeg al in 2008 tijdens het eFestival de levenswerkprijs. De overige medewerkers zijn wetenschappers die de overstap naar digitaal hebben gemaakt.


Team webarchivering van de Nationale Bibliotheek van Hongarije


Het team werkt aan de implementatie van nieuwe ontwikkelingen als de Memento-technologie van Herbert van de Sompel. Ook gebruiken ze Heritrix, Open Wayback en de Web Curator Tool. Ook maken ze in sommige gevallen gebruik van alternatieve software als HTTrack, WAIL, Webrecorder.io, Webrecorder Player, WARCreate en GrabThemAll om een site te bewaren die niet op een andere manier is te oogsten. Ze willen graag in contact komen met geïnteresseerden via: mia@mek.oszk.hu



Poort van de Nationale Bibliotheek Hongarije
3 plus 6 is:*
(anti-spam)

Reacties (0)

Er zijn nog geen reacties geplaatst.