Gastblog: Internationale conferentie Web Archiving in Jeruzalem

Op 29 en 30 april 2018 vond de internationale conferentie Web Archiving: Best Practices for Digital Cultural Heritage plaats. Een verslag van Anne Helmond, assistent-professor New Media and Digital Culture aan de Universiteit van Amsterdam.

De conferentie werd georganiseerd door The National Library of Israel en het Open Media and Information Lab (OMILab) van de Open University of Israel, onder leiding van Dr. Anat Ben-David. De uitgenodigde sprekers waren onderzoekers en mensen uit de praktijk op het gebied van webarchivering en webhistorisch onderzoek. De tweedaagse conferentie bestond uit diverse panels over de institutionele, culturele en methodologische aspecten van webarchivering en webhistorisch onderzoek.

 

De transformatie van gearchiveerd webmateriaal

In zijn keynote adresseerde Niels Brügger (Aarhus University), toonaangevend onderzoeker op het gebied van webarchivering, de verschillende vormen van digitaal materiaal:

  • Gedigitaliseerd materiaal heeft niet eerder in digitale vorm bestaan en is getransformeerd om digitaal te worden (bijvoorbeeld gedigitaliseerde foto’s en boeken);
  • Digitaal geboren materiaal heeft niet eerder in een andere vorm bestaan dan digitaal (bijvoorbeeld webpagina’s);
  • Opnieuw geboren digitaal materiaal is digitaal geboren materiaal dat verzameld en bewaard is, maar dat tijdens deze processen zodanig veranderd is dat het niet meer identiek is aan het digitaal geboren materiaal.

Hij maakt dit onderscheid om na te denken over wat er gebeurd tussen het proces van archiveren en het doen van onderzoek met behulp van het gearchiveerde materiaal. Hij onderscheidt hierin verschillende fasen die elkaar opvolgen: 1) Online web, 2) Verzamelen, 3) Bewaren, 4) Beschikbaar maken 5) Gebruik door onderzoekers. Tijdens elke fase worden er bepaalde beslissingen gemaakt die het gearchiveerde materiaal bewust of onbewust transformeren. Een belangrijk aspect is bijvoorbeeld dat een gearchiveerde webpagina kan bestaan uit verschillende snapshots die op verschillende momenten genomen zijn, of dat het crawlen van een webpagina zo lang duurt dat er ondertussen al delen van de pagina veranderd zijn. Gearchiveerde webpagina’s zijn daarom niet een kopie, maar een nieuwe unieke versie en geen enkele ‘kopie’ is dus gelijk aan het origineel.

Niels Brügger pleit daarom voor wat hij noemt een ‘philology’ van het gearchiveerde web. Hierbij moeten we nadenken over:

  1. Het vergelijken van verschillende versies van dezelfde gearchiveerde webpagina’s.
  2. Het creëren van een toolbox voor het analyseren van gearchiveerde materiaal.
  3. Het inzichtelijk maken van het proces van archiveren en analyseren. Door deze processen te documenteren, krijgen we beter inzicht in welke keuzes er gemaakt worden. Hiermee kunnen onderzoekers vervolgens ook goede geïnformeerde keuzes maken als onderdeel van hum methodologie.

Het boek van Niels Brügger ‘The Archived Web: Doing History in the Digital Age’ komt later dit jaar uit bij MIT Press en de introductie is alvast online te lezen.

Anat Ben-David, Open University of Israel. Foto: Anne Helmond.
Niels Brügger, Aarhus University. Foto: Anne Helmond.

Webarchivering in de praktijk

In de eerste sessie spraken enkele mensen uit de praktijk van webarchivering. Claude Mussou (INA – Institut national de l’audiovisuel, FR) sprak over de praktijken bij INA in Frankrijk, waar ze te maken hebben met mediaconvergentie en nieuwe vormen van televisie zoals TV 2.0. Aan de ene kant is dit een economische en technologische verschuiving van audiovisuele producenten die cross-media producties zijn gaan maken en nieuwe webformat series bedenken. Aan de andere kant betekent dit ook een verandering in gebruik en sociale praktijken met de opkomst van zogenaamde sociale televisie en het gebruik van tweede schermen, waarbij Twitter-hashtags gebruikt worden om over een programma te praten. INA heeft daarom haar archiveringspraktijken aangepast aan het veranderende web en archiveert bijvoorbeeld nu ook de Twitterconversaties rondom televisieprogramma’s.

Daniel Gomez van het Portugese archief Arquivo.pt is al sinds 2007 actief in webarchivering. Hij beschrijft de ontwikkeling van hun project en hoe ze zich ook aanpassen aan veranderingen. Zo begonnen ze ook de mobiele versies van webpagina’s te archiveren nadat bleek dat 37% van hun bezoekers het archief via mobiel benaderde. Daarnaast crowdsourcen ze ook bepaalde delen van hun selectie via zogenaamde ‘collaborative crawls’ waarbij ze gebruikers oproepen crawl-startpunten aan te leveren via Google Sheets.

Sally Chambers (Universiteit Gent) sprak over het vooronderzoek voor het archiveren van het Belgische web. Ze zoeken nog deelnemers voor hun enquete over de eisen en behoeften van (potentiële) gebruikers van webarchieven.

 

Culturele perspectieven

In de tweede sessie sprak Megan Sapnar Ankerson (University of Michigan) over de rol van metaforen in nieuwe media. Ze onderzoekt hoe metaforen van tijdreizen, tijdcapsules en tijdmachines worden verwerkt in de ontwerpparadigma’s van moderne digitale archieven: in gegevensopslagapparaten (bv. Apple’ s TimeMachine), persoonlijke media-archieven, geheugen- en nostalgie-apps (bv. Fabric, The Augmented Memory App) en zoekmachines en sociale media. Zo heeft Facebook ook een ‘On This Day’ functie, waarbij de gebruiker herinneringen terug te zien krijgt. Deze herinneringen worden echter mede gecreëerd door vrienden op Facebook, die foto’s en statusupdates liken en delen en hiermee het algoritme helpen om een herinnering tot stand brengen en een archief van herinneringen te creëren.

Michael Stevenson (Universiteit van Amsterdam) presenteerde een casestudie over de Everything Development Engine (1999-2003), één van de eerste open source webframeworks voor het bouwen van websites. Hij interviewde hiervoor de makers van de software alsmede de gebruikers die een community tot stand brachten die gezamenlijk de software onderhielden. Stevenson pleitte voor het preserveren van de productie van het vroege web en om niet alleen oog te hebben voor het bewaren van content, zoals websites, maar ook de manier waarop die tot stand kwamen. Hiervoor werkt hij op dit moment aan een documentaire die de geest van vroege webontwikkeling weergeeft.

Tenslotte had Kevin Driscoll (University of Virginia) het over de zogenaamde ‘morele economie’ van vroege shareware op oude Bulletin Boardsystemen (BBS). Hij ziet BBS als kleine archieven op zichzelf, omdat ze een ecologie van files beschikbaar maakten. Mensen kwamen voor de files op BBS, maar werden onderdeel van een gemeenschap. De deeleconomie van shareware was niet anti-commercieel, maar een nieuw verdienmodel, waarbij gebruikers op hun plichtsbesef werden aangesproken om te betalen als de software beviel. Hij toonde hoe de licentiedocumenten van shareware een beroep deden op ethiek en de zogenaamde “erecode” van de BBS-gemeenschap. Hiermee werd een morele economie gecreëerd die diende als een alternatief economisch model van het web.

 

De 7000 crawls van de Wayback Machine

Mark Graham, de directeur van de Wayback Machine van het Internet Archive, gaf een introductie tot alle archiefdiensten die het Internet Archief heeft. De Wayback machine archiveert op dit moment 1,5 miljard URLs per week, gebaseerd op 7000 crawls die als startpunt dienen voor de crawler. Deze 7000 crawls bestaan uit de volgende bronnen: Wide crawls, Twitter, Archive Team, Survey Crawls, TLD Crawls, Alexa Internet, Domain Crawls, 300+ Wikipedia Sites, 3rd parties, Save Page Now, WordPress, Amber, Perma.cc, Custom Crawls, YouTube, LinkArchiver, 600+ Archive-It, Top News, Top Sites en News Grabber.

Kevin Driscoll, University of Virginia. Foto: Anne Helmond.
Mark Graham, Internet Archive. Foto: Anne Helmond.

De verandering van het web: nieuwe methoden voor web historisch onderzoek


Op de tweede dag sprak Anne Helmond (Universiteit van Amsterdam) over het veranderende web, waarbij er een verschuiving plaatsvindt van websites naar platforms en vervolgens naar apps en dat deze nieuwe digitaal geboren objecten nieuwe vormen van archivering en nieuwe methoden voor hun geschiedschrijving vereisen.

Anat Ben-David presenteerde verschillende computationele methoden voor het gebruik van web archieven voor web historisch onderzoek. Ze benadrukte hierbij dat klassieke computationele methoden zich niet altijd lenen voor materiaal uit webarchieven, omdat gearchiveerde content eigen unieke karakteristieken heeft. Quentin Lobbe (Telecom Paris Tech) presenteerde een nieuwe methodologie gebaseerd op webfragmenten, in plaats van webpagina’s, om nieuwe vormen van webanalyse met webarchieven mogelijk te maken.

De conferentie werd afgesloten met een bespreking van de verschillende perspectieven op webarchieven en hun gebruik, zowel vanuit de kant van onderzoekers als instituties, om zo ook tot een eerste aanzet voor een Israëlisch webarchief te komen.

 

-

Dit werk maakt deel uit van het onderzoeksprogramma Innovational Research Incentives Scheme Veni met projectnummer 275-45-009 dat (mede)gefinancierd is door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).

Thema's
Deel dit artikel