Direct naar de inhoud Direct naar het menu Direct naar de zoekfunctie Direct naar de footer

AI & Archieven

Wat is de invloed van artificiële intelligentie (AI) op archieven? Dit bespraken we tijdens de sessie AI& archieven op 17 december 2020. DEN organiseerde deze sessie samen met Kennisnetwerk Informatie en Archief (KIA) in het kader van de serie AI&. Het woord ‘revolutie’ viel meerdere keren en zoals de presentaties van drie experts lieten zien, kunnen we daar zeker van spreken.

AI in het Noord-Hollands Archief

Nico Vriend is coördinator publieksprojecten bij het Noord-Hollands Archief. Hij houdt zich onder andere bezig met het op nieuwe wijze toegankelijk maken van archieven en collecties. AI is een belangrijk thema voor archief en erfgoed, zegt Nico, er is een archiefrevolutie gaande, ook bij het Noord-Hollands Archief. In deze presentatie vertelt Nico over het project Fotografisch Geheugen. Hierin worden 2 miljoen beelden van Fotopersbureau De Boer doorzoekbaar gemaakt door de inzet van crowdsourcing en beeldherkenningstechnieken. Nico houdt zich al enige jaren bezig met de bijzondere collectie van dit fotopersbureau.

In het fotoarchief van De Boer zitten foto’s van regionaal, nationaal en internationaal belang van de periode 1945-2004. Van lokale gebeurtenissen in de regio Kennemerland, tot een winnende World Press Photo. Daarbij is er een zeer goede administratie gevoerd door de fotografen destijds, waardoor dit archief zich goed leent voor digitalisering. Deze collectie moet in 2022 geheel online zijn ontsloten, om de doorzoekbaarheid te vergroten wordt daarbij gebruik gemaakt van AI.

Om te beginnen moesten de 2 miljoen foto’s gedigitaliseerd worden. Dat gebeurt met een efficiënt scansysteem, automatisch aangestuurd door een computer, dat het hele archief binnen een half jaar scant. Ook wordt een computer getraind om de gescande foto’s vervolgens automatisch bij te snijden.

Scansysteem. Bron: Noord-Hollands Archief

Bron: Noord-Hollands Archief / presentatie Nico Vriend

Daarna worden er nog metadata en beschrijvingen aan iedere foto toegevoegd. Dat gebeurt met behulp van een mix van crowdsourcing en AI. Uit vooronderzoek bleek dat AI nog niet zo goed is in historische beelden. De AI voert ‘scene detection’ uit, dat is het herkennen van de volledige context van een foto en niet alleen losse objecten detecteren. De computer werd getraind met een bestaande dataset van hedendaagse foto’s. Sommige gebeurtenissen, zoals sportwedstrijden, worden daardoor goed herkend omdat die situaties door de tijd niet veel veranderen. Maar bijvoorbeeld ‘ongelukken’ kan de AI minder goed herkennen. Ook lokale culturele dingen, zoals Sinterklaas, moet de computer apart leren omdat veel van de trainingsdataset uit het buitenland komt en dit Nederlandse feest dus niet kent. Het publiek van het crowdsourcingproject helpt met corrigeren en labelen van de foto’s. Op basis van de goede documentatie van De Boer, zal de AI uiteindelijk ook datering aan de foto’s gaan toekennen. Een volgende stap die het archief graag in een toekomstig project wil zetten, is om de foto’s ook te koppelen aan andere bronnen zoals krantenartikelen waarbij een foto is gebruikt.

De getrainde software zal uiteindelijk open voor iedereen ter beschikking worden gesteld. Dit kan bijvoorbeeld helpen met het automatisch dateren van andere 20e eeuwen fotobronnen. Iemand uit het publiek van de sessie vraagt of Nico voorbeelden kent van andere projecten in de wereld, maar die zijn er bijna niet. Dit project kan een goed getrainde AI opleveren, die nuttig is voor andere historische beeldarchieven.

Trainen AI - Bron: presentatie Nico Vriend

Bron: presentatie Nico Vriend

Na Nico’s presentatie stellen de deelnemers aan de sessie nog een aantal vragen:

Hoeveel mensen zijn bij dit project betrokken?

Er werken intern ongeveer acht mensen van het Noord-Hollands Archief parttime aan dit project, inclusief de mensen die de digitalisering begeleiden. Ook krijgt het archief advies van mensen die veel van data-infrastructuur weten. Daarnaast de vele mensen die helpen bij de twee crowdsourcingprojecten voor het labelen van de foto’s en corrigeren van de AI.

Welke software wordt gebruikt voor correctie?

In het project wordt gebruik gemaakt van Tensorflow, met eigen aanpassingen aan deze software. Tensorflow is end-to-end open source platform dat bedoeld is om modellen voor machine learning te trainen. Het trainingsmodel komt waarschijnlijk beschikbaar via Zenodo, een platform van de Europese commissie voor wetenschappelijke publicaties en data.

Gaan jullie herkende entiteiten ook automatisch vertalen?

De eerste dataset werd getraind in het Engels, het trainingsmodel gebruikt dus Engelstalige labels. In het komende crowdsourcingproject voegen we Nederlandse labels toe, maar het archief probeert beide talen gekoppeld te houden, om dubbel werk te voorkomen.

Kun je na het losknippen nog reconstrueren welke foto van welk filmrolletje komt?

De foto’s zijn nu gescand per compleet rolletje en we weten van welk negatiefvel dat afkomt. Ze blijven dus onderdeel van één set.

Op welke manier wordt deze nieuwe informatie en extra metadata toegevoegd aan het bestaande collectiebeheersysteem van het archief?

De data wordt eerst toegevoegd aan de software van het crowdsourcingsplatform VeleHanden, namelijk Memorix van Picturae. We willen die data graag toevoegen aan het collectiebeheersysteem van het archief, MAIS Flexis van De Ree Archiefsystemen, en de data klaar maken voor hergebruik. Over de manier waarop zijn we nog aan het nadenken.

Hebben jullie plannen om dit in te zetten voor beeldherkenning op andere collecties?

Jazeker, we zijn nu bezig met De Boer en dat is super goede data om de AI mee te trainen. De grotere droom is dat dit ‘brein’ ter beschikking wordt gesteld, zodat ook andere erfgoedcollecties in Nederland en de wereld het kunnen gebruiken.

Hoe zit het met copyright en het delen van dit materiaal?

De rechten van fotoarchief De Boer zijn overgedragen aan Noord-Hollands Archief, dus dat levert geen problemen op. Wel doen we een zogenaamde privacy-impact-assessment om te kijken wat er wel en niet mogelijk is om die beelden te publiceren. We streven ernaar om zoveel mogelijk vrij downloadbaar en herbruikbaar online te zetten, dat lijkt vooralsnog goed haalbaar.

En nog twee tips van de deelnemers:

Google Vision is een tool waarmee je makkelijk beeldherkenning kan uitproberen. Ook daar viel echter op dat historische beelden niet goed worden herkend, bijvoorbeeld een logo van Coca Cola uit jaren ’50 kon de AI (nog) niet herkennen.

Een collectie waarop ook AI wordt ingezet is www.collectie.gent

AI in het Nationaal Archief

De tweede spreker is Liesbeth Keijser van het Nationaal Archief (NA). Liesbeth is opgeleid als conserveringsspecialist en begon bij het NA als hoofd van het restauratieatelier. Ze leidde grote conserverings- en digitaliseringsprojecten. Momenteel werkt ze voor de afdeling Digitalisering onder andere aan massadigitalisering. Jaarlijks worden ongeveer 13 miljoen pagina's uit historische archieven gedigitaliseerd. Sinds een aantal jaar werkt ze met een team aan het toegankelijker maken van deze gedigitaliseerde archieven. Op dit moment leidt ze een project waarbij met artificiële intelligentie twee miljoen scans automatisch worden omgezet in machine leesbare tekst.

Er is grote behoefte aan digitalisering in de archiefsector en het NA heeft ook grote ambities daarin. Een belangrijke vraag is hoe dat bijdraagt aan nieuwe manieren van archiefgebruik en nieuw historisch onderzoek. Alleen het scannen van historische bronnen is niet voldoende, omdat mensen tegenwoordig gewend zijn om te zoeken en te vinden op trefwoorden en te kunnen filteren op onderwerpen. Om dat mogelijk te maken, moeten de scans machine leesbaar worden gemaakt en dat gebeurt met behulp van AI.

Het NA werkt onder andere aan het op deze manier ontsluiten van de archieven van de Verenigde Oost-Indische Compagnie (VOC). Met behulp van software die de 17e-, 18e-, en 19e-eeuwse handschriften kan lezen, worden 2 miljoen scan digitaal ontsloten. Het platform dat hiervoor wordt gebruikt is Transkribus. Het is ontwikkeld binnen een Europees project en wordt beheerd door de Universiteit van Innsbruck. Dit geeft de mogelijkheid om de geschiedenis te ontsluiten op een manier die nog nooit is gedaan, ook Liesbeth noemt dit een revolutie voor archiefonderzoek.

De grootste uitdaging bij het machine leesbaar maken van deze bronnen is dat het om heel veel verschillende handschriften gaat. Om de computer te leren om letters binnen al deze duizenden handschriften te herkennen, is begonnen met een random set van 6000 pagina’s aan de computer te leren. Deze pagina’s zijn handmatig door mensen overgetypt, dat is een grote klus, maar het vormt een goede basis voor machine learning en levert uiteindelijk tijdswinst op. Op basis van deze trainingsdata is een model ontwikkeld dat meer dan 90% van de karakters goed herkend.

De bronnen worden gepubliceerd op een projectwebsite waarop alle transcripties doorzoekbaar worden. Het is mogelijk om zoekresultaten per boek te tonen en te filteren op jaartallen. De onderzoeker ziet vervolgens de scan van de originele bron met daarin digitale markeringen van de zoekterm. Ook een digitale transcriptie van de hele tekst staat erbij. Liesbeth staat verstelt van wat de machine kan doen, en dat de computer moeilijke handschriften, die zij zelf nauwelijks kon lezen, wel heeft leren transcriberen.

De website zal ook gebruikt worden voor een verbeterslag op transcripties, door de gebruikers. Sommige fouten worden door de AI vaak gemaakt en kun je automatische laten verbeteren. Ook wordt de AI nog ingezet om bepaalde entiteiten zoals plaatsnamen, persoonsnamen en tijdsindicaties aan te geven.

Net als bij het fotoarchief van het Noord-Hollands Archief, merkt het Nationaal Archief dat AI nog veel moet leren over historische bronnen. Er zijn nog niet veel datasets om de software mee te trainen en daarom zijn vrijwilligers zoals bij crowdsourcingprojecten heel belangrijk.

Liesbeths collega Milo van de Pol vertelt in de derde presentatie van deze middag nog meer over concreet onderzoek aan de hand van de transcripties van de VOC-archieven. Ook ziet Liesbeth allerlei nieuwe mogelijkheden op het gebied van big data, data mining en visualisaties. Ook de deelnemers blijken al geïnspireerd want er ontspint zich een kort gesprek tussen Liesbeth en een deelnemer over de mogelijkheden om augmented reality te ontwikkelen met deze data of ze te koppelen aan andere bronnen zoals landkaarten.

Naast de projectwebsite, staan de transcripties ook op Zenodo en Transkribus, platforms waarmee mensen ook zelf aan de slag kunnen. De projectwebsite zelf wordt zoveel mogelijk open source gedeeld voor herbruikbaarheid.

Ook na deze presentatie zijn er nog vragen van deelnemers:

Is er een link tussen Trankribus en de eigen collectiebeheersystemen?

De modellen staan in Transkribus en de transcripties zelf staan in eigen beheer. Het is allemaal aan elkaar gekoppeld. Maar het wordt niet toegevoegd aan bestaande collectiesystemen van het archief omdat het nog niet goed aansluit op de bestaande infrastructuur.

Wordt er rekening gehouden met andere vormen van hergebruik en wat kan een kleine instelling hier mee doen?

De trainingsdata voor het automatische transcriberen worden als open data aangeboden en zijn ook te exporteren. De projectwebsite is zoveel mogelijk open source. Daarnaast zal er (onder voorbehoud van coronamaatregelen) op 17 mei 2021 een symposium plaatsvinden over de resultaten. De kennis zal verder worden gedeeld op KIA en op de website van het Nationaal Archief.

Transkribus kan door iedereen in beperkte mate worden gebruikt, pas bij uitgebreide toepassingen moet er voor worden betaald. De modellen die het NA getraind heeft kun je ook zelf gebruiken voor ander 17e - , 18e- en 19e -eeuws materiaal door eigen scans te uploaden en dit model erop los te laten.

Nieuw historisch onderzoek dankzij AI

De laatste spreker van deze middag is Milo van de Pol, die ook werkt op de afdeling Digitalisering van het Nationaal Archief. Daar houdt hij zich bezig met het beter toegankelijk maken van gedigitaliseerde archieven, onder andere via metadatering, maar vooral ook via transcriptietechniek.

Milo was benieuwd naar de nieuwe mogelijkheden voor historisch onderzoek die AI brengt. Met behulp van de machine leesbare ontsluiting van de VOC-archieven deed Milo twee kleine onderzoeken die laten zien welke mogelijkheden deze dataset allemaal biedt.

Onderzoek doen in de studiezaal is tijdrovend en bovendien zijn veel stukken erg kwetsbaar. Ook is het onmogelijk voor een mens om duizenden pagina’s archiefmateriaal door te zoeken op bepaalde trefwoorden. Maar de computer kan dat heel goed, dat geeft mogelijkheden voor nieuwe manieren van onderzoek het massaal raadplegen van bronnen.

De slavenopstand op Banda in 1710

Milo onderzocht mogelijke oorzaken van de slavenopstand op het Indonesische eiland Banda in 1710. Met behulp van tekst mining, pythonscript en andere tools zocht hij naar zoektermen in archiefstukken van de tien jaar voor de opstand; woorden als ‘slaaf’, ‘lijfeigene’, ‘dienaar’, ‘schip’, ‘Amsterdam’, ‘gouverneur’ en ‘Batavia’. Hij hoopte dat dit inzichten zou opleveren in zaken waar eerder overheen is gekeken of die het historisch perspectief kunnen veranderen.

Grote opstanden waren nog niet eerder op Banda voorgekomen, omdat het eiland bestond uit meerdere forten en een sterke troepenmacht. Waarom kozen de tot slaaf gemaakten er dan voor om toch in opstand te komen. Er waren nauwelijks bronnen of literatuur hierover bekend. Zou er in de transcripties een aanleiding te vinden zijn?

Een eerste algemene zoektocht met behulp van ‘distant reading’ gaf een overzicht van deze periode. Wat opviel is dat het woord ‘slaven’ opeens veel gebruikt werd in 1703-1705. De woorden ‘wegloper’ en ‘gevluchtene’ komen vaker voor in 1708-09. Wat kan die stijgingen of dalingen verklaren en is het een aanwijzing voor de opstand van 1710?

Frequentie woorden in Banda archieven - Bron: presentatie Milo

Bron: Presentatie Milo van de Pol

Dat onderzocht Milo verder met behulp van close reading van de teksten waarin deze woorden voorkwamen. Zo ontdekte hij dat er een grote pokkenepidemie was aan het begin van het decennium, waardoor de mensen ziek werden en de plantages niet meer konden worden bewerkt. In de bronnen doen bestuurders hun beklag over teruglopende inkomsten, maar er wordt niet gesproken over een humanitaire ramp. Er wordt ook meer melding gemaakt van weglopers, waarschijnlijk tot slaaf gemaakten die de epidemie probeerden te ontvluchten. Vervolgens tonen de bronnen vanaf 1704 een grote inkoopgolf van nieuwe tot slaaf gemaakten, waarschijnlijk om de aantallen weer aan te vullen. Weer een paar jaar later wordt het woord ‘wegloper’ vaker gebruikt. Het lijkt er op dat de slavenbevolking in razend tempo werd aangevuld met nieuwe groepen. Sociale onrust en het loodzware werk om de plantages weer op orde te krijgen kunnen een reden zijn voor de openlijke opstand in 1710. Dankzij tekst mining kon Milo dit kleine onderzoek in enkele weken uitvoeren. Straks is kwantitatief onderzoek voor iedereen mogelijk en Milo is benieuwd welke nieuwe inzichten er nog meer zullen worden opgedaan.

Aardbevingen en vulkaanuitbarstingen in de vroegmoderne tijd

Een tweede onderzoek dat Milo deed was om te zoeken naar aardbevingen en vulkaanuitbarstingen in Indonesië die worden genoemd in de VOC-stukken. Er is tegenwoordig veel informatie over natuurrampen in dit gebied, het geeft inzicht in hoe de natuur zich toen en nu gedroeg en is relevant voor het heden omdat het een link heeft met onderzoek naar klimaatveranderingen.

Met behulp van de tool Astrogrep zocht Milo 1 miljoen archiefstukken door. Hieruit kwamen meer dan 400 verwijzingen naar aardbevingen in Indonesië tussen 1674-1786. Daarin bleken zo’n 175 gebeurtenissen niet eerder beschreven, hoewel er al enorme lijsten waren over historische natuurrampen in dit gebied. Ook kon Milo met behulp van deze tools de frequentie en verspreiding beter inzichtelijk maken, iets dat bijdraagt aan klimaatonderzoek in onze eigen tijd. Zijn uitkomsten zijn te vinden op Zenodo via deze link.

Kortom, deze twee relatief kleinschalige onderzoeken laten al zien dat er nog veel verborgen zit in deze bronnen en dat er veel vernieuwend onderzoek te doen is. Milo is heel benieuwd welke nieuwe inzichten er daardoor komen.

Revolutie in archiefonderzoek?

Wat opvalt bij de presentaties van deze middag is vooral hoe AI en mensen elkaar versterken. Het publiek helpt dankzij de crowdsourcingprojecten met het trainen en verbeteren van de artificiële intelligentie modellen. Andersom maakt AI het mogelijk om nieuw historisch onderzoek te doen naar deze archiefstukken. Omdat deze publieke archieven hun onderzoeksmethodes, datasets en uitkomsten open source delen, kunnen meer archieven aan de slag met AI. Tijdens deze middag zagen we al een tipje van de sluier opgelicht over de mogelijkheden, we zijn benieuwd welke revolutionaire ontdekkingen dat in de komende jaren zal opleveren.

Thema's
Deel dit artikel

This website is automatically translated by Google Translation. Some translations might not be correct.