Cookies op DEN.nl
den.nl maakt gebruik van cookies voor het anoniem meten van het website bezoek en het vergroten van het gebruiksgemak. Door op 'ga verder' te klikken, geef je toestemming voor het gebruik van deze cookies.

Gastblog - Googlen in archieven: science fiction of de toekomst?

8 februari 2016




Edwin Klijn, Programmamanager Netwerk Oorlogsbronnen, schreef een stuk over het READ (Recognition and Enrichment of Archival Documents) project en de kick-off conferentie die eind januari 2016 georganiseerd werd in Marburg, Duitsland. DEN neemt zijn verslag en de inleiding op het project graag op als gastblog.

Archieven full text doorzoeken?

Steeds meer archiefinstellingen zetten hun collecties online. Of beter gezegd: zij zetten de beschrijvingen online. Dat is fijn, want zo kun je in ieder geval grosso modo een beeld krijgen van het aanbod. Maar wat er daadwerkelijk in de archieven te vinden is, blijft een verrassing. Archieveninstellingen hebben vaak met zulke grote hoeveelheden documenten te maken, dat een beschrijving op itemniveau niet realistisch is. Zelfs als de collecties gedigitaliseerd zijn – volgens recent onderzoek is dit het geval voor ca. 8% van de Nederlandse archieven – betekent dit meestal nog altijd niet dat de scans op paginaniveau doorzoekbaar zijn gemaakt; je zult ze nog altijd pagina voor pagina moeten doorlezen.

Echt digitaal is natuurlijk wanneer je– à la Delpher en Google Books – op elk woord in de tekst (“fulltext”) kunt zoeken. Gedrukte bronnen hebben als voordeel dat de woorden en letters een voorspelbare, reguliere vorm hebben en daardoor goed herkend kunnen worden door tekstherkenningssoftware (ook wel OCR software). Archieven omvatten vaak weinig eenduidig handgeschreven woorden, op kwetsbaar, fragiel of door de tijd aangetast papier. De voorspelbaarheid is hiermee minder en dit levert vaak minder goede resultaten op.

Read project 

READ (Recognition and Enrichment of Archival Documents) is een nieuw Europees Horizon2020-project (budget 8,2 miljoen euro), dat zichzelf ten doel heeft gesteld in de komende drie jaar tools te ontwikkelen die kunnen worden ingezet om vol- en semi-automatisch archiefdocumenten fulltext doorzoekbaar te maken. Het project, geleid door Gunther Muhlberger van de University of Innsbruck, brengt archiefspecialisten en computerwetenschappers bij elkaar, om onderzoek te doen, maar ook via een webbased platform hun software ter beschikking te stellen aan andere belangstellenden. In eerdere projecten zijn enkele READ-partners betrokken geweest bij onder andere de ontwikkeling van het ALTO-formaat, een metadata-formaat waarmee informatie over de lay-out wordt vastgelegd. ALTO geldt inmiddels als de facto standaard voor het identificeren van zoektermen en artikelen op krantenpagina’s. Wat het READ project uiteindelijk gaat opleveren is: publicaties, onderzoeksdata met “ground truth”-sets (= volledig correcte datasets) en een open platform, waar “software as a service” en tools worden aangeboden. Dit platform bouwt voort op Transkribus dat al is ontwikkeld in het Transcriptorium-project.

In Marburg was ter gelegenheid van de kick-off van het READ-project een conferentie georganiseerd rondom automatische tekstherkenning van archiefdocumenten, met speciale aandacht voor biografische data. Er waren 160 deelnemers, uit 17 landen. Op de eerste dag werden een aantal theoretische fundamenten uitgelegd van Handwritten Text Recognition (HTR) of – beter – Automated Text Recognition. Dr. Roger Labahn van het Institut für Mathematik in Rostock legt uit dat herkenning van woorden een mathematisch proces is; de vorm samen met de positie van het woord en een vergelijking van deze vorm met soortgelijke vormen in het corpus, maakt dat je met een zekere mate van “confidence” kunt voorspellen om welk woord het gaat. Door eigentijdse woordenboeken of andere “gecontrolleerde” tekstbronnen in te voeren ter referentie, wordt de “confidence” vergroot.  Door middel van “machine-learning” – of wel het slimmer maken van de software door het handmatig overtikken van testsets – kan de kwaliteit van de automatische herkenning aanzienlijk worden opgeschroefd, zeker in grote corpora met een eenduidig font of handschrift. Labahn benadrukt het belang om de context van het woord – waar staat het, welke andere woorden staan in de omgeving en andere externe informatie helpt om het woord te voorspellen.

Zoeken op basis van afbeeldingen

Enrique Vidal, professor computerwetenschappen aan de Universidad Politecnica de Valencia, maakt nadrukkelijk onderscheid tussen het automatisch genereren van transcriptiebestanden en het zoeken door images met (handgeschreven) tekst.  Als het alleen gaat om het vindbaar maken van scans met tekst, kan een zoekmachine door middel van “shape recognition” ook zonder getranscribeerde tekst, al heel veel vinden. Voor een zoekmachine is het herkennen van een rode ballon of het woord “aap” feitelijk hetzelfde. Het zijn immers beide vormen. Hoeveel je precies vindt blijft afhankelijk van de kwaliteit van de dataset. In deze oplossing schuilt veel potentie: je kunt immers al zoeken door scans, zonder dat dit vereist dat er tekstbestandjes aan de kant van het archief zijn. Verbeteringen van de zoektechnologie sijpelen hierdoor veel sneller door naar archiefinstellingen, omdat zij feitelijk meeliften op centraal ontwikkelde zoekintelligentie.

Het vindbaar maken van het handschrift van één auteur

Stefan Fiel van de Technical University of Vienna, vertelt over “automatic writer identification”. Op basis van een computeranalyse van het corpus van een specifieke auteur, kan een histogram worden gemaakt dat je kunt gebruiken om in grote hoeveelheden data handschriften van deze persoon terug te vinden. In potentie biedt deze technologie mogelijkheden om verbindingen te maken tussen verschillende archieven. Het kan ook worden ingezet om ongeordende archieven voor te sorteren op identieke handschriften.

Futuristisch

De meest futuristische presentatie op de eerste dag is die van onderzoeker/ingenieur Frederic Kaplan. Op basis van 80 kilometer gedigitaliseerd materiaal wordt de geschiedenis van Venetië gevisualiseerd. Om de data te creëren die ten grondslag liggen aan de 3D-visualisaties zijn er allerlei technologieën toegepast op het gebied van geocoding, linked data en “automatic text recognition”. Voor de digitalisering van enkele middeleeuwse boeken is gebruik gemaakt van 3D infrarode scanningapparatuur.

Praktijkgevallen

Op dag 2 werden een aantal archiefcollecties kort gepresenteerd. De computerwetenschappers konden vervolgens 10 minuten per pitch reflecteren op de (on)mogelijkheden om de collectie met behulp van automatische tekstherkenning te ontsluiten. Het Bundesarchief nomineerde een gedigitaliseerde set van 12,7 miljoen indexkaarten van NSDAP-leden, het Stasi-archief maar liefst 45 miljoen indexkaarten. Ook materiaal uit vroegere tijden zoals militie-, kerk- en kadastrale registers uit de 17de tot en met 20ste eeuw passeerden de revue. Juist bronnen die al een zekere structuur uit zichzelf hebben, zijn a) interessant als informatiebron en b) zeer geschikt voor automatische tekstherkenning. Hoe beter de voorspelbaarheid van het soort informatie (locatie, persoon, tijd), hoe gerichter het automatische proces voor dit onderdeel kan worden gefinetuned.

De laatste dag – in alle eerlijkheid de minst interessante – was er aandacht voor een aantal projecten die illustreerden wat je kan doen met betrouwbare digitale historische tekstcorpora en biografische/geografische data.

Toekomst

READ belooft een zeer interessant project te worden, dat in potentie de toegang tot archiefstukken revolutionair kan verbeteren. Recente tests van het Huygens ING met de handgeschreven Resoluties van de Staten Generaal leverde een score op van 33-48% WER (word error rate = aantal onjuist getranscribeerde woorden), na (vol)automatische tekstherkenning. Zoals een deelnemer aan de conferentie al aangaf in een vragenrondje: voor veel archiefcollecties staat de meter nog op 0%. De vraag is wel in hoeverre de tools en software die ontwikkeld gaan worden, geschikt zijn voor grote hoeveelheden data. Volgens de READ-documentatie komt dit wel goed, maar op de conferentie zagen we toch vooral kleine pilots en demo’s. De conferentie riep ook vragen op over de toekomst. Als je straks – met een acceptabele foutenmarge – kunt Googlen door archieven, verandert ook de rol van metadata, thesauri en andere huidige “finding aids”. Wat blijft er over van deze vaak arbeidsintensieve middelen om collecties te ontsluiten? Digitalisering heeft ons vakgebied al radicaal veranderd en dit zal de komende decennia niet anders zijn.
10 plus 2 is:*
(anti-spam)

Reacties (2)

Marco Streefkerk - maandag 8 februari 2016 om 22:16
Bouwen READ en Transkribus nog op enige wijze voor op het #CATCH onderzoek en #SCRATCHPlus tooling? Of is men helemaal vanaf scratch begonnen?
Edwin - woensdag 17 februari 2016 om 13:25
Goede vraag Marco. CATCH+ is op de conferentie niet nadrukkelijk genoemd. Ik weet het dus niet. Maar ik mag er toch vanuitgaan dat men in READ goed op de hoogte is van de ontwikkelingen.