Nationaal Archief zoekt slimme (AI-)oplossing voor zoeken in miljoenen transcripties

Het Nationaal Archief startte dit jaar een groot project met automatische handschriftherkenning. Om de transcripties nog toegankelijker en bruikbaarder te maken, zijn ze nu op zoek naar slimme oplossingen, bijvoorbeeld met kunstmatige intelligentie.

Uiteindelijk worden in het project twee miljoen handgeschreven archiefstukken getranscribeerd met machine learning. Het Nationaal Archief is nu samen met de Rijksdienst voor Ondernemend Nederland (RVO) op zoek naar slimme oplossingen, bijvoorbeeld met kunstmatige intelligentie (SBIR).

De eerste resultaten van het transcriberen met machine learning zijn positief. Het transcriptieteam van het Nationaal Archief heeft nu 2500 pagina’s van archieven uit de 17e, 18e en 19e eeuw getranscribeerd. Hiermee trainden we de machine zo goed dat slechts 6,15% van de karakters niet correct werd herkend. Momenteel werken ze hard aan de laatste verbeteringen.

 

Nieuwe uitdagingen


Het succes van machine learning zorgt echter voor nieuwe uitdagingen. Bij het full-text doorzoeken van de transcriptiedata krijgt de onderzoeker een oerwoud aan resultaten te verwerken. Dat maakt het vinden van de juiste informatie niet eenvoudig. Daarnaast hebben ze te maken met transcriptiefouten, spellingsvarianten, oude taal en fouten in de herkenning van de lay-out.

Om deze uitdagingen het hoofd te bieden, wil het NA een slimme functionaliteit laten bouwen voor het zoeken in de transcripties en het tonen van de resultaten. Ze hebben gekozen voor een aanbesteding in de vorm van een competitie. Na een offertetraject krijgen drie leveranciers budget om een prototype te ontwikkelen. Het beste prototype wordt vervolgens doorontwikkeld.

Meer weten over de aanbesteding? Kijk op de website van de RVO.

 

Over het project


In het innovatieve project ‘De ijsberg zichtbaar maken’ transcribeert het Nationaal Archief met behulp van machine learning scans van historische handgeschreven documenten. Ze selecteerden hiervoor één miljoen scans van het archief van de Verenigd Oost-Indisch Company (VOC) uit de 17e en 18e eeuw van het Nationaal Archief. Van de regionaal historische centra (RHC's) selecteerden ze één miljoen scans van notariële archieven uit de 19e eeuw. Voor de uitvoering wordt samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents).

Thema's
Deel dit artikel