Cookies op DEN.nl
den.nl maakt gebruik van cookies voor het anoniem meten van het website bezoek en het vergroten van het gebruiksgemak. Door op 'ga verder' te klikken, geef je toestemming voor het gebruik van deze cookies.

De lezende computer

21 februari 2011 - Robert Gillesse


Afgelopen woensdag 16 februari 2011 was uw verslaggever aanwezig bij de demo dag van het IMPACT (Improving Access to Text) project. IMPACT is een door de Europese Unie gefinancierd project dat er op is gericht de kwaliteit van de digitalisering van historisch tekstmateriaal te verbeteren. In de kern gaat het er om het OCR (Optical Character Recognition) proces - dat wil zeggen het proces gescand tekstmateriaal om te zetten in machine leesbare tekst - geschikt te maken voor de verwerking van historisch materiaal. Aanleiding voor het project waren de massadigitaliseringsprojecten die een aantal jaren geleden in Europese bibliotheken (en elders) begonnen, en die vaak povere OCR resultaten te zien gaven. De standaard OCR software bleek vaak weinig geschikt voor historisch tekstmateriaal en gezien de beperkte markt was het voor OCR softwareleveranciers niet interessant genoeg om in deze problematiek te investeren.

Initiator en projectleider van IMPACT is de Koninklijke Bibliotheek. In het project wordt samengewerkt met (26) Europese bibliotheken, twee belangrijke marktpartijen (Finereader, marktleider in OCR software en IBM) en verschillende onderzoeksinstituten (onder andere het Instituut voor Nederlandse lexicolgie). IMPACT is begonnen in 2008 en loopt door tot het einde van 2011.

De demo dag had als doel de tot nu toe behaalde resultaten te tonen en enige vergezichten te schetsen na afloop van het project. Omdat op de IMPACT site reeds uitgebreid verslag is gedaan van de demo dag zal ik in het onderstaande volstaan met enkele observaties mijnerzijds.

Lezen is complex

Als je beseft wat een complexe handeling lezen eigenlijk is, maakt het te des geheimzinniger dat een computer überhaupt tekens kan omzetten in betekenisvolle informatie. Historische teksten hebben daarbij een aantal eigenschappen die maken dat het lezen door de computer extra wordt bemoeilijkt. Hierbij moet gedacht worden aan slecht gedrukte originelen, doordruk van de achterkant van de pagina, lastige, verouderde lettertypes, getypte letters, spellingsvarianten ( OCR software maakt gebruik van woordenlijsten om te kunnen verbeteren, echter moderne woordenboeken voldoen vaak niet als het gaat om historisch tekstmateriaal) en een complexe layout.

In het kader van IMPACT is onderzocht wat er voor, tijdens en na het OCR proces kan worden worden verbeterd om tot een beter eindresultaat te komen.

Beeldverbetering

Voor het OCRen moet worden gedacht aan beeldverbeteringen als het automatisch uitsnijden en rechtzetten van de gescande pagina, het corrigeren bolstaande bladspiegels, het verwijderen van irrelevante, non-tekstuele informatie en het splitsen van dubbele pagina's. Helaas geeft IMPACT geen sluitend antwoord op de vraag wat nu het ideale digitale beeld is om als basis te dienen voor OCR. Behalve de resolutie - 300 of zelfs 400 ppi - en de aanlevering in grijs- of kleurenwaarden, is er geen set van regels waaraan een beeld verder moet voldoen. Is het bijvoorbeeld voldoende te werken volgens de Metamorfoze richtlijnen of prefereert de OCR software wat hardere, contrastrijkere beelden? Het interessante is dat OCR software intern werkt met binair beeld. Dat betekent dat wil aangeleverde grijs- en kleurwaarden beelden wordt omgezet naar zwart-wit beeld (binairisation). De crux zit dus met name in dit zogenaamde binairisatie proces: de vraag is hoe intelligent deze omzetting verloopt.

Crowdsourcing

Een belangrijke bijdrage van IMPACT aan de verbetering van tekst na het OCR proces is de ontwikkeling van de zogenaamde CONCERT tool. Anders dan andere OCR correctie publiekstools als Recaptcha laat deze software vrijwilligers geOCRde tekst verbeteren op zowel karakter, woord en pagina niveau. Dit levert bijna foutloze tekst op. De vermakelijke presentatie van publicist en taalkundige Ewoud Sanders maakte duidelijk dat er aan de gebruiksvriendelijkheid van de CONCERT tool nog wel gesleuteld moet worden, maar dat het in potentie een veelbelovende en zelfs verslavende crowdsourcing tool is.

Online digitaliseringsworkflow

In het kader van IMPACT zijn tot nu 23 verschillende tools opgeleverd uit alle delen van Europa. Door de eisen gesteld in het IMPACT Interoperability Framework sluiten deze tools allemaal op elkaar aan en zijn ze allemaal (mede) beschikbaar als webtool. Het wellicht meest spectaculaire onderdeel van het IMPACT project is dat alle tools aan elkaar kunnen worden geknoopt in een online digitaliseringsworkflow. Je kunt een set van images uploaden, en door middel van trail en error de beste workflow samenstellen uit de beschikbare tools.

Competence Centre

IMPACT streeft er naar na afloop van het project een door de EU gezegend (doch helaas niet gefinancieerd) Compentence Centre voor tekstdigitalisering te worden. Een dergelijk Competence Centre - er zijn er reeds drie op deelgebieden audio-visueel, 3D digitalisering en digitale duurzaamheid - zorgt voor een waarborging van de IMPACT projectresultaten en maakt verder onderzoek mogelijk. Fondsen zullen moeten gevonden in lidmaatschap en de mogelijke uitbating van een aantal tools. Er wordt reeds gewerkt aan verschillende businessmodellen.
7 plus 6 is:*
(anti-spam)

Reacties (0)

Er zijn nog geen reacties geplaatst.