Cookies op DEN.nl
den.nl maakt gebruik van cookies voor het anoniem meten van het website bezoek en het vergroten van het gebruiksgemak. Door op 'ga verder' te klikken, geef je toestemming voor het gebruik van deze cookies.

Tekst

Digitale tekst kan op verschillende wijze tot stand komen en verschillende vormen aannemen. Dit is afhankelijk van het doel, de middelen en de materiaalsoort. In dit kennisdossier wordt ingegaan op verschillende werkwijzen en vormen van digitale tekst. Belangrijk uitgangspunt is dat de digitale tekst zowel voor mensen als machines goed leesbaar en doorzoekbaar is. Voorop staat bovendien dat de digitale tekst in een duurzaam en flexibel formaat wordt opgeslagen.

DE BASIS voor vervaardiging van tekst

In DE BASIS voor vervaardiging van tekst worden de minimale uitgangspunten voor de vervaardiging van digitale tekst behandeld. In dit kennisdossier worden een aantal zaken verder uitgewerkt.  



Verschijningsvormen en methodes van vervaardiging

Digitale tekst kan verschillende verschijningsvormen aannemen en op verschillende manieren tot stand komen. De volgende drie vormen en methodes van vervaardiging zijn mogelijk:

Verschijningsvormen Methodes van vervaardiging
(
Zie ook de mogelijke workflowstappen in onderstaande tabel­)
Opmerking
Machine leesbare tekst


 
Digitaal geboren  
Transcriptie (dit kan ook verbeterde OCR zijn) Vaak het resultaat van vrijwilligersprojecten
Ongecorrigeerde of niet 100% gecorrigeerde OCR van gescande pagina Er voor worden gekozen bepaalde tekstgedeeltes te verbeteren (bijvoorbeeld koppen in een krant)
Machine leesbare tekst + een digitale afbeelding van de originele tekst Pagina gescand en vervolgens ge-ocr'd Dit kan gaan om verbeterde of onverbeterde OCR
Pagina gescand en vervolgens getranscribeerd  
Digitale afbeelding van de originele tekst Pagina gescand Er is dan geen machine leesbare tekst aanwezig.
 
De keuze voor een bepaalde vorm en methode zijn afhankelijk van het doel  en de mogelijkheden (technisch, budgettair, kennis) binnen een project en instelling. 
 

(Bron: Stadsarchief Amsterdam)



Essentiële eigenschappen

De projectdoelstelling wordt voor een belangrijk deel bepaald door de vraag in welke mate van authenticiteit de essentiële eigenschappen van de originele tekst in de digitale tekst moet terugkeren. In de onderstaande tabel worden deze twee zaken tegen elkaar afgezet en gekoppeld aan welke verschijningsvorm daarbij minimaal nodig is. Of alle gewenste eigenschappen daadwerkelijk in de digitale tekst kunnen terugkeren zal afhangen van de beschikbare middelen binnen een project. Daarvoor kan een goede kosten-baten analyse uitkomst bieden.

Essentiële eigenschappen Gedigitaliseerde tekst Digitaal geboren tekst Minimaal benodigde verschijningsvorm
De tekstuele inhoud
 
Moet de inhoud van de tekst 100% correct zijn, dan zal bij het gebruik van OCR vrijwel altijd correctie nodig zijn. Is een 100% correcte tekst niet noodzakelijk (wanneer er ook een afbeelding van tekst aanwezig en de machine leesbare tekst met name dient om te doorzoeken) dan kan deze correctie (deels) achterwege blijven. Bij een digitaal geboren tekst kan over het algemeen worden uitgegaan dat deze 100% correct is. Machine leesbare tekst
Logische structuur: de structuurelementen in de tekst als pagina´s, paragrafen, kopjes, noten, hoofdstukken etc Het opnemen van structuurelementen kan in toenemende mate van verfijning gebeuren. In sommige gevallen is een minimale toekenning van structuurelementen genoeg wanneer bijvoorbeeld ook de digitale afbeelding aanwezig is). In meer veeleisende omgevingen (bijvoorbeeld in geval wetenschappelijk gebruik, of omzetting naar e-book formaten) is het noodzakelijk om een meer verregaande vorm van structurering te gebruiken Wanneer de originele tekst is voorzien van een logische structuur wordt aanbevolen deze zo goed mogelijk te bewaren. Wanneer die er niet is, kan deze – net als bij gedigitaliseerde tekst - in verschillende mate van verfijning  worden toegekend. Machine leesbare tekst + (XML) structuur (als bijvoorbeeld TEI )
Opmaak: lettertype en lettergrootte, illustraties, grafieken, bladspiegel, etc Vormgevingsaspecten van de tekst worden vastgelegd door een digitale afbeelding van het origineel te maken of door de opmaak van de machine leesbare tekst vast te leggen in een stylesheet.
Illustraties en andere niet- tekstuele elementen kunnen eventueel ook  als afbeeldingen in een machine leesbare tekst worden opgenomen.
Je kunt de originele opmaak bewaren door deze op te nemen in een stylesheet of gebruik te maken een PDF bestand die de opmaak “fixeert”. Illustraties en andere niet- tekstuele elementen worden dan als  afbeeldingen in een machine leesbare tekst opgenomen. Stylesheet, afbeelding van papieren bron of PDF
Uiterlijke kenmerken van het papieren origineel: kleur, papiertint,  afbeeldingen in de tekst, bladspiegel, kaft etc Wanneer de look en feel van het origineel niet belangrijk is, kan worden volstaan met alleen een machine leesbare tekst. Wanneer dit wel een rol speelt moet je ook een afbeelding van het papieren origineel maken. Vervolgens is de vraag hoe natuurgetrouw die kopie moet zijn. Volstaat een zwart-wit (bitonale) of grijswaarden scan, of is een (hoogwaardige) kleurenafbeelding nodig? Nvt Afbeelding van de papieren bron
Betekenis: tekstelementen als persoonsnaam, geografische aanduiding of jaartal Het toekennen van betekeniselementen in de tekst is sterk afhankelijk van gebruikswensen. In sommige gevallen kunnen deze gedetecteerd worden door tekstanalysesoftware. Idem Hypertext-elementen, bijvoorbeeld in de vorm van TEI-tags. Voorbeeld in Handelingen van de Staten Generaal en uitleg.
Gedrag: interactieve of multimediale elementen in de tekst Nvt Je kunt multimediale of interactieve onderdelen in de tekst vastleggen  door te kiezen voor een archiveringsformaat dat deze content zo goed mogelijk conserveert. Verwijzingen naar externe bronnen (bijvoorbeeld een YouTube filmpje) zijn niet altijd vast te leggen. Een tekst opgeslagen in archiveringsformaat dat de multimediale/interactieve elementen in de tekst conserveert.
 
 


Workflowstappen

Afhankelijk van de projectdoelstellingen zijn er verschillende proces- of workflowstappen die je kunt doorlopen.  Hieronder zie je deze stappen min of meer in logische volgorde gerangschikt:

Mogelijke workflowstappen Relevante standaarden of instrumenten
Toekennen of extractie van bibliografische metadata Zie DE BASIS voor beschrijving
Scanning of fotografie Zie DE BASIS voor vervaardiging
Transcriptie  
OCR ALTO. Deze standaard maakt gebruik van coördinaten om de tekst te matchen met het digitale beeld, waardoor je tekst kan terugvinden in het digitale beeld.
Verbeteren OCR  
Vastleggen logische structuur XML, HTML, XHTML of verdergaand, TEI 
Vastleggen opmaak Stylesheet, XSL, CSS
Toekennen structurele metadata (anders dan het vastleggen van de logische structuur van de tekst gaat het hier om de vastleggen van de volgorde en de verbanden tussen de tekst- en afbeeldingsbestanden).  METS of MPEG-21 DIDL
Toekennen van betekenis aan bepaalde tekstelementen als persoonsnaam, geografische aanduiding of jaartal  
Opslag Zie het kennisdossier over opslag
Beschikbaar stellen Zie DE BASIS voor presentatie
 
Ondanks het verschil in vervaardiging zijn de eindproducten bij digitaal geboren tekst en gedigitaliseerde teksten hetzelfde en komen ze op een bepaald moment in de keten bij elkaar.



Opslagformaten

Voor de standaard opslagformaten (XML, PDF/A) verwijzen we je naar de DE BASIS voor vervaardiging van tekst. Wel zijn er enkele nieuwe formaten in opkomst:


Meer weten?




Laatst gewijzigd: 03-09-2014

8 plus 2 is:*
(anti-spam)

Reacties (0)

Er zijn nog geen reacties geplaatst.