Managed hosting door True

Potlood maakt digitalisering lastig

 

ANP-bericht van de watersnoodramp van 1 februari 1953. De met potlood doorgekraste tekst is niet doorzoekbaar.

De Koninklijke Bibliotheek in Den Haag heeft anderhalf miljoen historische ANP-radiobulletins gedigitaliseerd. Projecleider Edwin Klijn vertelt over problemen met potlood tijdens het digitaliseringsproject.

Begin jaren negentig worden bij toeval anderhalf miljoen radiobulletins aangetroffen in de kelder van een voormalig pand van het Algemeen Nederlands Persbureau (ANP) in Hilversum. Het gaat om uitgetypte presentatieteksten van nieuwsberichten die tussen 1937 en 1984 zijn uitgezonden. Het materiaal wordt overgebracht naar de koninklijke Bibliotheek in Den Haag. Daar staan de documenten ruim tien jaar opgeslagen in een depot voordat in 2006 wordt gestart met de digitalisering. Door de technische verbetering van digitaliseringmiddelen zijn de radiobulletins voor een budget van een half miljoen subsidie-euro's gedigitaliseerd en via internet toegankelijk gemaakt voor publiek. Dat is ongeveer 33 eurocent per bericht.

Projectleider Edwin Klijn: "Het ongeordende materiaal was verdeeld over 750 verhuisdozen, daardoor ging er vooral veel werk zitten in de voorbewerking van de documenten zoals het rangschikken op datum en het verwijderen van de nietjes." Strata Preservation (dat inmiddels is overgenomen door KMM Groep) scande de documenten. Door de inzet van ocr-software (optical character recognition) zijn de vellen machineleesbaar gemaakt. Die techniek is ingezet om naast een beeldbestand van het origineel ook de tekst doorzoekbaar te maken.

Naast de nieuwsfeiten bevatten de bulletins informatie voor de nieuwslezer zoals volgordenummering van het voorlezen en uitspraakaccenten. Maar het gaat ook om redactionele aanpassingen en toevoegingen of een bericht alleen voor een bepaalde omroep werd voorgelezen zoals 'Alleen voor VARA!'. Klijn: "Die handgeschreven toevoegingen die vaak met potlood zijn aangebracht leverden problemen op bij de digitalisering. Delen van de tekst kunnen niet automatisch worden ingelezen omdat ze zijn doorgekrast of omdat er handgeschreven teksten zijn toegevoegd. Die teksten kunnen dus niet via de zoekfunctie worden gevonden. Belangstellenden moeten de scans van de originele berichten bekijken om te zien wat er bijgeschreven staat. Dat is niet automatisch te vinden."

Geen audiofragmenten

Projectleider Edwin Klijn benadrukt dat de originele presentatieteksten erg waardevol zijn omdat er in de meeste gevallen geen audiofragmenten zijn bewaard. Alleen bij grote gebeurtenissen zoals de watersnoodramp en de moord op president Kennedy zijn geluidsbanden gearchiveerd. In principe werden geluidsbanden bij de dagelijkse nieuwsproductie uit kostenoverwegingen overschreven.

Ook volgens mediahistoricus Paul Koedijk hebben de documenten veel historische waarde: "Het materiaal bevat een schat aan informatie die op veel manieren te gebruiken is, zowel voor historisch als taalkundig onderzoek."

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/2756965). © Jaarbeurs IT Media.

?


Lees meer over


 

Reacties

Een zeer leuk project van ongeveer 1 jaar bij strata preservation. Heb hier met plezier aan gewerkt in een klein maar hecht team. Als berichten slecht te lezen waren werden deze bewerkt zodat het weer leesbaar was voor internet publicatie.De opdracht werd gedaan voor de Koninklijke Bibliotheek waar ook alle berichten bewaard werden. Daar werd ook de voorbewerking gedaan zodat het gelijk door de scanner kon gaan zonder nietjes en vouwen in de pagina's.

Vacatures

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×