Abstract | Wie zoekt, die vindt? Dat is jammer genoeg niet altijd het geval bij online kranten. Gedigitaliseerde kranten worden doorzoekbaar gemaakt met behulp van optical character recognition (OCR), een proces waarbij afbeeldingen van de gedrukte pagina’s omgezet worden
naar computerleesbare tekst. Die tekst kun je vervolgens doorzoekbaar maken. Hoe beter de OCR, hoe beter de zoekresultaten. Maar het omzettingsproces is zelden foutloos. Factoren zoals de complexiteit van de lay-out, de drukkwaliteit, de conditie van het papier, de beeldkwaliteit en de gebruikte software kunnen het resultaat van OCR negatief beïnvloeden.
Als we de OCR kunnen verbeteren, vergroten we de vangst en de betrouwbaarheid van de resultaten bij het zoeken in deze collecties. In de laatste jaren is er met behulp van machinelearningtechnologie veel vooruitgang geboekt bij de ontwikkeling van OCR. Het kan dus interessant zijn om de bestaande OCR van digitale krantencollecties te vervangen door nieuwe. Om te weten of dat ook echt nut heeft, moet je bepalen hoe groot het verbeterpotentieel werkelijk is.
Hoe goed of slecht is het precies gesteld met de OCR-kwaliteit van gedigitaliseerde Vlaamse krantencollecties? En hoe groot is de verbetering die we mogen verwachten van hedendaagse OCR-technologie? Om deze vragen te beantwoorden, onderzocht de vzw Vlaamse Erfgoedbibliotheken samen met meemoo, drie andere expertisepartners en tien beheerders van digitale krantencollecties de OCR van het reeds gedigitaliseerde Vlaamse krantenerfgoed.
|