Nieuwe OCR voor bestaande digitale krantencollecties: de moeite waard?

TitleNieuwe OCR voor bestaande digitale krantencollecties: de moeite waard?
Publication TypeTijdschriftartikel
Year of Publication2023
AuthorsRochmes, Sophia, Montaine Denys, and David Coppoolse
MagazineMETA. Tijdschrift voor bibliotheek & archief
Volume3
Pagination10-16
Date Published05/2023
AbstractWie zoekt, die vindt? Dat is jammer genoeg niet altijd het geval bij online kranten. Gedigitaliseerde kranten worden doorzoekbaar gemaakt met behulp van optical character recognition (OCR), een proces waarbij afbeeldingen van de gedrukte pagina’s omgezet worden naar computerleesbare tekst. Die tekst kun je vervolgens doorzoekbaar maken. Hoe beter de OCR, hoe beter de zoekresultaten. Maar het omzettingsproces is zelden foutloos. Factoren zoals de complexiteit van de lay-out, de drukkwaliteit, de conditie van het papier, de beeldkwaliteit en de gebruikte software kunnen het resultaat van OCR negatief beïnvloeden. Als we de OCR kunnen verbeteren, vergroten we de vangst en de betrouwbaarheid van de resultaten bij het zoeken in deze collecties. In de laatste jaren is er met behulp van machinelearningtechnologie veel vooruitgang geboekt bij de ontwikkeling van OCR. Het kan dus interessant zijn om de bestaande OCR van digitale krantencollecties te vervangen door nieuwe. Om te weten of dat ook echt nut heeft, moet je bepalen hoe groot het verbeterpotentieel werkelijk is. Hoe goed of slecht is het precies gesteld met de OCR-kwaliteit van gedigitaliseerde Vlaamse krantencollecties? En hoe groot is de verbetering die we mogen verwachten van hedendaagse OCR-technologie? Om deze vragen te beantwoorden, onderzocht de vzw Vlaamse Erfgoedbibliotheken samen met meemoo, drie andere expertisepartners en tien beheerders van digitale krantencollecties de OCR van het reeds gedigitaliseerde Vlaamse krantenerfgoed.
Citation Key5051
  • Documentatie
  • |
  • 09-09-2023