Dienstverlener tweede fase onderzoek OCR-kwaliteit historische kranten geselecteerd

Het Zwitserse bedrijf Odoma is geselecteerd voor de uitvoering van uitgebreide evaluaties van de kwaliteit en verbeterpotentieel van de OCR (optical character recognition) van gedigitaliseerde krantencollecties in Vlaanderen. Het bedrijf kwam als beste uit de beoordeling door een jury van vertegenwoordigers van de vzw Vlaamse Erfgoedbibliotheken en meemoo en twee internationale experten.
De uitvoering van deze evaluaties gebeurt in het kader van het project Nieuwe Tijdingen, dat een programma voor de grootschalige digitalisering, duurzame bewaring en ontsluiting van het Vlaamse krantenerfgoed voorbereidt. Voor het OCR-luik van het project werkt de vzw Vlaamse Erfgoedbibliotheken samen met meemoo, Odoma, expertisepartners van de Staatsbibliothek zu Berlin en de Koninklijke Bibliotheek van Nederland, en tien collectiebeherende instellingen. Het uiteindelijke doel? De gedigitaliseerde kranten beter vindbaar en bruikbaar maken voor gebruikers.
OCR-evaluaties
In 2021 gaf een basisonderzoek aan dat de kwaliteit van de originele OCR van kranten doorgaans slecht is, en dat bepaalde hedendaagse OCR verbeteringspotentieel hebben. Maar het onderzoek geeft onvoldoende uitsluitsel over de beste aanpak om de verbetering uit te voeren. Ook geven de resultaten onvoldoende informatie om essentiële vragen exact te beantwoorden, zoals: Hoe slecht is de kwaliteit van de originele OCR precies? In welke mate kan de huidige OCR worden verbeterd? Over de eerste resultaten van het onderzoek lees je meer in ons vorige nieuwsbericht.
In het najaar van 2022 bouwt Odoma verder op de resultaten van het eerste onderzoek, met een uitbreiding van datasets, onderzoeksparameters en onderzoeksmethoden. De resultaten zullen het beslissingskader vormen om te bepalen welke kranten en welke krantencollecties baat hebben aan verbetering, en welke hedendaagse OCR veelbelovend zijn om op te nemen in toekomstige digitaliseringsprojecten.
Volgende stappen
Op basis van de resultaten volgt een selectie van krantencollecties of delen daarvan die het meest nood hebben aan verbetering en het meest verbeterpotentieel hebben. Mits financiering dient deze selectie voor een testfase van OCR-reprocessing waar de verkozen methode en workflow op kleine schaal getest worden en gefinetuned waar nodig.
Wil je op de hoogte blijven van het verdere verloop van Nieuwe Tijdingen? Schrijf je dan in voor onze projectnieuwsbrief.