Home Project De werkwijze Tekstherkenning

Tekstherkenning

In het project REPUBLIC is gebruik gemaakt van tekstherkenning om de gescande resoluties om te zetten naar transcripties. Op deze manier kunnen de resoluties gemakkelijker worden gelezen. Ook hebben we de gegenereerde ‘computerleesbare’ tekst gebruikt om het materiaal te structureren en doorzoekbaar te maken en om er vervolgens informatie uit te extraheren.

De transcripties zijn gemaakt met ATR (Automatic Text Recognition). In de eerste fase van het project gebruikten we voor het handgeschreven materiaal Transkribus. Met ongeveer duizend met de hand getranscribeerde, willekeurig gekozen pagina’s, hebben we de ATR-software getraind om de resoluties te kunnen lezen. Dit ‘model’ presteerde al zeer goed: van de 100 karakters werden er 97 correct herkend.

Met de inzet van Loghi, ATR-software die ontwikkeld is binnen het Humanities Cluster van de KNAW, is deze score nog verder verhoogd, naar 98%. De gedrukte resoluties zijn aanvankelijk met de OCR-software Tesseract omgezet naar computerleesbare tekst. Later is daarvoor ook Loghi gebruikt. Hierbij is 99% van de karakters correct herkend.

Loghi is gratis beschikbare machine learning software met vrij toegankelijke broncode. Deze software kan op basis van voorbeelden zelf leren om transcripties te maken. Het transcriptieproces van Loghi bestaat uit drie stappen (die op hun beurt in kleinere stapjes onder te verdelen zijn): 1) detecteren waar de tekstregels en tekstregio’s zich bevinden; 2) het digitaal uitknippen en transcriberen van deze gedetecteerde tekstregels; 3) nabewerkingen, zoals het samenvoegen van tekst en regio-informatie en berekenen waar in de tekstregels zich woorden bevinden.

Hiernaast hebben vele vrijwilligers via het platform VeleHanden de automatische transcripties van ongeveer 95.000 pagina’s gecorrigeerd. Daarmee is voor zo’n 18% van alle resolutiepagina’s een vrijwel foutloze transcriptie beschikbaar.

Gerelateerde video’s: