Reconnaissance de texte
Le projet REPUBLIC a utilisé la reconnaissance de texte pour convertir les résolutions numérisées en transcriptions. De cette façon, les résolutions peuvent être lues plus facilement. Nous avons également utilisé le texte généré « lisible par ordinateur » pour structurer le matériel et le rendre consultable, puis en extraire des informations.
Les transcriptions ont été réalisées à l’aide de la technologie ATR (Automatic Text Recognition). Dans la première phase du projet, nous avons utilisé Transkribus pour le matériel manuscrit. À l’aide d’environ un millier de pages transcrites à la main et sélectionnées au hasard, nous avons entraîné le logiciel ATR à pouvoir lire les résolutions. Ce « modèle » fonctionnait déjà très bien : sur 100 caractères, 97 étaient correctement reconnus.
Grâce à l’utilisation de Loghi, le logiciel ATR développé au sein du pôle Humanités du KNAW, ce score a été encore augmenté à 98%. Les résolutions imprimées ont été initialement converties en texte lisible par ordinateur à l’aide du logiciel OCR Tesseract. Plus tard, Loghi fut également utilisé à cette fin. 99% des caractères ont été correctement reconnus.
Loghi est un logiciel d’apprentissage automatique disponible gratuitement avec un code source librement accessible. Ce logiciel peut apprendre à transcrire par lui-même à partir d’exemples. Le processus de transcription de Loghi comprend trois étapes (qui peuvent à leur tour être divisées en étapes plus petites) : 1) détecter l’emplacement des lignes et des régions de texte ; 2) découper et transcrire numériquement ces lignes de texte détectées ; 3) le post-traitement, tel que la fusion des informations sur le texte et la région et le calcul de l’emplacement des mots dans les lignes de texte.
De plus, de nombreux bénévoles ont corrigé les transcriptions automatiques d’environ 95 000 pages via la plateforme VeleHanden. Cela signifie que pour environ 18 % de toutes les pages de résolution, une transcription pratiquement sans erreur est disponible.
Vidéos connexes :