Reconnaissance d’entité
Dans la dernière étape du processus de déverrouillage, les résolutions sont enrichies d’annotations indiquant les noms de lieux, de personnes, d’organisations et d’autres éléments pertinents du texte. Le terme habituel pour de telles choses désignées est «named entities» [entités nommées]. Ces entités forment une sorte de registre numérique sur le texte des résolutions. Les types d’entités suivants ont été reconnus :
- Délégués
- Noms personnels
- Qualités (fonctions ou rôles des personnes)
- Emplacements (lieux, régions, pays)
- Organisations
- Comités des États Généraux
- Références à d’autres résolutions
Le marquage des entités est un processus en deux étapes. Pour la première étape (reconnaissance), un certain nombre de modèles linguistiques ont été entraînés sur une sélection de résolutions annotées manuellement par des volontaires. Ces modèles de langage ont ensuite identifié les endroits du corpus où les entités sont référencées. Organiser, trier et attribuer ces emplacements de texte constitue la deuxième étape (conservation) du processus de reconnaissance.
Le principal défi de la conservation des entités réside dans la variation dans la manière dont les entités sont référencées. Il y a plusieurs causes à cette variation. Tout d’abord, les erreurs d’orthographe et de reconnaissance de texte introduisent du bruit dans les noms des entités elles-mêmes. De plus, l’orthographe et l’usage de la langue évoluent au cours de la période couverte par les résolutions.
En raison du grand nombre d’entités (millions), la curation manuelle des entités n’était pas possible. Bien que la manière précise de traitement varie selon les différents types d’entités, le processus se compose généralement de deux parties : l’identification des entités apparaissant dans les résolutions et l’attribution d’emplacements de texte aux entités identifiées. La deuxième partie se déroule toujours automatiquement ; les listes de la première partie sont généralement établies manuellement. Il n’a pas été possible pour tous les emplacements de texte d’établir un lien vers une entité connue lors de cette étape de curation. Les emplacements de texte qui n’ont pas pu être identifiés n’ont pas été marqués et ont été omis de l’ensemble de données. Il s’agit généralement de passages de texte qui ont été incorrectement identifiés par le modèle de langage comme faisant référence à une entité, ou de références à des entités qui n’apparaissent qu’une ou quelques fois. Voir ici pour de plus amples explications sur les types d’entités spécifiques.
Vidéos connexes :