Segmentation de texte – Goetgevonden

Une fois le texte de toutes les numérisations reconnu, ils sont segmentés en résolutions distinctes, regroupées par jour (de session).

A cet effet, les jours d’audience ont d’abord été identifiés sur la base de la date et de la liste des délégués présents. Cela s’est fait en deux étapes. Nous avons d’abord recherché des lignes de texte contenant une date dans un certain format pour déterminer s’il s’agissait du début d’une journée d’audience, puis nous avons déterminé quelle date était mentionnée. De cette manière, la date à laquelle appartient chaque morceau de texte a été déterminée.

Le texte a ensuite été segmenté en résolutions pour chaque jour de session. Cela se fait sur la base d’une liste d’expressions fixes (formulaires) (par exemple « A entendu le rapport de… » et « A reçu une missive de… ») avec lesquelles les résolutions sont présentées. Ces formules indiquent non seulement où dans le texte commence une résolution, mais également quel type d’action ou de document sous-tend la résolution (le type de proposition). La segmentation en résolutions était plus difficile à réaliser dans les recueils de résolutions de la fin du XVIe et du début du XVIIe siècle, qui ont un caractère moins formel. Les bénévoles ont donc aidé à entraîner l’ordinateur pour qu’il soit capable de séparer au mieux les résolutions de ces livres.

Attention : la segmentation étant en grande partie automatique, il est possible que le début d’une journée d’audience n’ait pas été reconnu ; les résolutions correspondantes sont alors affectées de la date du jour de séance précédent. Il se peut également que la date ait été mal reconnue ; même dans ce cas, les résolutions associées ont été attribuées au mauvais jour de session. Enfin, les résolutions ne sont pas toujours bien segmentées, de sorte que plusieurs résolutions peuvent être segmentées ensemble en une seule résolution, ou la fin d’une résolution peut aboutir à la résolution suivante.

Vidéo connexe :