Modèle de données
Dans le cadre du projet REPUBLIC, nous avons travaillé à partir d’une vision spécifique sur la structuration des données. Il est important de ce point de vue que la structure des données ait à la fois une dimension physique et logique. Nous avons élaboré la vision dans un modèle de données, que nous décrivons ci-dessous.
La première phase de structuration a porté sur la dimension physique. Pour obtenir les données, les livres de résolutions des États Généraux ont d’abord été numerisés. Nous avons ensuite généré des transcriptions en utilisant la reconnaissance automatique de régions et de textes.
Les pages et les transcriptions peuvent être considérées comme des éléments structurels physiques. Ceci s’applique également aux colonnes, aux paragraphes et aux lignes. Nous avons identifié automatiquement ces éléments structurels. Ce processus est contrôlé manuellement. La règle servait d’unité physique de base. Chaque ligne des transcriptions est accompagnée de coordonnées qui font référence à l’emplacement physique de la ligne sur le scan correspondant. Le lien entre numérisation et transcription se fait donc toujours au niveau de la ligne.
Les lignes forment des paragraphes et les paragraphes peuvent être disposés en colonnes. Les colonnes s’affichent sur les pages. Dans le cadre original, les pages forment des cahiers de résolutions, dont chacun possède son propre numéro d’inventaire dans les archives des États Généraux aux Archives Nationales. Nous distinguons quatre types de pages : les pages blanches, les pages de titre, les pages de résolution et les pages d’index. Dans l’application web Goetgevonden, seules les pages de résolution sont proposées, elles sont toutes importantes pour la structuration.
La deuxième phase de structuration s’est focalisée sur la dimension logique. Les cahiers de résolutions sont divisés en séances. Chaque session est annoncée par une date. Les séances comprennent une liste de présence et plusieurs résolutions. Ce sont des éléments structurels logiques.
Quiconque parcourt les résolutions des États Généraux voudra savoir ce que contiennent les résolutions individuelles, quel jour ces résolutions ont été adoptées et éventuellement aussi qui était présent. Dans le projet, nous considérons donc les résolutions comme l’unité logique de base. Quiconque effectue une recherche à Goetgevonden recevra des résolutions comme résultats. Chaque résolution est liée à la date de l’audience au cours de laquelle la résolution a été adoptée. La liste de présence associée à cette journée d’audience est également liée à la résolution, si disponible. Pour que cela soit possible, les jours d’audience et les résolutions ont été distingués dans les transcriptions au moyen d’une segmentation automatique du texte.
Pour faciliter la recherche, nous avons également identifié des entités dans les résolutions. Les entités sont des éléments structurels logiques qui apparaissent à plusieurs reprises dans le texte, tels que des noms de personnes, des lieux et des organisations. La reconnaissance automatique et la conservation des entités sont expliquées plus en détail ici. Un nombre limité d’entités ont été identifiées plus en détail.
Tous les éléments structurels physiques et logiques sont stockés dans des référentiels.
Vidéo connexe :