Home Project De werkwijze Datamodel

Datamodel

Binnen het REPUBLIC-project hebben we gewerkt vanuit een specifieke visie op het structureren van de data. Van belang in deze visie is dat de datastructuur zowel een fysieke als een logische dimensie heeft. De visie hebben we uitgewerkt in een datamodel, dat we hieronder beschrijven.

De eerste fase van structurering richtte zich op de fysieke dimensie. Om de data te verkrijgen, zijn de resolutieboeken van de Staten-Generaal eerst gescand. Vervolgens hebben we door middel van automatische regio- en tekstherkenning transcripties gegenereerd.

Pagina’s en transcripties kunnen worden beschouwd als fysieke structuurelementen. Dit geldt ook voor kolommen, alinea’s en regels. Deze structuurelementen hebben we automatisch geïdentificeerd. Dit proces is handmatig gecontroleerd. De regel gold daarbij als fysieke basiseenheid. Elke regel in de transcripties is voorzien van coördinaten die verwijzen naar de fysieke plaats van de regel op de bijbehorende scan. De koppeling tussen scan en transcriptie vindt dus steeds plaats op regelniveau.

De regels vormen alinea’s en de alinea’s kunnen zijn gerangschikt in kolommen. De kolommen komen voor op pagina’s. In de originele setting vormen de pagina’s resolutieboeken, die in het archief van de Staten-Generaal in het Nationaal Archief elk een eigen inventarisnummer hebben. We onderscheiden vier soorten pagina’s: lege pagina’s, titelpagina’s, resolutiepagina’s en indexpagina’s. In de webapplicatie Goetgevonden worden alleen de resolutiepagina’s aangeboden, voor de structurering zijn ze allemaal van belang.

De tweede fase van structurering richtte zich op de logische dimensie. De resolutieboeken zijn verdeeld in zittingen. Iedere zitting wordt aangekondigd met een datum. Zittingen bestaan uit een presentielijst en meerdere resoluties. Dit zijn logische structuurelementen.

Wie zoekt in de resoluties van de Staten-Generaal, zal willen weten wat er in afzonderlijke resoluties staat, op welke dag deze resoluties genomen zijn en mogelijk ook wie erbij aanwezig is geweest. In het project beschouwen we daarom resoluties als logische basiseenheid. Wie in Goetgevonden een zoekactie uitvoert, krijgt resoluties terug als resultaten. Aan iedere resolutie is de datum gekoppeld van de zittingsdag waarop de resolutie is genomen. Ook de presentielijst die hoort bij deze zittingsdag is, indien beschikbaar, gekoppeld aan de resolutie. Om dit mogelijk te maken, zijn in de transcripties de zittingsdagen en de resoluties onderscheiden door middel van automatische tekstsegmentatie.

Om het zoeken te vergemakkelijken, hebben we in de resoluties ook entiteiten herkend. Entiteiten zijn logische structuurelementen die herhaaldelijk in de tekst voorkomen, zoals persoonsnamen, locaties en organisaties. De automatische herkenning en curatie van entiteiten wordt hier nader toegelicht. Een beperkt aantal entiteiten is nader geïdentificeerd.

Alle fysieke en logische structuurelementen zijn opgeslagen in repositories.

Gerelateerde video: