Home Project Datasets Entiteiten

Entiteiten

In Goetgevonden worden de resoluties van de Staten-Generaal aangeboden als scans en als transcripties. In de transcripties zijn verschillende betekenisvolle elementen geïdentificeerd. Deze elementen noemen we ‘entiteiten’. De voorkomens van de verschillende entiteiten zijn uit de resoluties geëxtraheerd. De initiële datasets die dit opleverde zijn vervolgens gecureerd.

Op het moment dat het REPUBLIC-project werd uitgevoerd, was de herkenning van entiteiten in zo’n grote hoeveelheid historische tekst als de resoluties van de Staten-Generaal technisch geavanceerd. Omdat de extractie en curatie van de entiteiten (met het oog op de omvang van het materiaal) grotendeels zijn geautomatiseerd, kunnen de verschillende entiteitendatasets fouten bevatten. Voorkomens van entiteiten in de transcripties kunnen zijn gemist of verkeerd aan elkaar zijn gekoppeld. Het is goed om daarmee rekening te houden wanneer de entiteiten worden gebruikt om de resoluties te filteren.

Er bestaan geen vaste regels over wat kan worden beschouwd als een entiteit. In Goetgevonden zijn entiteiten gekozen die gebruikers kunnen helpen bij het zoeken in de resoluties. De volgende types entiteiten worden onderscheiden:

Voor alle entiteiten geldt dat ze in de resoluties voorkomen in meerdere varianten als gevolg van verschillende spellings- en schrijfwijzen. Daarnaast kunnen er fouten zitten in de automatische tekstherkenning. Dit levert nog meer varianten op. In het curatieproces is iedere variant die voorkomt in de tekst gekoppeld aan een gestandaardiseerde vorm van de entiteit.

In het curatieproces zijn de meeste entiteitstypes verder onderverdeeld in categorieën. Bij de uitleg over de datasets met de afzonderlijke entiteitstypes is steeds vermeld welke categorieën worden onderscheiden.