Home Project De werkwijze Tekstsegmentatie

Tekstsegmentatie

Nadat de tekst van alle scans is herkend, zijn deze gesegmenteerd in afzonderlijke resoluties, gegroepeerd per (zittings)dag.

Hiervoor zijn eerst de zittingsdagen herkend aan de hand van de datum en de lijst met aanwezige gedeputeerden. Dit is gebeurd in twee stappen. Eerst is gezocht naar tekstregels die een datum in een bepaald formaat bevatten om te bepalen of dat het begin van een zittingsdag is, vervolgens is vastgesteld welke datum er wordt genoemd. Op deze manier is voor ieder stuk tekst bepaald bij welke datum het hoort.

Daarna is voor iedere zittingsdag de tekst gesegmenteerd in resoluties. Dit wordt gedaan op basis van een lijst van vaste (formulaire) uitdrukkingen (bijvoorbeeld “Is gehoort het rapport van …” en “Ontfangen een Missive van …”) waarmee resoluties worden ingeluid. Deze formules geven niet alleen aan waar in de tekst een resolutie begint, maar ook wat voor soort actie of document ten grondslag lag aan de resolutie (het propositietype). Het segmenteren in resoluties was uitdagender bij de laatzestiende- en vroegzeventiende-eeuwse resolutieboeken, die een minder formulair karakter hebben. Vrijwilligers hebben daarom meegeholpen de computer te trainen om ook in deze boeken de resoluties zo goed mogelijk van elkaar te kunnen scheiden.

Let op: omdat de segmentatie grotendeels automatisch is verlopen, is het mogelijk dat het begin van een zittingsdag niet is herkend; aan de bijbehorende resoluties is dan de datum van de voorgaande zittingsdag toegekend. Het kan ook dat de datum verkeerd herkend is; ook dan zijn de bijbehorende resoluties aan een verkeerde zittingsdag toegekend. Tot slot zijn resoluties niet altijd goed gesegmenteerd, waardoor het kan voorkomen dat meerdere resoluties samen als één resolutie gesegmenteerd zijn, of het einde van een resolutie bij de volgende resolutie is terechtgekomen.

Gerelateerde video: