Entiteitenherkenning
Als laatste onderdeel van het ontsluitingsproces zijn de resoluties verrijkt met annotaties die namen aanwijzen van plaatsen, personen, organisaties en andere relevante zaken in de tekst. De gebruikelijke term voor zulke aangewezen zaken is named entities. Deze entiteiten vormen een soort digitale registers op de tekst van de resoluties. De volgende soorten entiteiten zijn herkend:
- Persoonsnamen
- Hoedanigheden (functies of rollen van personen)
- Locaties (plaatsen, gebieden, landen)
- Organisaties
- Commissies van de Staten-Generaal
- Verwijzingen naar andere resoluties
Het markeren van entiteiten is in twee stappen verlopen. Voor de eerste stap (de herkenning) is een aantal taalmodellen getraind op een selectie van door vrijwilligers handmatig geannoteerde resoluties. Deze taalmodellen hebben vervolgens door het hele corpus plaatsen aangewezen waar naar entiteiten verwezen wordt. Het ordenen, sorteren en toewijzen van deze tekstplaatsen vormt de tweede stap (de curatie) van het herkenningsproces.
De voornaamste uitdaging bij het cureren van entiteiten is de variatie in de wijze waarop naar entiteiten wordt verwezen. Die variatie heeft meerdere oorzaken. Allereerst zorgen spel- en tekstherkenningsfouten voor ruis in de namen van entiteiten zelf. Daarnaast veranderen spelling en taalgebruik in de loop van het tijdsbestek dat de resoluties beslaan.
Vanwege het grote aantal entiteiten (miljoenen) was handmatige curatie van entiteiten niet mogelijk. Hoewel de precieze manier van verwerking tussen de verschillende soorten entiteiten verschilt, bestaat het proces in grote lijnen steeds uit twee delen: het identificeren van de entiteiten die in de resoluties voorkomen en het toewijzen van tekstplaatsen aan de geïdentificeerde entiteiten. Het tweede deel verloopt steeds automatisch; de lijsten in het eerste deel zijn meestal handmatig opgesteld. Het is niet voor alle tekstplaatsen mogelijk geweest, in deze curatiestap de koppeling met een bekende entiteit te maken. Tekstplaatsen die niet konden worden thuisgebracht zijn niet gemarkeerd en uit de dataset weggelaten. Het gaat daarbij overigens meestal om tekstplaatsen die door het taalmodel ten onrechte als verwijzing naar een entiteit zijn aangewezen, of om verwijzingen naar entiteiten die maar één of enkele keren voorkomen. Zie hier voor verdere toelichting over de specifieke entiteitstypen.
Gerelateerde video’s: