Rule-based coreference resolution for German using morphological and semantic information
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Regelbaserad koreferenslösning för tyska med hjälp av morfologisk och semantisk information (Swedish)
Abstract [en]
Coreference resolution is an area within natural language processing, namely the task of determining which expressions in a text refer to the same entity. It is a useful resource for other natural languages processing activities, such as text summarization. Although the latest methods within the field of coreference resolution utilize deep learning, earlier rule-based methods can still be relevant in certain cases. One of the rule-based coreference resolution models developed for German is CoRefGer-rule. It implements the Stanford sieve algorithm originally developed for other languages, such as English. The authors reported that CoRefGer-rule was useful especially for out-of-domain texts where no gold standard information was available, arguing the relevancy of rule-based models. They also gave improvement suggestions for their model. One of the suggestion was to add a morphological analyzer in order to make use of grammatical information about words. Another suggestion was to implement a rule that considers the semantic aspect of words, i.e. the aspect related to the meaning of words. In this project, we developed our own rule-based coreference resolution model based on CoRefGer-rule, where these two suggestions were examined. One of our conclusions was that the use of grammatical information obtained from the morphological analyzer was a fundamental and important part of our system, enabling advanced resolution of pronouns. On the other hand, the semantic information had no significant impact on the performance of our model.
Abstract [sv]
Koreferenslösning är ett språkteknologiskt område som handlar om att avgöra vilka uttryck i en text som refererar till samma fenomen i världen. Koreferenslösning kan i sin tur användas för andra språkteknologiska syften, t.ex. automatisk textsammanfattning. De senaste metoderna för koreferenslösning använder sig av djupinlärning, men även äldre regelbaserade metoder kan vara lämpliga för användning i vissa fall. En av de regelbaserade modellerna som utvecklats för tyska är CoRefGer-rule. Den bygger på den s.k. Stanford sieve-algoritmen som ursprungligen utvecklades för ett antal andra språk, bl.a. engelska. Utvecklarna av CoRefGer-rule menade att deras modell var användbar i synnerhet för texter utanför domänen som saknade guldstandardsdata. De gav även förslag på hur deras modell skulle kunna förbättras. Ett av förslagen var att bygga in morfologisk analys för att kunna utnyttja grammatisk information om ord. Ett annat förslag var att lägga till en regel som tar hänsyn till ordsemantik, alltså ordens betydelse. Det här projektet gick ut på att utveckla ett system inspirerat av CoRefGer-rule och inkludera de funktioner som nämndes i förbättringsförslagen ovan. En av våra slutsatser var att den grammatiska information som extraherades från den morfologiska analysen var en fundamental och viktig del av vårt system. Den möjliggjorde bl.a. avancerad koreferenslösning för pronomen. Samtidigt visade sig den semantiska informationen inte ha någon särskild påverkan på resultatet.
Place, publisher, year, edition, pages
2024. , p. 75
Series
TRITA-EECS-EX ; 2024:206
Keywords [en]
Coreference resolution, natural language processing, German
Keywords [sv]
Koreferenslösning, språkteknologi, tyska
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-349203OAI: oai:DiVA.org:kth-349203DiVA, id: diva2:1879994
Supervisors
Examiners
2024-08-082024-06-292024-08-08Bibliographically approved