Entity Linking on Financial Transaction Descriptions: A comparison between keyword matching approaches and vector database approaches
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Namnenhetslänkning på Transaktionsbeskrivningar : En jämförelse mellan nyckelordsmatchningsmetoder och vektordatabasmetoder (Swedish)
Abstract [en]
Due to the rapid development of open banking it is of great interest to transform transaction data into useful information accurately that can enable better financial applications and services. Especially transaction descriptions have the potential to be transformed into information that can provide fruitful insights, enabling applications within for instance transaction enrichment, transaction categorization and fraud detection. One Natural Language Processing technique called Entity Linking is suitable for this task as it both identifies named entities in text, and disambiguates the named entities to entries in a knowledge base. However, it is a complex problem because of the structure of transaction description data and no previous research has been conducted using Entity Linking for this purpose. This thesis therefore aims to examine how Entity Linking can be performed on Swedish transaction descriptions. Existing Entity Linking algorithms are developed for text very different to text in transaction descriptions and because of this three custom made algorithms were developed in this thesis, using Wikidata as the knowledge base. Data was also gathered and analyzed by annotating 2300 Swedish transaction descriptions with corresponding Wikidata entries for developing and evaluating the algorithms. The most performant of these algorithms uses the Wikidata query service to retrieve candidate entries, and then ranks these using internal Wikidata properties. This algorithm reached a disambiguation only F1-score of 0.856 and an end-to-end F1-score of 0.815, showing that it is possible to transform transaction description data into useful information with Entity Linking. To further explore the use of Entity Linking on transaction descriptions and transforming the data to even more useful information, future research can focus on developing other types of Entity Linking algorithms. Also other knowledge bases such as for example OpenStreetMap can be used.
Abstract [sv]
På grund av den snabba utvecklingen av öppen bankverksamhet är det av stort intresse att omvandla transaktionsdata till användbar information på ett noggrant sätt som kan möjliggöra bättre finansiella applikationer och tjänster. Särskilt transaktionsbeskrivningar har potential att omvandlas till information som kan ge värdefulla insikter och möjliggöra tillämpningar inom till exempel transaktionsberikning, transaktionskategorisering och bedrägeriupptäckt. En språkteknologi-teknik som heter namnenhetslänkning är lämplig för denna uppgift eftersom den både identifierar namngivna enheter i text och disambiguerar de namngivna enheterna till poster i en kunskapsbas. Detta är dock ett komplext problem på grund av strukturen hos transaktionsbeskrivningsdata och ingen tidigare forskning har utförts som använder namnenhetslänkning för detta ändamål. Detta examensarbete syftar därför till att undersöka hur namnenhetslänkning kan utföras på svenska transaktionsbeskrivningar. Eftersom existerande namnenhetslänkningsalgoritmer är utvecklade för textdata väldigt olik text i transaktionsbeskrivningar så utvecklades tre anpassade algoritmer i denna uppsats med Wikidata som kunskapsbas. Data samlades också in och analyserades genom att annotera 2300 svenska transaktionsbeskrivningar med motsvarande Wikidata-poster för att utveckla och utvärdera algoritmerna. Den bästa av dessa algoritmer använder Wikidatas frågetjänst för att hämta kandidat-poster, och rankar sedan dessa med interna Wikidata- egenskaper. Denna algoritm nådde en F1-poäng på 0,856 med enbart disambiguering och en F1-poäng på 0,815 med både identifiering av namngivna enheter och disambiguering, vilket visar att det är möjligt att omvandla transaktionsbeskrivningsdata till användbar information med namnenhetslänkning. För att ytterligare utforska användningen av nam- nenhetslänkning på transaktionsbeskrivningar och omvandla data till mer användbar information kan framtida forskning fokusera på att utvecklas andra typer av namnenhetslänkningsalgoritmer. Också andra kunskapsbaser som till exempel OpenStreetMap kan användas.
Place, publisher, year, edition, pages
2024. , p. 65
Series
TRITA-EECS-EX ; 2024:768
Keywords [en]
Entity Linking, Entity Disambiguation, Natural Language Processing, Transaction Descriptions, Open Banking
Keywords [sv]
namnenhetslänkning, namnenhetsdisambiguering, språkteknologi, transak- tionsbeskrivningar, öppen bankverksamhet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360196OAI: oai:DiVA.org:kth-360196DiVA, id: diva2:1938964
External cooperation
Tink AB
Supervisors
Examiners
2025-02-242025-02-202025-02-24Bibliographically approved