Character Navigator: Automated Summarization of Characters in E-Books
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Character Navigator : Automatiserad summering av karaktärer i E-böcker (Swedish)
Abstract [en]
The advent of E-books has revolutionized book consumption but also introduced challenges. E-books offer digital benefits but lack the kinesthetic feedback of printed books, affecting the reading experience. This thesis aims to address these issues by developing a new digital feature for E-books: automatic summarization of characters based on reading progress to avoid spoilers. Existing research has explored book-length summarization using state-ofthe-art machine learning models, but studies on character summarization are limited and outdated. This thesis explores the use of Large Language Models (LLMs) for summarization of fictional characters and develops an interface to present these summaries, the latter being a previously unexplored area. Three services are developed: a character summarization service, a server, and a client. The character summarization service identifies characters using the BERT-Large-NER model and summarizes them with GPT-4 using hierarchical merging. Summaries are stored as CSV files, accessed via the server, and displayed in the client through a panel activated by clicking a character’s name. Only summaries up to the clicked character’s location are shown to prevent spoilers. The evaluation focuses on the machine learning service’s ability to generate well-crafted summaries, assessed by content and format adherence. Content quality is measured using reference-based BERTScore, which calculates semantic similarity against a gold-standard summary. Format adherence is evaluated using a custom framework counting narratological components and their correct order. We found that while content adherence met the set threshold, format adherence results were unsatisfactory.
Abstract [sv]
E-böcker har revolutionerat bokkonsumtionen men också introducerat utmaningar. E-böcker erbjuder digitala fördelar men saknar den kinestetiska återkopplingen som återfinns i tryckta böcker, vilket påverkar läsupplevelsen. Denna uppsats syftar till att lösa dessa problem genom att utveckla en ny digital funktion för E-böcker: automatisk sammanfattning av karaktärer baserat på användarens position i boken för att undvika spoilers. Befintlig forskning har utforskat sammanfattning av böcker med moderna maskininlärningsmodeller, men forskning om sammanfattning av karaktärer är begränsade och ej aktuella. Denna uppsats utforskar användningen av stora språkmodeller för att sammanfatta skönlitterära karaktärer och utvecklar ett gränssnitt för att presentera dessa sammanfattningar, varav det senare är ett tidigare outforskat område. Arbetet innefattar tre tjänster: en karaktärssammanfattningstjänst, en server och en klient. Karaktärssammanfattningstjänsten identifierar karaktärer med hjälp av modellen BERT-Large-NER och sammanfattar dem med GPT4 genom hierarkisk sammanfogning. Sammanfattningarna lagras som CSVfiler, åtkomliga via servern, och visas i klienten genom en panel som aktiveras genom att klicka på en karaktärs namn. Endast sammanfattningar fram till den markerade karaktärens plats visas för att undvika spoilers. Utvärderingen fokuserar på maskininlärningstjänstens förmåga att generera välskrivna sammanfattningar, bedömda efter innehålls- och formatöverensstämmelse. Innehållskvaliteten mättes med referensbaserad BERTScore, som beräknar semantisk likhet gentemot en guldstandardssammanfattning. Formatöverensstämmelse utvärderas med ett av författarna tillverkat ramverk som räknar narratologiska komponenter och deras korrekta ordning. Vi fann att innehållsöverensstämmelsen nådde den bestämda tröskeln, men resultaten för formatöverensstämmelse var otillfredsställande.
Place, publisher, year, edition, pages
2024. , p. 74
Series
TRITA-EECS-EX ; 2024:304
Keywords [en]
E-books, Character Summaries, Machine Learning, Large Language Models, Named Entity Recognition, ML, LLM, NER
Keywords [sv]
E-böcker, Karaktärssammanfattningar, Maskininlärning, Stora språkmodeller, Namngiven entitetsigenkänning, ML, LLM, NER
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351881OAI: oai:DiVA.org:kth-351881DiVA, id: diva2:1890092
External cooperation
BookBeat
Supervisors
Examiners
2024-10-172024-08-192024-10-17Bibliographically approved