Character Navigator: Automated Summarization of Characters in E-Books
2024 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hp
Studentuppsats (Examensarbete)Alternativ titel
Character Navigator : Automatiserad summering av karaktärer i E-böcker (Svenska)
Abstract [en]
The advent of E-books has revolutionized book consumption but also introduced challenges. E-books offer digital benefits but lack the kinesthetic feedback of printed books, affecting the reading experience. This thesis aims to address these issues by developing a new digital feature for E-books: automatic summarization of characters based on reading progress to avoid spoilers. Existing research has explored book-length summarization using state-ofthe-art machine learning models, but studies on character summarization are limited and outdated. This thesis explores the use of Large Language Models (LLMs) for summarization of fictional characters and develops an interface to present these summaries, the latter being a previously unexplored area. Three services are developed: a character summarization service, a server, and a client. The character summarization service identifies characters using the BERT-Large-NER model and summarizes them with GPT-4 using hierarchical merging. Summaries are stored as CSV files, accessed via the server, and displayed in the client through a panel activated by clicking a character’s name. Only summaries up to the clicked character’s location are shown to prevent spoilers. The evaluation focuses on the machine learning service’s ability to generate well-crafted summaries, assessed by content and format adherence. Content quality is measured using reference-based BERTScore, which calculates semantic similarity against a gold-standard summary. Format adherence is evaluated using a custom framework counting narratological components and their correct order. We found that while content adherence met the set threshold, format adherence results were unsatisfactory.
Abstract [sv]
E-böcker har revolutionerat bokkonsumtionen men också introducerat utmaningar. E-böcker erbjuder digitala fördelar men saknar den kinestetiska återkopplingen som återfinns i tryckta böcker, vilket påverkar läsupplevelsen. Denna uppsats syftar till att lösa dessa problem genom att utveckla en ny digital funktion för E-böcker: automatisk sammanfattning av karaktärer baserat på användarens position i boken för att undvika spoilers. Befintlig forskning har utforskat sammanfattning av böcker med moderna maskininlärningsmodeller, men forskning om sammanfattning av karaktärer är begränsade och ej aktuella. Denna uppsats utforskar användningen av stora språkmodeller för att sammanfatta skönlitterära karaktärer och utvecklar ett gränssnitt för att presentera dessa sammanfattningar, varav det senare är ett tidigare outforskat område. Arbetet innefattar tre tjänster: en karaktärssammanfattningstjänst, en server och en klient. Karaktärssammanfattningstjänsten identifierar karaktärer med hjälp av modellen BERT-Large-NER och sammanfattar dem med GPT4 genom hierarkisk sammanfogning. Sammanfattningarna lagras som CSVfiler, åtkomliga via servern, och visas i klienten genom en panel som aktiveras genom att klicka på en karaktärs namn. Endast sammanfattningar fram till den markerade karaktärens plats visas för att undvika spoilers. Utvärderingen fokuserar på maskininlärningstjänstens förmåga att generera välskrivna sammanfattningar, bedömda efter innehålls- och formatöverensstämmelse. Innehållskvaliteten mättes med referensbaserad BERTScore, som beräknar semantisk likhet gentemot en guldstandardssammanfattning. Formatöverensstämmelse utvärderas med ett av författarna tillverkat ramverk som räknar narratologiska komponenter och deras korrekta ordning. Vi fann att innehållsöverensstämmelsen nådde den bestämda tröskeln, men resultaten för formatöverensstämmelse var otillfredsställande.
Ort, förlag, år, upplaga, sidor
2024. , s. 74
Serie
TRITA-EECS-EX ; 2024:304
Nyckelord [en]
E-books, Character Summaries, Machine Learning, Large Language Models, Named Entity Recognition, ML, LLM, NER
Nyckelord [sv]
E-böcker, Karaktärssammanfattningar, Maskininlärning, Stora språkmodeller, Namngiven entitetsigenkänning, ML, LLM, NER
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-351881OAI: oai:DiVA.org:kth-351881DiVA, id: diva2:1890092
Externt samarbete
BookBeat
Handledare
Examinatorer
2024-10-172024-08-192024-10-17Bibliografiskt granskad