kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Character Navigator: Automated Summarization of Characters in E-Books
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
Character Navigator : Automatiserad summering av karaktärer i E-böcker (Svenska)
Abstract [en]

The advent of E-books has revolutionized book consumption but also introduced challenges. E-books offer digital benefits but lack the kinesthetic feedback of printed books, affecting the reading experience. This thesis aims to address these issues by developing a new digital feature for E-books: automatic summarization of characters based on reading progress to avoid spoilers. Existing research has explored book-length summarization using state-ofthe-art machine learning models, but studies on character summarization are limited and outdated. This thesis explores the use of Large Language Models (LLMs) for summarization of fictional characters and develops an interface to present these summaries, the latter being a previously unexplored area. Three services are developed: a character summarization service, a server, and a client. The character summarization service identifies characters using the BERT-Large-NER model and summarizes them with GPT-4 using hierarchical merging. Summaries are stored as CSV files, accessed via the server, and displayed in the client through a panel activated by clicking a character’s name. Only summaries up to the clicked character’s location are shown to prevent spoilers. The evaluation focuses on the machine learning service’s ability to generate well-crafted summaries, assessed by content and format adherence. Content quality is measured using reference-based BERTScore, which calculates semantic similarity against a gold-standard summary. Format adherence is evaluated using a custom framework counting narratological components and their correct order. We found that while content adherence met the set threshold, format adherence results were unsatisfactory.

Abstract [sv]

E-böcker har revolutionerat bokkonsumtionen men också introducerat utmaningar. E-böcker erbjuder digitala fördelar men saknar den kinestetiska återkopplingen som återfinns i tryckta böcker, vilket påverkar läsupplevelsen. Denna uppsats syftar till att lösa dessa problem genom att utveckla en ny digital funktion för E-böcker: automatisk sammanfattning av karaktärer baserat på användarens position i boken för att undvika spoilers. Befintlig forskning har utforskat sammanfattning av böcker med moderna maskininlärningsmodeller, men forskning om sammanfattning av karaktärer är begränsade och ej aktuella. Denna uppsats utforskar användningen av stora språkmodeller för att sammanfatta skönlitterära karaktärer och utvecklar ett gränssnitt för att presentera dessa sammanfattningar, varav det senare är ett tidigare outforskat område. Arbetet innefattar tre tjänster: en karaktärssammanfattningstjänst, en server och en klient. Karaktärssammanfattningstjänsten identifierar karaktärer med hjälp av modellen BERT-Large-NER och sammanfattar dem med GPT4 genom hierarkisk sammanfogning. Sammanfattningarna lagras som CSVfiler, åtkomliga via servern, och visas i klienten genom en panel som aktiveras genom att klicka på en karaktärs namn. Endast sammanfattningar fram till den markerade karaktärens plats visas för att undvika spoilers. Utvärderingen fokuserar på maskininlärningstjänstens förmåga att generera välskrivna sammanfattningar, bedömda efter innehålls- och formatöverensstämmelse. Innehållskvaliteten mättes med referensbaserad BERTScore, som beräknar semantisk likhet gentemot en guldstandardssammanfattning. Formatöverensstämmelse utvärderas med ett av författarna tillverkat ramverk som räknar narratologiska komponenter och deras korrekta ordning. Vi fann att innehållsöverensstämmelsen nådde den bestämda tröskeln, men resultaten för formatöverensstämmelse var otillfredsställande.

Ort, förlag, år, upplaga, sidor
2024. , s. 74
Serie
TRITA-EECS-EX ; 2024:304
Nyckelord [en]
E-books, Character Summaries, Machine Learning, Large Language Models, Named Entity Recognition, ML, LLM, NER
Nyckelord [sv]
E-böcker, Karaktärssammanfattningar, Maskininlärning, Stora språkmodeller, Namngiven entitetsigenkänning, ML, LLM, NER
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-351881OAI: oai:DiVA.org:kth-351881DiVA, id: diva2:1890092
Externt samarbete
BookBeat
Handledare
Examinatorer
Tillgänglig från: 2024-10-17 Skapad: 2024-08-19 Senast uppdaterad: 2024-10-17Bibliografiskt granskad

Open Access i DiVA

fulltext(3623 kB)193 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 3623 kBChecksumma SHA-512
fac1d755bf82b031f4b152d49f6777302af9e1150cdd64822c0bb519aa75b6d1fe6e5e30dc950af04c8b73f713b47acb58444f8a91eacc2279a549488cd4c216
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 193 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 238 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf