kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatic Podcast Chapter Segmentation: A Framework for Implementing and Evaluating Chapter Boundary Models for Transcribed Audio Documents
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Automatisk kapitelindelning för podcasts : Ett ramverk för att implementera och utvärdera segmenteringsmodeller för ljuddokument (Swedish)
Abstract [en]

Podcasts are an exponentially growing audio medium where useful and relevant content should be served, which requires new methods of information sorting. This thesis is the first to look into the state-of-art problem of segmenting podcasts into chapters (structurally and topically coherent sections). Podcast segmentation is a more difficult problem than segmenting structured text due to spontaneous speech and transcription errors from automatic speech recognition systems. This thesis used author-provided timestamps from podcast descriptions as labels to perform supervised learning. Binary classification is performed on sentences from podcast transcripts. A general framework is delivered for creating a dataset with 21 436 podcast episodes, training a supervised model, and for evaluation. The framework managed to address technical challenges such as a high data imbalance (there are few chapter transitions per episode), and finding an appropriate context size (how many sentences are shown to the model during inference). The proposed model outperformed a baseline model in quantitative metrics and in a human evaluation with 100 transitions. The solution provided in this thesis can be used to chapterize podcasts, which has many downstream applications, such as segment sorting, summarization, and information retrieval.

Abstract [sv]

Podcasts är ett exponentiellt växande ljudmedium där användbart och relevant innehåll är viktigt, vilket kräver nya metoder för sortering av information. Detta examensarbete är det första projektet som antar utmaningen att segmentera podcasts in i kapitel (strukturellt och tematiskt sammanhängande avsnitt). Podcastsegmentering är ett svårare problem än att segmentera strukturerad text på grund av spontant tal och fel i transkriberingssystem. Detta projekt använde kapiteltider från podcastbeskrivningar som signaler för att kunna göra supervised learning. Binär klassificering görs på meningar från podcast-transkript. Denna uppsats levererar ett ramverk för att skapa ett dataset med 21 436 podcasts, träna en supervised maskininlärningsmodell samt för utvärdering. Ramverket lyckades lösa tekniska utmaningar såsom obalanserad data (det är få kapitelövergångar i varje podcast) och att hitta en rimlig kontextstorlek (hur många meningar som modellen ser för varje inferens). Den tränade modellen var bättre än en slumpmässig referensmodell i både kvantitativa mätningar samt i en mänsklig utvärdering för 100 kapitelövergångar. Slutligen, detta examensarbete har resulterat i en lösning som kan kapitelindela podcasts, vilket har många applikationer såsom sortering av segment, summering, och informationssökning.

Place, publisher, year, edition, pages
2022. , p. 63
Series
TRITA-EECS-EX ; 2022:559
Keywords [en]
Machine Learning, Natural Language Processing, Speech Technology, Deep Learning, Podcast Segmentation
Keywords [sv]
Maskininlärning, Språkteknologi, Djupinlärning, Podcast Segmentation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-320776OAI: oai:DiVA.org:kth-320776DiVA, id: diva2:1707501
Educational program
Master of Science - Machine Learning
Supervisors
Examiners
Available from: 2022-11-02 Created: 2022-10-31 Last updated: 2022-11-02Bibliographically approved

Open Access in DiVA

fulltext(2943 kB)1178 downloads
File information
File name FULLTEXT01.pdfFile size 2943 kBChecksum SHA-512
3ae97d472f7b7e51199fc7cf43ec045726d09ed39d3cb1932a24735886884081d34d0ac49e420a2a9299715140632c834ae63acccdaf53f1f0be1fc6a0cdde72
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 1178 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1085 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf