kth.sePublications
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
NLP measures for automatic speech recognition-driven intelligibility prediction: Alternative measures for transcript comparison
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Textjämförelsemått för prediktion av taltydlighet med automatisk taligenkänning : Alternativa mått för jämförelse av transkriptioner (Swedish)
Abstract [en]

Speech intelligibility prediction is the use of methods such as signal processing or machine learning to predict the perceived intelligibility of a speech sample. One method for such predictions leverages automatic speech recognition and text comparison: one transcribes a noisy sample of speech as well as a clean matching reference and compare the resulting transcripts using a text comparison measure, often based on the word-level normalized Levenshtein distance (Word Error Rate). The text comparison score may then be used directly as an intelligibility measure or further optimized using a learned empirical mapping function. We identify a research gap with respect to the text comparison measures used in previous literature, noting that the vast majority are based on the Levenshtein distance or simpler measures. We address this gap by considering four alternative text comparison measures, ROUGE, BLEU, BERTScore, and LLM-based comparison, and investigate how the choice of text comparison measure affects prediction accuracy relative to a Levenshtein baseline. We conclude that most of these alternative measures perform as well as or comparably to the Levenshtein baseline, with the exception of BLEU and BERTScore only when an empirical mapping function is not applied. Furthermore, when the mapping is not applied, ROUGE outperforms the Levenshtein distance, though the difference is not significant. Nonetheless, this reveals that there may exist alternative methods that perform better than the commonly used Levenshtein distance, warranting further exploration. In summary, our findings show that there exist viable alternatives to the word-level Levenshtein distance for predicting speech intelligibility.

Abstract [sv]

Taltydlighetsprediktion är tillämpningen av metoder från signalbehandling eller maskininlärning i syfte att predicera den upplevda tydligheten av ett talsegment. En metod för sådan prediktion använder automatisk taligenkänning och textjämförelse: man transkriberar ett brusigt talsegment och en icke-brusig matchande referens och jämför sedan transkriptionerna med hjälp av ett textjämförelsemått, ofta baserat på det normaliserade Levenshtein-avståndet på ordnivå (Word Error Rate). Textjämförelsemåttet kan sedan användas direkt som ett mått på taltydlighet eller optimeras vidare genom en inlärd empirisk mappningsfunktion. Vi identifierar en avsaknad av forskning vad gäller vilka textjämförelsemått som använts i tidigare arbeten; vi noterar att den stora majoriteten är baserade på Levenshtein-avståndet eller enklare mått. Vi tar oss an denna avsaknad av forskning genom att betrakta fyra alternativa textjämförelsemått: ROUGE, BLEU, BERTScore och LLM-baserad jämförelse; vi undersöker hur valet av mått påverkar prediktionens noggrannhet, med Levenshtein-avståndet som referensnivå. Vi drar slutsatsen att de flesta av dessa alternativa mått presterar lika bra som eller jämförbart med referensnivån (Levenshtein), med undantag för BLEU och BERTScore och då endast om en empirisk mappningsfunktion inte tillämpas. Vidare så presterar ROUGE bättre än Levenshtein-avståndet, när en mappningsfunktion inte tillämpas, men skillnaden är inte statistiskt signifikant. Detta avslöjar dock att det kan finnas alternativa metoder som presterar bättre än det vanligt använda Levenshtein-avståndet, vilket motiverar ytterligare forskning. Sammanfattningsvis tyder våra resultat på att det finns potentiella alternativ till Levenshtein-avståndet för prediktionen av taltydlighet.

Place, publisher, year, edition, pages
2025. , p. 35
Series
TRITA-EECS-EX ; 2025:657
Keywords [en]
Speech intelligibility, Natural language processing, Automatic speech recognition, Text comparison
Keywords [sv]
Taltydlighet, Språkteknologi, Automatisk taligenkänning, Textjämförelse
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-371525OAI: oai:DiVA.org:kth-371525DiVA, id: diva2:2005911
External cooperation
Symphony Communications
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
Available from: 2025-10-30 Created: 2025-10-12 Last updated: 2025-10-30Bibliographically approved

Open Access in DiVA

fulltext(584 kB)11 downloads
File information
File name FULLTEXT01.pdfFile size 584 kBChecksum SHA-512
457046170333484f063f9482b281040fd576587ca1feb3b8279d6e11e9ca4e817110ff26f28fd94d6fdccd573470010c0d7535f06f1e038a4c0e51f939afd81f
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 132 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf