NLP measures for automatic speech recognition-driven intelligibility prediction: Alternative measures for transcript comparison
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Textjämförelsemått för prediktion av taltydlighet med automatisk taligenkänning : Alternativa mått för jämförelse av transkriptioner (Swedish)
Abstract [en]
Speech intelligibility prediction is the use of methods such as signal processing or machine learning to predict the perceived intelligibility of a speech sample. One method for such predictions leverages automatic speech recognition and text comparison: one transcribes a noisy sample of speech as well as a clean matching reference and compare the resulting transcripts using a text comparison measure, often based on the word-level normalized Levenshtein distance (Word Error Rate). The text comparison score may then be used directly as an intelligibility measure or further optimized using a learned empirical mapping function. We identify a research gap with respect to the text comparison measures used in previous literature, noting that the vast majority are based on the Levenshtein distance or simpler measures. We address this gap by considering four alternative text comparison measures, ROUGE, BLEU, BERTScore, and LLM-based comparison, and investigate how the choice of text comparison measure affects prediction accuracy relative to a Levenshtein baseline. We conclude that most of these alternative measures perform as well as or comparably to the Levenshtein baseline, with the exception of BLEU and BERTScore only when an empirical mapping function is not applied. Furthermore, when the mapping is not applied, ROUGE outperforms the Levenshtein distance, though the difference is not significant. Nonetheless, this reveals that there may exist alternative methods that perform better than the commonly used Levenshtein distance, warranting further exploration. In summary, our findings show that there exist viable alternatives to the word-level Levenshtein distance for predicting speech intelligibility.
Abstract [sv]
Taltydlighetsprediktion är tillämpningen av metoder från signalbehandling eller maskininlärning i syfte att predicera den upplevda tydligheten av ett talsegment. En metod för sådan prediktion använder automatisk taligenkänning och textjämförelse: man transkriberar ett brusigt talsegment och en icke-brusig matchande referens och jämför sedan transkriptionerna med hjälp av ett textjämförelsemått, ofta baserat på det normaliserade Levenshtein-avståndet på ordnivå (Word Error Rate). Textjämförelsemåttet kan sedan användas direkt som ett mått på taltydlighet eller optimeras vidare genom en inlärd empirisk mappningsfunktion. Vi identifierar en avsaknad av forskning vad gäller vilka textjämförelsemått som använts i tidigare arbeten; vi noterar att den stora majoriteten är baserade på Levenshtein-avståndet eller enklare mått. Vi tar oss an denna avsaknad av forskning genom att betrakta fyra alternativa textjämförelsemått: ROUGE, BLEU, BERTScore och LLM-baserad jämförelse; vi undersöker hur valet av mått påverkar prediktionens noggrannhet, med Levenshtein-avståndet som referensnivå. Vi drar slutsatsen att de flesta av dessa alternativa mått presterar lika bra som eller jämförbart med referensnivån (Levenshtein), med undantag för BLEU och BERTScore och då endast om en empirisk mappningsfunktion inte tillämpas. Vidare så presterar ROUGE bättre än Levenshtein-avståndet, när en mappningsfunktion inte tillämpas, men skillnaden är inte statistiskt signifikant. Detta avslöjar dock att det kan finnas alternativa metoder som presterar bättre än det vanligt använda Levenshtein-avståndet, vilket motiverar ytterligare forskning. Sammanfattningsvis tyder våra resultat på att det finns potentiella alternativ till Levenshtein-avståndet för prediktionen av taltydlighet.
Place, publisher, year, edition, pages
2025. , p. 35
Series
TRITA-EECS-EX ; 2025:657
Keywords [en]
Speech intelligibility, Natural language processing, Automatic speech recognition, Text comparison
Keywords [sv]
Taltydlighet, Språkteknologi, Automatisk taligenkänning, Textjämförelse
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-371525OAI: oai:DiVA.org:kth-371525DiVA, id: diva2:2005911
External cooperation
Symphony Communications
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
2025-10-302025-10-122025-10-30Bibliographically approved