CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting Unsynchronized Audio and Subtitles using Machine Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Detektering av osynkroniserat ljud och undertexter genom maskininlärning (Swedish)
Abstract [en]

Unsynchronized audio and subtitle files are common within streaming media. As subtitles often are an essential part of the viewing experience, this can have large consequences, possibly making the content inaccessible. Detecting the unsynchronization manually is a time consuming task, as entire media files have to be viewed and evaluated by a person.

In this thesis an investigation on how to detect unsynchronized audio and subtitles automatically using machine learning is performed. The process is divided into two parts. The first part consists of training the models Support Vector Machine, Random Forest and Multilayer Perceptron to classify whether subtitles should be present given features extracted from audio. As a part of this process the algorithms are compared and evaluated based on their accuracy and time-efficiency. The second part is composed of using the best model to detect unsynchronization. It is done through a similarity measurement between the predicted subtitle distribution and the distribution of the actual subtitles. If a better similarity can be found through shifting the subtitles, the files are classified as unsynchronized.

The project shows that Random Forest has the highest accuracy and is thus best suited for the purpose. Of ten file pairs tested for unsynchronization the method successfully categorized nine of them. The conclusion is that the approach is working, yet future work includes increasing the accuracy through testing other algorithms and audio feature extraction techniques.

Abstract [sv]

Osynkroniserade ljud- och undertextfiler är vanligt förekommande inom strömmande media. Då undertexter ofta står för en viktig del i upplevelsen av innehållet, så kan detta medföra stora konsekvenser, och till och med göra innehållet obegripligt för vissa tittare. Att manuellt detektera detta problem är tidskrävande eftersom mediafiler måste undersökas och utvärderas i detalj.

I examensarbetet undersöks hur maskininlärning kan användas för att automatiskt detektera om ljud och undertexter är osynkroniserade. Processen kan beskrivas i två delar, där den första delen går ut på att träna maskinlärningsmodellerna Support Vector Machine, Random Forest och Multilayer Perceptron att klassificera huruvida det ska vara undertext eller inte. Input till modellerna består av data extraherat från ljudfiler. För att avgöra vilken model som är bäst jämförs modellerna och utvärderas med avseende på träffsäkerheten och tidseffektiviten. Den andra delen går ut på att använda den bästa modellen för att detektera om ljud- och undertextfiler är osynkroniserade. Detta görs genom att jämföra den förutspådda undertextfördelningen med den faktiska undertexten och söka efter en bättre överensstämmelse genom att förskjuta undertexten, om det går att påvisa att en bättre överensstämmelse finns tillgänglig klassificeras filparet osynkroniserat.

Arbetet visar på att Random Forest har högst träffsäkerhet och lämpar sig bäst för ändamålet. Av tio filpar som testades lyckades metoden göra en korrekt detektering för nio av filparen. Slutsatsen är att metoden fungerar men att ytterliggare arbete innefattar att öka träffsäkerheten genom att testa andra algoritmer eller ljudextraheringstekniker.

Place, publisher, year, edition, pages
2019. , p. 46
Series
TRITA-EECS-EX ; 2019:496
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-261414OAI: oai:DiVA.org:kth-261414DiVA, id: diva2:1358316
Supervisors
Examiners
Available from: 2019-10-08 Created: 2019-10-07 Last updated: 2019-10-08Bibliographically approved

Open Access in DiVA

fulltext(884 kB)5 downloads
File information
File name FULLTEXT01.pdfFile size 884 kBChecksum SHA-512
31a9ab1ab478aba55a17164466799b57c7f675df067386f7119bc2bbb5ed28279f6c8984093445d5289cb8d4f1042326a05fdbf9736daa376c709d841cfe3517
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 5 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 25 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf