kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Predicting Quality of Compressed Frames
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [en]

Video services gain in popularity and there are high demands on quality metrics that correlate to how users perceive the video quality. Current metrics either use source frames as reference to compressed frames when calculating quality, or they do not, depending on the access to high quality source frames, as well as the storage capacities of different services. This essay examined a popular video quality metric that usually has access to reference frames, VMAF, and attempted to predict this metric without reference instead. The purpose of the study was to overcome a problem with current no-reference metrics that does not correlate well with user perception, while at the same time reducing bandwidth consumption and contributing to more sustainable streaming. The study had a quantitative approach, where a Convolutional Neural Network model was trained, tested, and evaluated on parts of compressed frames from movie trailers and the corresponding VMAF scores that were calculated with the reference frames before training the model. The methodology and dataset had some constraints that partly limited the model performance and conclusions of the results, but the model still performed rather well in terms of predicting the distribution of VMAF compared to the true distribution and explaining the variance among the quality scores. However, the model missed some important patterns in the frames, and tended to yield overestimated predictions of the quality. A future study could use a larger dataset with more variability to produce a model that performs better in terms of predicting video quality without reference.

Abstract [sv]

Videotjänster ökar i popularitet, och det är hög efterfrågan på kvalitetsmått som korrelerar till hur användare uppfattar videokvaliteten. Nuvarande kvalitetsmått använder antingen okomprimerade bildrutor som referens till de komprimerade bilderna när kvaliteten beräknas, eller så gör de inte det, beroende på tillgången till högkvalitativa referensbilder samt tjänsternas lagringsmöjligheter. Den här uppsatsen har undersökt ett populärt kvalitetsmått som vanligtvis har tillgång till referensbilder, VMAF, och försökt förutspå det här kvalitetsmåttet utan referens i stället. Syftet med studien var att komma ifrån ett problem med nuvarande mått utan referens som inte korrelerar väl med användarupplevelser, samt att minska bandbreddsanvändning och klimatpåverkan inom streaming. Studien var av kvantitativ karaktär, där ett så kallat Convolutional Neural Network, eller faltningsnätverk, tränades, testades och utvärderades på delar av komprimerade bildrutor från filmtrailers och medhörande VMAF-värden som beräknades tillsammans med referensbilderna innan modellen tränades. Metoden och datasetet hade några begränsningar, vilket delvis försämrade modellens prestanda och möjligheterna till analys av resultaten, men modellen presterade fortfarande bra på att förutspå distributionen av VMAF jämfört med distributionen av den sanna populationen, och på att förklara variationen i datan. Dock missade modellen en del viktiga mönster i bilderna och tenderade att ge överskattade gissningar av kvaliteten. En framtida studie skulle kunna använda ett större dataset med mer variation för att ge upphov till en modell som presterar bättre på att förutspå videokvalitet utan referens.

Ort, förlag, år, upplaga, sidor
2024. , s. 13
Serie
TRITA-EECS-EX ; 2024:222
Nyckelord [en]
VMAF, No-reference video quality assessment, Deep Learning, Convolutional Neural Network, DenseNet, Video quality prediction
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-349584OAI: oai:DiVA.org:kth-349584DiVA, id: diva2:1880734
Handledare
Examinatorer
Tillgänglig från: 2024-08-08 Skapad: 2024-07-01 Senast uppdaterad: 2024-08-08Bibliografiskt granskad

Open Access i DiVA

fulltext(752 kB)85 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 752 kBChecksumma SHA-512
f35b29de53bec457f79590b02e80d4bacfe98b94fe28ae71a5b206a92d3f5ac745af46de5b8d9997fa4aed2752055db21a7cdea5710c519a87862fd5075aa4e6
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 85 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 135 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf