kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Predicting Quality of Compressed Frames
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

Video services gain in popularity and there are high demands on quality metrics that correlate to how users perceive the video quality. Current metrics either use source frames as reference to compressed frames when calculating quality, or they do not, depending on the access to high quality source frames, as well as the storage capacities of different services. This essay examined a popular video quality metric that usually has access to reference frames, VMAF, and attempted to predict this metric without reference instead. The purpose of the study was to overcome a problem with current no-reference metrics that does not correlate well with user perception, while at the same time reducing bandwidth consumption and contributing to more sustainable streaming. The study had a quantitative approach, where a Convolutional Neural Network model was trained, tested, and evaluated on parts of compressed frames from movie trailers and the corresponding VMAF scores that were calculated with the reference frames before training the model. The methodology and dataset had some constraints that partly limited the model performance and conclusions of the results, but the model still performed rather well in terms of predicting the distribution of VMAF compared to the true distribution and explaining the variance among the quality scores. However, the model missed some important patterns in the frames, and tended to yield overestimated predictions of the quality. A future study could use a larger dataset with more variability to produce a model that performs better in terms of predicting video quality without reference.

Abstract [sv]

Videotjänster ökar i popularitet, och det är hög efterfrågan på kvalitetsmått som korrelerar till hur användare uppfattar videokvaliteten. Nuvarande kvalitetsmått använder antingen okomprimerade bildrutor som referens till de komprimerade bilderna när kvaliteten beräknas, eller så gör de inte det, beroende på tillgången till högkvalitativa referensbilder samt tjänsternas lagringsmöjligheter. Den här uppsatsen har undersökt ett populärt kvalitetsmått som vanligtvis har tillgång till referensbilder, VMAF, och försökt förutspå det här kvalitetsmåttet utan referens i stället. Syftet med studien var att komma ifrån ett problem med nuvarande mått utan referens som inte korrelerar väl med användarupplevelser, samt att minska bandbreddsanvändning och klimatpåverkan inom streaming. Studien var av kvantitativ karaktär, där ett så kallat Convolutional Neural Network, eller faltningsnätverk, tränades, testades och utvärderades på delar av komprimerade bildrutor från filmtrailers och medhörande VMAF-värden som beräknades tillsammans med referensbilderna innan modellen tränades. Metoden och datasetet hade några begränsningar, vilket delvis försämrade modellens prestanda och möjligheterna till analys av resultaten, men modellen presterade fortfarande bra på att förutspå distributionen av VMAF jämfört med distributionen av den sanna populationen, och på att förklara variationen i datan. Dock missade modellen en del viktiga mönster i bilderna och tenderade att ge överskattade gissningar av kvaliteten. En framtida studie skulle kunna använda ett större dataset med mer variation för att ge upphov till en modell som presterar bättre på att förutspå videokvalitet utan referens.

Place, publisher, year, edition, pages
2024. , p. 13
Series
TRITA-EECS-EX ; 2024:222
Keywords [en]
VMAF, No-reference video quality assessment, Deep Learning, Convolutional Neural Network, DenseNet, Video quality prediction
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-349584OAI: oai:DiVA.org:kth-349584DiVA, id: diva2:1880734
Supervisors
Examiners
Available from: 2024-08-08 Created: 2024-07-01 Last updated: 2024-08-08Bibliographically approved

Open Access in DiVA

fulltext(752 kB)79 downloads
File information
File name FULLTEXT01.pdfFile size 752 kBChecksum SHA-512
f35b29de53bec457f79590b02e80d4bacfe98b94fe28ae71a5b206a92d3f5ac745af46de5b8d9997fa4aed2752055db21a7cdea5710c519a87862fd5075aa4e6
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 79 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 134 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf