Predicting Quality of Compressed Frames
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [en]
Video services gain in popularity and there are high demands on quality metrics that correlate to how users perceive the video quality. Current metrics either use source frames as reference to compressed frames when calculating quality, or they do not, depending on the access to high quality source frames, as well as the storage capacities of different services. This essay examined a popular video quality metric that usually has access to reference frames, VMAF, and attempted to predict this metric without reference instead. The purpose of the study was to overcome a problem with current no-reference metrics that does not correlate well with user perception, while at the same time reducing bandwidth consumption and contributing to more sustainable streaming. The study had a quantitative approach, where a Convolutional Neural Network model was trained, tested, and evaluated on parts of compressed frames from movie trailers and the corresponding VMAF scores that were calculated with the reference frames before training the model. The methodology and dataset had some constraints that partly limited the model performance and conclusions of the results, but the model still performed rather well in terms of predicting the distribution of VMAF compared to the true distribution and explaining the variance among the quality scores. However, the model missed some important patterns in the frames, and tended to yield overestimated predictions of the quality. A future study could use a larger dataset with more variability to produce a model that performs better in terms of predicting video quality without reference.
Abstract [sv]
Videotjänster ökar i popularitet, och det är hög efterfrågan på kvalitetsmått som korrelerar till hur användare uppfattar videokvaliteten. Nuvarande kvalitetsmått använder antingen okomprimerade bildrutor som referens till de komprimerade bilderna när kvaliteten beräknas, eller så gör de inte det, beroende på tillgången till högkvalitativa referensbilder samt tjänsternas lagringsmöjligheter. Den här uppsatsen har undersökt ett populärt kvalitetsmått som vanligtvis har tillgång till referensbilder, VMAF, och försökt förutspå det här kvalitetsmåttet utan referens i stället. Syftet med studien var att komma ifrån ett problem med nuvarande mått utan referens som inte korrelerar väl med användarupplevelser, samt att minska bandbreddsanvändning och klimatpåverkan inom streaming. Studien var av kvantitativ karaktär, där ett så kallat Convolutional Neural Network, eller faltningsnätverk, tränades, testades och utvärderades på delar av komprimerade bildrutor från filmtrailers och medhörande VMAF-värden som beräknades tillsammans med referensbilderna innan modellen tränades. Metoden och datasetet hade några begränsningar, vilket delvis försämrade modellens prestanda och möjligheterna till analys av resultaten, men modellen presterade fortfarande bra på att förutspå distributionen av VMAF jämfört med distributionen av den sanna populationen, och på att förklara variationen i datan. Dock missade modellen en del viktiga mönster i bilderna och tenderade att ge överskattade gissningar av kvaliteten. En framtida studie skulle kunna använda ett större dataset med mer variation för att ge upphov till en modell som presterar bättre på att förutspå videokvalitet utan referens.
Place, publisher, year, edition, pages
2024. , p. 13
Series
TRITA-EECS-EX ; 2024:222
Keywords [en]
VMAF, No-reference video quality assessment, Deep Learning, Convolutional Neural Network, DenseNet, Video quality prediction
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-349584OAI: oai:DiVA.org:kth-349584DiVA, id: diva2:1880734
Supervisors
Examiners
2024-08-082024-07-012024-08-08Bibliographically approved