kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Visual Attention Guided Adaptive Quantization for x265 using Deep Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Visuellt fokus baserad adaptiv kvantisering för x265 med djup inlärning (Swedish)
Abstract [en]

The video on demand streaming is raising drastically in popularity, bringing new challenges to the video coding field. There is a need for new video coding techniques that improve performance and reduce the bitrates. One of the most promising areas of research is perceptual video coding where attributes of the human visual system are considered to minimize visual redundancy. The visual attention only makes it possible for humans to focus on a smaller region at the time, which is led by different cues, and with deep neural networks it has become possible to create high-accuracy models of this. The purpose of this study is therefore to investigate how adaptive quantization (AQ) based on a deep visual attention model can be used to improve the subjective video quality for low bitrates. A deep visual attention model was integrated into the encoder x265 to control how the bits are distributed on frame level by adaptively setting the quantization parameter. The effect on the subjective video quality was evaluated through A/B testing where the solution was compared to one of the standard methods for AQ in x265. The results show that the ROI-based AQ was perceived to be of better quality in one out of ten cases. The results can partly be explained by certain methodological choices, but also highlights a need for more research on how to make use of visual attention modeling in more complex real-world streaming scenarios to make streaming content more accessible and reduce bitrates.

Abstract [sv]

"Video on demand"-streamingen ökar kraftigt i popularitet vilket skapar nya utmaningar inom video kodning. Det finns ett behov av nya videokodningstekniker som ökar prestanda och reducerar bithastigheten. Ett av de mest lovade forskningsområdena är perceptuell videokodning där man tar hänsyn till synens egenskaper för att minimera visuell redundans. Det visuella fokuset gör att människan bara kan fokusera på ett mindre områden åt gången, lett av olika typer av signaler, och med hjälp av djupa neurala nätverk har det blivit möjligt att skapa välpresterande modeller av det. Syftet med denna studie är därför att undersöka hur adaptiv kvantisering baserat på en djupinlärningsmodell av visuellt fokus kan användas för att förbättra den subjektiva videokvaliteten för låga bithastigheter. En djup modell av visuellt fokus var integrerad i videokodaren x265 för att kontrollera hur bitarna ditribueras på bildnivå genom att adaptivt sätta kvantiseringsparametern. Den subjektiva videokvaliteten utvärderades genom A/B tester där lösningen jämfördes med en standardmetod för adaptiv kvantisering i x265. Resultaten visar att den visuellt fokus-baserade adaptiva kvantiseringen upplevdes ge bättre kvalitet i ett av tio fall. Detta resultat kan delvis förklaras av vissa metodval, men visar också på ett behov för mer forskning på hur modeller för visuellt fokus kan användas i mer komplexa och verkliga streamingscenarion för att kunna göra innehållet mer tillgängligt och reducera bithastigheten.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2023. , p. 22
Series
TRITA-EECS-EX ; 2023:400
Keywords [en]
video encoding, deep learning, visual attention, adaptive quantization
Keywords [sv]
videokodning, djupinlärning, visuellt fokus, adaptiv kvantisering
National Category
Computer Sciences Computer and Information Sciences Computer graphics and computer vision Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-333989OAI: oai:DiVA.org:kth-333989DiVA, id: diva2:1788172
External cooperation
Sveriges Television AB
Presentation
2023-06-09, 1537, Osquars backe 2, Stockholm, 10:00 (English)
Supervisors
Examiners
Available from: 2023-08-19 Created: 2023-08-15 Last updated: 2025-02-18Bibliographically approved

Open Access in DiVA

fulltext(6328 kB)739 downloads
File information
File name FULLTEXT01.pdfFile size 6328 kBChecksum SHA-512
7369ef618ee38315c7b42c50f9978cbe5c3b13ed0c3e990470be3e4cfe09c39d73f26d96302dfa90eb8ded8ebafdf7d9df34c01c76627e1890cc79702ad6c77d
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer and Information SciencesComputer graphics and computer visionComputer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 741 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 565 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf