kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Text to Music Audio Generation using Latent Diffusion Model: A re-engineering of AudioLDM Model
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Text till musik ljudgenerering med hjälp av latent diffusionsmodell : En omkonstruktion av AudioLDM-modellen (Swedish)
Abstract [en]

In the emerging field of audio generation using diffusion models, this project pioneers the adaptation of the AudioLDM model framework, initially designed for text-to-daily sounds generation, towards text-to-music audio generation. This shift addresses a gap in the current scope of audio diffusion models, predominantly focused on everyday sounds. The motivation for this thesis stems from AudioLDM’s remarkable generative capabilities in producing daily sounds from text descriptions. However, its application in music audio generation remains underexplored. The thesis aims to modify AudioLDM’s architecture and training objectives to cater to the unique nuances of musical audio. The re-engineering process involved two primary methods. First, a dataset was constructed by sourcing a variety of music audio samples from the A Dataset For Music Analysis (FMA) [1] and generating pseudo captions using a Large Language Model specified in music captioning. This dataset served as the foundation for training the adapted model. Second, the model’s diffusion backbone, a UNet architecture, was revised in its text conditioning approach by incorporating both the CLAP encoder and the T5 text encoder. This dualencoding method, coupled with a shift from the traditional noise prediction objective to the V-objective, aimed to enhance the model’s performance in generating coherent and musically relevant audio. The effectiveness of these adaptations was validated through both subjective and objective evaluations. Compared to the original AudioLDM model, the adapted version demonstrated superior quality in the audio output and a higher relevance between text prompts and generated music. This advancement not only proves the feasibility of transforming AudioLDM for music generation but also opens new avenues for research and application in text-to-music audio synthesis

Abstract [sv]

Inom det framväxande området för ljudgenerering med användning av diffusionsmodeller, banar detta projekt för anpassningen av AudioLDMmodellramverket, som ursprungligen utformades för generering av text-tilldagliga ljud, mot ljudgenerering av text-till-musik. Denna förändring tar itu med en lucka i den nuvarande omfattningen av ljuddiffusionsmodeller, främst inriktade på vardagliga ljud. Motivationen för denna avhandling kommer från AudioLDM:s anmärkningsvärda generativa förmåga att producera dagliga ljud från textbeskrivningar. Dock är dess tillämpning i musikljudgenerering fortfarande underutforskad. Avhandlingen syftar till att modifiera AudioLDM:s arkitektur och utbildningsmål för att tillgodose de unika nyanserna av musikaliskt ljud. Omarbetningsprocessen involverade två primära metoder. Först konstruerades en datauppsättning genom att hämta en mängd olika musikljudprover från A Dataset For Music Analysis (FMA) [1] och generera pseudotexter med hjälp av en Large Language Model specificerad i musiktextning. Denna datauppsättning fungerade som grunden för att träna den anpassade modellen. För det andra reviderades modellens diffusionsryggrad, en UNet-arkitektur, i sin textkonditioneringsmetod genom att inkludera både CLAP-kodaren och T5-textkodaren. Denna dubbelkodningsmetod, i kombination med en övergång från det traditionella brusförutsägelsemålet till V-målet, syftade till att förbättra modellens prestanda för att generera sammanhängande och musikaliskt relevant ljud. Effektiviteten av dessa anpassningar validerades genom både subjektiva och objektiva utvärderingar. Jämfört med den ursprungliga AudioLDMmodellen visade den anpassade versionen överlägsen kvalitet i ljudutgången och en högre relevans mellan textmeddelanden och genererad musik. Detta framsteg bevisar inte bara möjligheten att transformera AudioLDM för musikgenerering utan öppnar också nya vägar för forskning och tillämpning inom text-till-musik ljudsyntes.

Place, publisher, year, edition, pages
2023. , p. 72
Series
TRITA-EECS-EX ; 2023:942
Keywords [en]
Text to Music Audio Generation, Latent Diffusion, AudioLDM, Sampling Methods, Denoising Diffusion Probabilistic Model (DDPM), Denoising Diffusion Implicit Model (DDIM)
Keywords [sv]
Text till musik Ljudgenerering, Latent Diffusion, AudioLDM, Samplingsmetoder, DDPM, DDIM
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-344441OAI: oai:DiVA.org:kth-344441DiVA, id: diva2:1845150
Subject / course
Information Technology
Educational program
Master of Science - Information and Network Engineering
Supervisors
Examiners
Available from: 2024-03-20 Created: 2024-03-18 Last updated: 2024-03-20Bibliographically approved

Open Access in DiVA

fulltext(4463 kB)945 downloads
File information
File name FULLTEXT01.pdfFile size 4463 kBChecksum SHA-512
ffce9580f9b124f050b979ee8fc98577e021460f74f57b0de20b953d62aacdfc59bcd4e401a68b045856351d6de1ebaea2240d97abd6a30f6a88e174f9ae221b
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 945 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 601 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf