kth.sePublications KTH
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Developing a Method for Investigating the Population of Vocalists Heard in AI-Generated Music
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Utveckling av en metod som möjliggör undersökning av distributionen av sångröster som finns i AI-genererad musik (Swedish)
Abstract [en]

Despite the increase of music generated by Artificial Intelligence (AI) tools such as Suno and Udio, little research has been done on the songs they create. Previous research has largely focused on techniques for AI music detection, while the potential biases and patterns in the vocals the models generate have been left unanalyzed. This thesis aims to develop a pipeline that allows for population analysis of singing voices present in music generated by Suno and Udio. In order to accomplish this, we investigate two types of methods. One approach uses Mel-Frequency Cepstrum Coefficients (MFCCs) for feature extraction together with Gaussian Mixture Models (GMMs) to model vocal characteristics. The other approach uses deep learning models to extract features directly, with two speaker recognition models and one singing voice representation model. We evaluate both methods through testing with real songs that we process using source separation and silence removal. Based on the initial test results we then apply the most reliable model — the singer representation model — to the dataset of AI singers and use K-medoids clustering as well as Uniform Manifold Approximation and Projection (UMAP) dimensionality reduction to examine the data. The results from the singer representation model showed only limited quantitative success with the K-medoids clustering, while qualitative testing on real songs suggests the approach is somewhat successful. The UMAP projection showed quite distinct separation between the Suno and Udio songs, as well as between female and male vocals. Issues with distortion or incorrectly converted audio files in the datasets we used were discovered, which likely had significant impact on the clustering and visualization results. An implementation error in our UMAP usage of the MFCC approach initially showed it as being much less reliable than further testing seemed to indicate, making this method possibly interesting for more thorough testing. We motivate further research into how the voice characteristics of the generated vocals relate to their textual prompts and vocals of real artists.

Abstract [sv]

Trots att mängden musik som genererats av AI-verktyg som Suno och Udio ökar så har väldigt lite forskning undersökt musiken som genererats. Tidigare forskning har fokuserat på att utveckla metoder för att känna igen AI-genererad musik. System för att upptäcka mönster och likheter i de genererade rösterna har inte varit i fokus. I den här studien utvecklar vi ett system för att kunna analysera fördelningen och variationen av rösterna som förekommer i musiken som genererats av Suno och Udio. För att åstakomma det har vi undersökt två metoder. En av metoderna använder sig av Mel-Frequency Cepstrum Coefficients (MFCC:er) för att extrahera information från sångerna och Gaussian Mixture Models (GMM:er) för att modellera röstkarakteristiken. Den andra metoden använder sig av förtränade djupinlärningsmodeller för att extrahera data. Vi undersöker två tal- och talarigenkänningsmodeller och en sångaridentifieringsmodell för detta ändamål. Båda metoderna testas först med musik av riktiga sångare, där ljudfilerna har processerats med verktyg för att isolera rösterna och ta bort tystnaden från dem. På de testerna fick modellen som tränats för att känna igen sångare bäst resultat, varpå den användes för att undersöka Suno- och Udio-låtarna. För att analysera och projicera ner datan till en graf används K-medoids-klustering och Uniform Manifold Approximation and Projection (UMAP). Resultaten från de testerna visade på att modellen hade begränsad kvantitativ framgång men kvalitativa lyssningstester indikerade att den underliggande metoden fungerande. Graferna från UMAP-projektionen visar en tydlig separering mellan Suno- och Udio-låtar, och mellan manliga och kvinnliga röster. Dock kan graferna och klustringsresultatet vara missvisande då det förekommer ljudartefakter i datan som orsakats av ett fel i källsepareringssteget. Ett implementationsfel i MFCC-metodens UMAP-projektion gjorde att den initialt fick betydligt sämre resultat än vad den senare korrigerade versionen gav. En vidareutveckling på MFCC-metoden skulle därför vara en intressant fortsättning av studien. Det skulle också vara intressant att undersöka eventuella mönster mellan röstkarakteristiken och texterna som användes för att skapa de AI-genererade låtarna.

Place, publisher, year, edition, pages
2025. , p. 44
Series
TRITA-EECS-EX ; 2025:944
Keywords [en]
Generative AI, Source separation, Speaker recognition, Singing voice, Music information retrieval
Keywords [sv]
Generativ AI, Källseparering, Talarigenkänning, Sångröster, Musikdataextrahering
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-377017OAI: oai:DiVA.org:kth-377017DiVA, id: diva2:2040356
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
Available from: 2026-02-27 Created: 2026-02-20 Last updated: 2026-02-27Bibliographically approved

Open Access in DiVA

fulltext(3270 kB)15 downloads
File information
File name FULLTEXT02.pdfFile size 3270 kBChecksum SHA-512
734dabfa678f008dad6ec14c1da5db42f01c206c64a4dd61059bfcb9f3546341527577cbc0746dd447d11a78330f94ac28a21f69e3b3c7f1e4dc5f318142c7e4
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 15 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 954 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf