kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Generation of a metrical grid informed by Deep Learning-based beat estimation in jazz-ensemble recordings
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Generering av ett metriskt rutnät informerat på Deep Learning-baserad beatuppskattning i jazzensembleinspelningar (Swedish)
Abstract [en]

This work uses a Deep Learning architecture, specifically a state-of-the-art Temporal Convolutional Network, to track the beat and downbeat positions in jazz-ensemble recordings to derive their metrical grid. This network architecture has been used successfully for general beat tracking purposes. However, the jazz genre presents difficulties for this Music Information Retrieval sub-task due to its inherent complexity, and there is a lack of dedicated sets for evaluating a model’s beat tracking performance for different playstyles of this specific music genre. We present a methodology in which we trained a PyTorch implementation of the original architecture with a recalculated binary cross-entropy loss that helps boost the model’s performance compared to a standard trained version. In addition, we retrained these two models using source-separated drums and bass tracks from jazz recordings to improve performance. We further improved the model’s performance by calibrating rhythm parameters using a priori knowledge that narrows the model’s prediction range. Finally, we proposed a novel jazz dataset comprised of recordings from the same jazz piece played with different styles and used this to evaluate the performance of this methodology. We also evaluate a novel sample with tempo variations to demonstrate the architecture’s versatility. This methodology, or parts of it, can be exported to other research work and music information tools that perform beat tracking or other similar Music Information Retrieval sub-tasks.

Abstract [sv]

Vi använde en Deep Learning-arkitektur för att spåra beat- och downbeatpositionerna i jazz-ensembleinspelningar för att härleda deras metriska rutnät. Denna nätverksarkitektur har använts framgångsrikt för allmän taktspårning. Men jazzgenren uppvisar svårigheter för denna deluppgift för återhämtning av musikinformation på grund av dess inneboende komplexitet, och det finns en brist på dedikerade datauppsättningar för att utvärdera en modells prestanda för olika spelstilar av denna specifika musikgenre. Vi presenterar en metod där vi tränade modellen med en omräknad binär korsentropiförlust som hjälper till att öka modellens prestanda jämfört med en utbildad standardversion. Dessutom tränade vi om dessa två modeller med hjälp av källseparerade spår från jazzinspelningar för att förbättra resultaten. Vi förbättrade modellens prestanda ytterligare genom att kalibrera parametrar med hjälp av a priori kunskap. Slutligen föreslog vi en ny jazzdatauppsättning bestående av inspelningar från samma jazzstycke som spelades med olika stilar och använde detta för att utvärdera hur denna metod fungerar. Vi utvärderar också ett nytt prov med tempovariationer för att visa arkitekturens mångsidighet. Denna metodik, eller delar av den, kan exporteras till andra forskningsarbeten och musikinformationsverktyg som utför beat tracking eller andra liknande Music Information Retrieval underuppgifter.

Place, publisher, year, edition, pages
2023. , p. 65
Series
TRITA-EECS-EX ; 2023:641
Keywords [en]
Beat tracking, Metrical grid, Jazz, Music Information Retrieval, Deep Learning, Temporal Convolutional Network
Keywords [sv]
Beatuppskattning, Metriskt rutnät, Jazz, Music Informationshämting, Deep Learning, Temporal Convolutional Network
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-337936OAI: oai:DiVA.org:kth-337936DiVA, id: diva2:1803959
External cooperation
Doremir AB
Supervisors
Examiners
Available from: 2023-10-12 Created: 2023-10-11 Last updated: 2023-10-12Bibliographically approved

Open Access in DiVA

fulltext(12633 kB)406 downloads
File information
File name FULLTEXT01.pdfFile size 12633 kBChecksum SHA-512
3717b33055170d9f7b0d1bda327567cbb234185621d4234e30943df8af0a762f70d4963f47234b2f8bc2a82a32761606d96d6a94fbdb78b29803761ebddc3f73
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 406 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 456 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf