Effects of different characteristics of sound data on multi-label classification accuracy
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Egenskaper hos ljuddata och dess påverkan på multi-label-klassificering (Swedish)
Abstract [en]
One of many areas to which machine learning can be applied is sound recognition. A multi-label classification problem is a problem where several sounds, which are played simultaneously, are to be identified. This study investigates how frequency and volume affect the accuracy with which musical instruments are identified by a traditional machine learning method. Auto-generated sound files with up to 8 instruments playing at once, was used to explore which characteristics affect the classification accuracy. The results show that instruments with unique frequencies are often correctly identified. Further, they show that if two instruments share some frequencies, the one with higher volume will be accurately identified more often than the quieter instrument. When the louder instrument is removed from the test data, the accuracy of the quieter instrument increases significantly. The conclusion is that the instrument which has lower volume of two which share frequencies, is less likely to be identified by the classifier. Unique frequencies contribute to high accuracy. Thus, both volume and frequency play a role when identifying sound.
Abstract [sv]
Ett av många områden maskininlärning kan appliceras på är identifiering av ljud. I en fil med flera ljud, som hörs simlutant, kallas problemet att identifiera dessa ett multi-label klassificeringsproblem. I den här rapporten undersöks hur volym och frekvens hos musikinstrument påverkar deras möjlighet att identifieras av en traditionell maskininlärningsmetod. Autogenererade ljudfiler med upp till 8 musikinstrument som spelar samtidigt användes för att undersöka vilka aspekter som påverkar klassificeringen. Resultatet visar att instrument som är ensamma i sina frekvensområden identifieras med hög noggrannhet. Vidare visar resultatet att om två instrument delar frekvensområde kommer det instrument som har högst volym vara enklast att identifiera. Med ”enklast” menas att det instrumentet blir korrekt identifierat störst andel av gångerna. När det högre instrumentet exkluderas från testdatan ökar andelen gånger det lägre instrumentet identifieras korrekt markant. Slutsatsen är att det instrument som har lägre volym av två som delar frekvensområde har sämre möjlighet att identifieras korrekt av klassificeraren. Instrument med unika frekvenser har god möjlighet att identifieras korrekt. Därmed har både volym och frekvens påverkan på möjligheten att identifiera ljud.
Place, publisher, year, edition, pages
2022. , p. 38
Series
TRITA-EECS-EX ; 2022:486
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-319908OAI: oai:DiVA.org:kth-319908DiVA, id: diva2:1702461
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2022-10-112022-10-112022-10-11Bibliographically approved