Automated identification of capercaillie lek vocalizations in Swedish forests using deep neural networks
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Automatiserad klassifiering av tjäderspelsläten i svenska skogar med djupa neurala nätverk (Swedish)
Abstract [en]
The EU 2030 Biodiversity Strategy highlights the necessity for habitat restoration, for which the monitoring of biodiversity changes is important. The concept of an umbrella species refers to an animal whose habitat covers a large area where other species habitats are also found. The monitoring of an umbrella species can be seen as a proxy for habitat health of overlapping habitats. The capercaillie (Tetrao urogallus), an umbrella species experiencing population decline, inhabits Swedish forests along with other bird species. Traditional point count monitoring methods can be costly and disruptive to habitats, prompting the need for automated approaches. Passive Acoustic Monitoring (PAM) is a prevalent method where continuous audio data is recorded at sites of interest. To analyze these recordings efficiently, deep learning models like convolutional neural networks (CNNs) can classify audio spectrograms. However, these models require extensive labeled data, and audio data labeling is time-consuming due to its time domain. Active learning, which intelligently selects queries for labeling, can reduce these challenges by reducing the necessary labeling budget. This thesis evaluates the creation of a deep convolutional network to recognize capercaillie lekking calls from audio spectrograms and attempts active learning with maximum entropy-based query selection as a method to reduce necessary labeling efforts. Two models were developed: a simple CNN without pre-trained weights and a VGGish-based model with pre-trained weights for feature extraction. VGGish was fine tuned with capercaillie-specific classification layers through transfer learning. The VGGish based model was used in conjunction with active learning and performance was measured at different labeling budgets. Results of active learning indicated a higher AUC-ROC during the introduction of the first 30% of data when using entropy based versus random query selection. However, the difference could not be proven to be statistically significant. The best found model received an F1 score of 0.895±0.003 on the test set.
Abstract [sv]
I EU:s 2030 strategi för biologisk mångfald betonas behovet av att återställa biologiska habitat, för det syftet finns det utökat intresse för bättre bevakning av biologisk mångfald. Begreppet paraplyart avser ett djur vars habitat täcker ett stort område att det omfattar flera andra arters habitat. Övervakningen av en paraplyart kan ge representativ uppskattning av beståndet av närliggande arter. Tjädern (Tetrao urogallus) är en paraplyart som genomgår en populationsminskning och delar sitt habitat med andra fågelarter i svenska skogar. Traditionella bevakningsmetoder som punkträkning kan vara kostsamma och störande för habitaten, vilket har lett till ett behov av automatiserade metoder. Passiv akustisk övervakning (PAM) är en vanlig metod där kontinuerlig ljuddata spelas in på intressanta platser. För att analysera dessa inspelningar på ett effektivt sätt kan djupinlärningsmodeller som Convolutional Neural Networks (CNNs) nyttjas för att klassificera ljudspektrogram. Dessa modeller kräver dock stora mängder annoterad data. Annotering av ljuddata kan vara speciellt tidskrävande på grund av dess tidsinformation. Active learning är en metod som intelligent väljer ut data för annotering i syfte att minska den totala nödvändiga annoteringsbudgeten. Detta arbete innefattar skapandet av ett CNN för att klassifiera tjäderspel från ljudspektrogram och undersöker active learning med entropibaserat dataurval som en metod för att minska annoteringsbudgeten. Två modeller utvecklades: ett enkelt CNN utan förträning och en VGGish-baserad modell med förtränade vikter. Den VGGish-baserade modellen användes i kombination med active learning och prestationen mättes vid olika annoteringsbudgetar. Resultaten indikerade ökad AUC-ROC under introduktionen av de första 30 procenten data vid användning av entropibaserat jämte slumpmässigt val av data för annotering. Skillnaden kunde dock inte bevisas vara statistiskt signifikant. Den bäst funna modellen uppnådde ett F1-Score på 0.895±0.003 på testmängden.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 77
Series
TRITA-EECS-EX ; 2024:495
Keywords [en]
Machine Learning, Bioacoustics, Active Learning
Keywords [sv]
Maskininlärning, Bioakustik, Active Learning
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352303OAI: oai:DiVA.org:kth-352303DiVA, id: diva2:1892784
External cooperation
Vattenfall AB
Subject / course
Computer Science
Presentation
2024-06-19, via Zoom https://kth-se.zoom.us/j/69680174732, Lindstedtsvägen 24, Stockholm, 13:30 (English)
Supervisors
Examiners
2024-09-272024-08-272024-09-27Bibliographically approved