kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automated identification of capercaillie lek vocalizations in Swedish forests using deep neural networks
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Automatiserad klassifiering av tjäderspelsläten i svenska skogar med djupa neurala nätverk (Swedish)
Abstract [en]

The EU 2030 Biodiversity Strategy highlights the necessity for habitat restoration, for which the monitoring of biodiversity changes is important. The concept of an umbrella species refers to an animal whose habitat covers a large area where other species habitats are also found. The monitoring of an umbrella species can be seen as a proxy for habitat health of overlapping habitats. The capercaillie (Tetrao urogallus), an umbrella species experiencing population decline, inhabits Swedish forests along with other bird species. Traditional point count monitoring methods can be costly and disruptive to habitats, prompting the need for automated approaches. Passive Acoustic Monitoring (PAM) is a prevalent method where continuous audio data is recorded at sites of interest. To analyze these recordings efficiently, deep learning models like convolutional neural networks (CNNs) can classify audio spectrograms. However, these models require extensive labeled data, and audio data labeling is time-consuming due to its time domain. Active learning, which intelligently selects queries for labeling, can reduce these challenges by reducing the necessary labeling budget. This thesis evaluates the creation of a deep convolutional network to recognize capercaillie lekking calls from audio spectrograms and attempts active learning with maximum entropy-based query selection as a method to reduce necessary labeling efforts. Two models were developed: a simple CNN without pre-trained weights and a VGGish-based model with pre-trained weights for feature extraction. VGGish was fine tuned with capercaillie-specific classification layers through transfer learning. The VGGish based model was used in conjunction with active learning and performance was measured at different labeling budgets. Results of active learning indicated a higher AUC-ROC during the introduction of the first 30% of data when using entropy based versus random query selection. However, the difference could not be proven to be statistically significant. The best found model received an F1 score of 0.895±0.003 on the test set.

Abstract [sv]

I EU:s 2030 strategi för biologisk mångfald betonas behovet av att återställa biologiska habitat, för det syftet finns det utökat intresse för bättre bevakning av biologisk mångfald. Begreppet paraplyart avser ett djur vars habitat täcker ett stort område att det omfattar flera andra arters habitat. Övervakningen av en paraplyart kan ge representativ uppskattning av beståndet av närliggande arter. Tjädern (Tetrao urogallus) är en paraplyart som genomgår en populationsminskning och delar sitt habitat med andra fågelarter i svenska skogar. Traditionella bevakningsmetoder som punkträkning kan vara kostsamma och störande för habitaten, vilket har lett till ett behov av automatiserade metoder. Passiv akustisk övervakning (PAM) är en vanlig metod där kontinuerlig ljuddata spelas in på intressanta platser. För att analysera dessa inspelningar på ett effektivt sätt kan djupinlärningsmodeller som Convolutional Neural Networks (CNNs) nyttjas för att klassificera ljudspektrogram. Dessa modeller kräver dock stora mängder annoterad data. Annotering av ljuddata kan vara speciellt tidskrävande på grund av dess tidsinformation. Active learning är en metod som intelligent väljer ut data för annotering i syfte att minska den totala nödvändiga annoteringsbudgeten. Detta arbete innefattar skapandet av ett CNN för att klassifiera tjäderspel från ljudspektrogram och undersöker active learning med entropibaserat dataurval som en metod för att minska annoteringsbudgeten. Två modeller utvecklades: ett enkelt CNN utan förträning och en VGGish-baserad modell med förtränade vikter. Den VGGish-baserade modellen användes i kombination med active learning och prestationen mättes vid olika annoteringsbudgetar. Resultaten indikerade ökad AUC-ROC under introduktionen av de första 30 procenten data vid användning av entropibaserat jämte slumpmässigt val av data för annotering. Skillnaden kunde dock inte bevisas vara statistiskt signifikant. Den bäst funna modellen uppnådde ett F1-Score på 0.895±0.003 på testmängden.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 77
Series
TRITA-EECS-EX ; 2024:495
Keywords [en]
Machine Learning, Bioacoustics, Active Learning
Keywords [sv]
Maskininlärning, Bioakustik, Active Learning
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352303OAI: oai:DiVA.org:kth-352303DiVA, id: diva2:1892784
External cooperation
Vattenfall AB
Subject / course
Computer Science
Presentation
2024-06-19, via Zoom https://kth-se.zoom.us/j/69680174732, Lindstedtsvägen 24, Stockholm, 13:30 (English)
Supervisors
Examiners
Available from: 2024-09-27 Created: 2024-08-27 Last updated: 2024-09-27Bibliographically approved

Open Access in DiVA

fulltext(4895 kB)294 downloads
File information
File name FULLTEXT01.pdfFile size 4895 kBChecksum SHA-512
5e102346cc8060365fa70840aaa7c4b63b2893775e0041ab981e206e88a612f826fb339089c77a0e7e799b61dce0eae77b3a88dc8e7382bc48e9ca91cb255173
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 294 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 172 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf