kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Leveraging Machine Learning methods alongside chemical transport, weather and land use data for organic aerosols component estimation
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Utnyttja maskininlärningsmetoder tillsammans med data om kemisk transport, väder och markanvändning för uppskattning av organiska aerosolers komponenter (Swedish)
Abstract [en]

Organic aerosols (OA) are a major component of fine particulate matter and are strongly linked to elevated mortality rates. Since different OA sources have distinct impacts on human health, accurately identifying their spatial and temporal distributions is essential for effective health risk assessments and policy-making. In this thesis, we leverage a large European dataset that provides 85,000 daily OA mass concentration measurements from 175 stations, only 15,000 of which include detailed source information. While physical models (e.g., chemical transport models) can estimate OA sources, their accuracy often suffers from incomplete or uncertain emission data. To address these limitations, we incorporate outputs from these models alongside land-use and weather information as input features for a suite of Machine Learning and Deep Learning methods. Specifically, we compare Random Forest, several Gradient Boosting models, Multi-Layer Perceptrons, Gated Recurrent Units, and a beta Variational AutoEncoder, with all models fine-tuned to optimize performance and tested under different target normalization schemes. Our findings show that every Machine Learning approach outperforms CAMx—the baseline physical model used in our study. By improving source estimations at sites lacking detailed data, this work contributes to more accurate OA modeling, supporting refined health risk analyses and more effective policy interventions.

Abstract [sv]

Organiska aerosoler (OA) är en viktig komponent i finpartiklar och är starkt kopplade till ökade dödsfallsfrekvenser. Eftersom olika OA-källor har olika påverkan på människors hälsa är det avgörande att noggrant identifiera deras rumsliga och tidsmässiga fördelningar för att möjliggöra effektiva hälsoriskbedömningar och policyskapande. I denna avhandling utnyttjar vi ett stort europeiskt dataset som innehåller 85 000 dagliga mätningar av OA-masskoncentrationer från 175 stationer, varav endast 15 000 inkluderar detaljerad källinformation. Även om fysiska modeller (t.ex. kemiska transportmodeller) kan uppskatta OA-källor, försämras deras noggrannhet ofta på grund av ofullständiga eller osäkra utsläppsdata. För att hantera dessa begränsningar integrerar vi utsignaler från dessa modeller tillsammans med information om markan- vändning och väderförhållanden som indata för en uppsättning ML- och DL-metoder. Specifikt jämför vi Random Forest, flera Gradient Boosting- modeller, Multi-Layer Perceptrons, Gated Recurrent Units och en beta Variational AutoEncoder, där samtliga modeller finjusteras för att optimera prestandan och testas med olika normaliseringsscheman för måldata. Våra resultat visar att alla ML-metoder presterar bättre än CAMx – den grundläggande fysiska modell som användes i vår studie. Genom att förbättra källuppskattningarna vid platser med bristande detaljerad data bidrar detta arbete till en mer exakt modellering av OA, vilket understöder mer förfinade hälsoriskanalyser och effektivare policyinsatser.

Place, publisher, year, edition, pages
2025. , p. 65
Series
TRITA-EECS-EX ; 2025:68
Keywords [en]
Machine learning, Deep learning, Organic aerosols, Time-series modeling, Data imputation, Air quality modeling, Environmental data science, Spatio- temporal predictions, Random Forest, Gradient Boosting, Multi-layer percep- tron, Variational autoencoder, Gated recurrent units
Keywords [sv]
Maskininlärning, Deep learning, Organiska aerosoler, Tidsseriemodelle- ring, Dataimputation, Luftkvalitetsmodellering, Miljödatavetenskap, Spatio- temporal predictions, Random Forest, Gradient Boosting, Multi-layer per- ceptron, Variational autoencoder, Gated recurrent units
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362113OAI: oai:DiVA.org:kth-362113DiVA, id: diva2:1950539
External cooperation
Paul Scherrer Institute
Supervisors
Examiners
Available from: 2025-04-11 Created: 2025-04-08 Last updated: 2025-04-11Bibliographically approved

Open Access in DiVA

fulltext(3979 kB)57 downloads
File information
File name FULLTEXT02.pdfFile size 3979 kBChecksum SHA-512
877ab25dceafce676df135ecd71207dc5f11d80f05ea9abe4ad6a2959cd53a8a2627ec2c1bf77a2627fce57c0e2987ea8be09588b6c03967cf4d732a22321dcc
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 58 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 347 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf