Open this publication in new window or tab >>2026 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
The ongoing digitalization of industrial systems is transforming maintenance practices by enabling continuous monitoring and data collection. This creates the foundation for data-driven approaches and enables advanced diagnostics through the use of machine learning methods in maintenance applications. To achieve reliable diagnostic performance, supervised machine learning methods rely on representative training data covering diverse operating conditions and characteristic signatures of different failure modes, with sufficient data quality, accurate labels, and proper annotations. However, in industrial maintenance, these requirements are commonly not satisfied due to heterogeneous operating regimes, harsh data acquisition conditions, and the inherently rare occurrence of faults. At the same time, maintenance applications are often safety-critical and associated with significant operational and economic risks, which motivates the need for reliable diagnostics even under data-constrained conditions.
This thesis treats data scarcity as an inherent and largely unavoidable constraint of industrial maintenance and develops a structured approach to characterize it, assess its effects on diagnostic reliability, and identify effective strategies to operate under such limitations. Data scarcity is formally defined as a multidimensional concept encompassing five dimensions: availability, coverage, representativeness, usability, and quality, establishing a framework for systematically assessing data-related limitations in industrial monitoring. Diagnostic reliability is characterized along three properties: accuracy, generalization, and robustness, which together define the basis for evaluating machine learning-based diagnostics under data scarcity.
The effects of data scarcity on diagnostic reliability are investigated through structured empirical studies that systematically vary controlled data scarcity factors, including data volume, fault sample ratio, and measurement degradation, across three transfer scenarios with increasing domain shift. Within these scenarios, classical machine learning and deep learning methods are combined with different knowledge transfer strategies, including domain adaptation, transfer learning, and joint learning, to examine how individual factors, their interactions, and the choice of learning strategy jointly determine diagnostic performance. This factorial approach connects the conceptual characterization of data scarcity directly to empirical evaluation, enabling quantitative assessment and analytical interpretation of model behavior under realistic industrial constraints.
The results establish that model effectiveness is regime-dependent: no single learning strategy is universally optimal, and diagnostic performance is governed by the interaction between data characteristics, domain conditions, and the learning strategy employed. The findings are consolidated into practical insights for scarcity-aware machine learning, providing actionable guidance for data acquisition, model selection, and the design of reliable fault detection systems for condition-based maintenance in industrial environments.
Abstract [sv]
Den pågående digitaliseringen av industriella system förändrar underhållspraxis genom att möjliggöra kontinuerlig övervakning och datainsamling. Detta skapar grunden för datadrivna metoder och möjliggör avancerad diagnostik genom användning av maskininlärning i underhållstillämpningar. För att uppnå tillförlitlig diagnostisk prestanda kräver övervakade maskininlärningsmetoder representativa träningsdata som täcker olika driftförhållanden och karakteristiska signaturer för olika feltyper, med tillräcklig datakvalitet, korrekta etiketter och korrekt annotering. I industriellt underhåll är dessa krav dock ofta inte uppfyllda på grund av heterogena driftregimer, svåra förhållanden vid datainsamling och den inneboende sällsyntheten av felförekomster. Samtidigt är underhållstillämpningar ofta säkerhetskritiska och förknippade med betydande operativa och ekonomiska risker, vilket motiverar behovet av tillförlitlig diagnostik även under databegränsade förhållanden.
Denna avhandling behandlar databrist som en inneboende och till stor del oundviklig begränsning inom industriellt underhåll och utvecklar ett strukturerat tillvägagångssätt för att karaktärisera den, bedöma dess effekter på diagnostisk tillförlitlighet och identifiera effektiva strategier för att hantera sådana begränsningar. Databrist definieras formellt som ett flerdimensionellt begrepp som omfattar fem dimensioner: tillgänglighet, täckning, representativitet, användbarhet och kvalitet, vilket etablerar ett ramverk för systematisk bedömning av datarelaterade begränsningar inom industriell övervakning. Diagnostisk tillförlitlighet karaktäriseras längs tre egenskaper: noggrannhet, generaliseringsförmåga och robusthet, vilka tillsammans utgör grunden för utvärdering av maskininlärningsbaserad diagnostik under databrist.
Effekterna av databrist på diagnostisk tillförlitlighet undersöks genom strukturerade empiriska studier som systematiskt varierar kontrollerade databristfaktorer, inklusive datavolym, andel felprover och mätningsdegradation, över tre överföringsscenarier med ökande domänskift. Inom dessa scenarier kombineras klassiska maskininlärningsmetoder och djupinlärningsmetoder med olika kunskapsöverföringsstrategier, inklusive domänanpassning, överföringsinlärning och gemensam inlärning, för att undersöka hur enskilda faktorer, deras interaktioner och valet av inlärningsstrategi gemensamt bestämmer diagnostisk prestanda. Detta faktoriella tillvägagångssätt kopplar den konceptuella karaktäriseringen av databrist direkt till empirisk utvärdering, vilket möjliggör kvantitativ bedömning och analytisk tolkning av modellbeteende under realistiska industriella begränsningar.
Resultaten fastställer att modelleffektivitet är regimberoende: ingen enskild inlärningsstrategi är universellt optimal, och diagnostisk prestanda styrs av interaktionen mellan dataegenskaper, domänförhållanden och den använda inlärningsstrategin. Resultaten sammanställs till praktiska insikter för databristmedveten maskininlärning, vilka ger handlingsorienterad vägledning för datainsamling, modellval och utformning av tillförlitliga feldetekteringssystem för tillståndsbaserat underhåll i industriella miljöer.
Place, publisher, year, edition, pages
Sweden: KTH Royal Institute of Technology, 2026. p. 175
Series
TRITA-ITM-AVL ; 2026:12
National Category
Production Engineering, Human Work Science and Ergonomics Reliability and Maintenance Artificial Intelligence
Research subject
Production Engineering
Identifiers
urn:nbn:se:kth:diva-381136 (URN)978-91-8106-625-8 (ISBN)
Public defence
2026-06-05, F3, Lindstedtvägen 26-28, Stockholm, 14:00 (English)
Opponent
Supervisors
2026-05-132026-05-132026-05-13Bibliographically approved