kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Predicting Short-term Absences of a Railway Crew using Historical Data
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Prognoser av korttidsfrånvaro för tågpersonal baserat på historisk data (Swedish)
Abstract [en]

Transportation via train is considered the most environmentally friendly way of traveling and is widely seen as the future of transportation. Canceled and delayed trains worsen customer satisfaction; thus, punctual trains are crucial for railway companies. One reason for canceled and delayed trains is the shortage of employees due to sickness or care of relatives, known as short-term absences. Therefore, it is important for railway companies to have reliable predictions of these. This thesis is in collaboration with SJ, the largest railway company in Sweden which offers trips all over Sweden and some other parts of northern Europe.

The thesis predicts short-term absences with data provided by SJ, by using the machine learning methods random forest and extreme gradient boosting (XGBoost). The aim is to investigate if SJ can use machine learning algorithms and statistical analysis in their absence predictions and if it can yield better results than their current absence prediction methodology. Furthermore, the thesis identifies which factors are most important for the predictions. In addition to this, quantile regression is implemented for both methods since overestimating absenteeism could be better for avoiding employee shortage. 

Two different datasets are used for two different tasks; one regression task to predict the number of absent employees on each date and one classification task to predict the probability of an absent employee on a specific duty, and then adding the probabilities to achieve the total predicted number of absent employees on each date. Both task formulations yielded good absence prediction results. XGBoost resulted overall in lower errors than random forest, meaning it was a slightly better model to implement for this task. When comparing the results, the performance for the developed models was better than the current predictions at SJ, meaning machine learning models could benefit SJ's prediction work.

Abstract [sv]

Tågresor anses vara det mest miljövänliga sättet att resa på och betraktas av många som framtidens transportmedel. SJ är Sveriges största järnvägsföretag och erbjuder resor över hela Sverige och delar av norra Europa. Punktliga tåg är en mycket viktig faktor för järnvägsföretag, för att inte ha inställda och försenade tåg som försämrar kundnöjdheten. En orsak till inställda och försenade tåg är brist på personal på grund av sjukdom eller vård av anhöriga, så kallad korttidsfrånvaro. Därför är det viktigt för SJ att ha tillförlitliga prognoser gällande detta.

Detta examensarbete försöker förutspå korttidsfrånvaro med data från SJ, genom att använda maskininlärningsmetoderna random forest och extreme gradient boosting (XGBoost). Syftet är att undersöka om SJ kan använda maskininlärningsalgoritmer och statistisk analys i sina frånvaroprognoser och om det kan ge bättre resultat än deras nuvarande prognoser. Vidare identifierar arbetet vilka faktorer som är viktigast för en pålitlig prognos. Utöver detta implementeras kvantilregression för båda metoderna eftersom överskattningar av frånvaro kan vara bättre för att undvika personalbrist.

Två olika datamängder används för två olika uppgifter; en regressionsuppgift för att förutspå antalet frånvarande personal varje dag och en klassificeringsuppgift för att förutspå sannolikheten av en frånvarande personal under ett visst arbetspass. Modellen adderar sedan sannolikheterna för att få en prognos av det totala antalet frånvarande personal under varje dag. Båda uppgiftsformuleringarna resulterade i bra sjukprognoser. XGBoost resulterade totalt sett i lägre fel än random forest, vilket betyder att den var en något bättre modell att implementera för detta arbete. Vid en jämförelse av resultaten var prestationen för de utvecklade modellerna bättre än de nuvarande prognoserna hos SJ, vilket innebär att maskininlärningsalgoritmer kan gynna SJ:s prognosarbete.

Place, publisher, year, edition, pages
2023. , p. 82
Series
TRITA-SCI-GRU ; 2023:048
Keywords [en]
statistics, machine learning, absence prediction, random forest, XGBoost, quantile regression
Keywords [sv]
statistik, maskininlärning, frånvaroprognoser, random forest, XGBoost, kvantilregression
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-327973OAI: oai:DiVA.org:kth-327973DiVA, id: diva2:1761858
External cooperation
SJ AB
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2023-06-07 Created: 2023-06-02 Last updated: 2023-06-07Bibliographically approved

Open Access in DiVA

fulltext(3241 kB)135 downloads
File information
File name FULLTEXT01.pdfFile size 3241 kBChecksum SHA-512
4342b29d7796461d794c3ac813904f2197448808d6c03a454a40aef102cc6c953e8bc1756521fcc4d8c662c36b9a3ef30e08829ae5d83b349adc88bb833301de
Type fulltextMimetype application/pdf

By organisation
Mathematical Statistics
Other Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 135 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 409 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf