Comparing predictive models for Call Detail Records forecasting
2021 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
The integration of Artificial Intelligence is now a key asset for usage-based companies, specifically by implementing forecasting models in order to avoid recurrent revenue loss. Due to the sensitivity and the scarcity of usage data, little public research has been conducted on forecasting usage. This thesis focuses on telecommunication time-series data, Call Detail Records (CDRs), and investigates what models are fit for CDRs forecasting in the scope of real-life application. This research explores two predictive models, the Seasonal Auto Regressive Integrated Moving Average (SARIMA) model and the Long Short-Term Memory (LSTM) Recurrent Neural Network (RNN) and compares them. The models are trained and tested on multivariate and univariate seasonal time series with different granularities. The empirical studies conducted and reported in this thesis show on one hand that the SARIMA model can deliver quick predictions and is good at spotting overall tendencies and reproducing a general pattern but fails to detect anomalies. On the other hand, the LSTM RNN can predict accurate cycles and anomalies, making quick predictions but being long to train. Moreover, the LSTM RNN can get an overall knowledge from a training set, but also requires heavy computation power for training, while the SARIMA model is light but needs to retrain for every prediction. Based on these conclusions, real-life applications are suggested, such as fast predictions of overall tendencies of single users’ utilisation for the SARIMA model and ahead planning such as resource planning or anomaly detection for the LSTM RNN. Subsequent to this research, a hybrid model could be explored in order to ally the advantages of the SARIMA and LSTM RNN, or a generative model for usage data could be implemented by using this research as a ground truth for quality assessment.
Abstract [sv]
Integration av artificiell intelligens är ett väsentligt verktyg för användarcentrerade företag, speciellt för att att göra förutsägelser för att undvika återkommande intäktsförluster. Inte mycket akademisk forskning har gjorts om förutsägelser med artificiell intelligens på grund av känsligheten och svårtillgängligheten hos användardata. Uppsatsen fokuserar på tidsdata från telekommunikation, Call Detail Records (CDRs), och undersöker vilka modeller som passar för förutsägelser av CDRs i ett verkligt scenario. Två förutsägelsemodeller har undersökts och jämförts: Seasonal Auto Regressive Integrated Moving Average (SARIMA) och Long Short-TermMemory (LSTM) Recurrent Neural Networks (RNN). Modellerna är tränade och testade på säsongsbaserade tidsserier med olika granularitet och antal variabler. Resultaten visar att SARIMA modellen kan ge snabba förutsägelser och är bra på att upptäcka tendenser och reproducera generella mönster men misslyckas med att upptäcka avvikelser. LSTM RNN kan å andra sidan träffsäkert upptäcka cykler och avvikelser och göra snabba förutsägelser men tar lång tid att träna. Sammanfattningsvis så kan LSTM RNN få en bra generell bild från ett träningsmängd men kräver mycket datorkraft för att tränas. SARIMA är däremot lättare att träna men behöver tränas om för varje förutsägelse. Baserat på dessa insikter rekommenderas, för ett verkligt scenario, att SARIMA modellen används för snabba förutsägelser om generella trender för enskilda användare medan LSTM RNN modellen används för förutsägelser om planering av resurser och upptäckter av avvikelser. En möjlig fortsättning av detta arbete är en hybridmodell för att utnyttja de bästa egenskaperna hos de två modellerna eller att utveckla en genererande modell för användardata med resultaten i uppsatsen som utvärderingsgrund.
Place, publisher, year, edition, pages
2021. , p. 74
Series
TRITA-EECS-EX ; 2021:564
Keywords [en]
Forecasting, Time-Series Data, Call Detail Records (CDRs), Auto Regressive Integrated Moving Average (ARIMA), Seasonal Auto Regressive Integrated Moving Average (SARIMA), Recurrent Neural Network (RNN), Long Short- Term Memory (LSTM)
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-303571OAI: oai:DiVA.org:kth-303571DiVA, id: diva2:1603822
External cooperation
DigitalRoute AB
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2021-10-192021-10-182025-01-27Bibliographically approved