kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Sequential Data Learning, Scalable Models and Adversarial Regularization
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Information Science and Engineering.
2023 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

Time Series Prediction (TSP) has been used in mobile network traffic data analysis to produce predictive results for network planning and resource allocation. In the first part of this thesis, we propose a novel method of predicting mobile network traffic using neural networks based on conditional probability modeling between adjacent data windows in the time series sequence. Firstly, we develop a pre-processing method to aggregate the raw traffic log data and sample the aggregated time series to adjacent data windows, as training samples. Secondly, we use neural networks to parameterize the conditional probability between adjacent data windows and estimate the probability by training the neural networks with sampled data. The estimated conditional probability is then used to ensemble the prediction. Thirdly, we show theoretically that the prediction based on all historical data is equivalent to the prediction based on just previous data window, given the estimation of conditional probability between adjacent data windows. We also analyze computation complexity and show that seasonality will reduce the computational complexity. In the experiment, we compare the prediction performance among the models with different seasonality, sample size and number of hidden layers, and show that the proposed schemes achieve better prediction accuracy than state-of-the-art.

The Recurrent Neural Networks (RNN) with richly distributed internal states and flexible non-linear transition functions, havegradually overtaken the dynamic Bayesian networks in modeling highly structured sequential data. These data, which may come fromspeech and handwriting, often contain complex relationships between the underlying variational factors such as speakercharacteristic and the observed data. The standard RNN model has very limited randomness or variability in its structure, which comes from the output conditional probability model. To improve the variability and performance, we study the new latent variable models with novel regularization methods. The second part of this thesis will present different ways of using high level latent random variables in RNN to model the variability in the sequential data. We will explore possible ways of using adversarial methods to train a variational RNN model. Through theoretical analysis we show that, contrary to competing approaches our schemes have theoretical optimum in the model training and the symmetric objective function in the adversarial training provides better model training stability. Our approach also improves the posterior approximation in the variational inference network by a separated adversarial training step. Numerical results simulated from TIMIT speech data show that reconstruction loss and evidence lower bound converge to the same level and adversarial training loss converges in a stable course. The results also show our approach of regularization provides stability and smoothness on probability distribution distance minimization between prior and posterior of the latent variables. 

In the last part of this thesis, we  studies potential challenges and opportunities in intelligent road traffic sensing from the data mining and learning point of view with mobile network generated data. This part of the thesis only include qualitative analysis. Firstly, we classify the data resources available in the commercial mobile network according to different taxonomy criteria. Then, we outline the broken-down problems that fit in the framework of road traffic sensing based on mobile user network log data. We study the existing data processing and learning algorithms on extracting road traffic condition information from a large amount of mobile network log data. Finally we make suggestion on potential future work for road traffic sensing on data from mobile networks.

Abstract [sv]

Time Series Prediction (TSP) har använts i mobilnätverkstrafikdataanalys för att producera prediktiva resultat för nätverksplanering och resursallokering. I den första delen av denna avhandling föreslår vi en ny metod för att förutsäga mobilnätverkstrafik med hjälp av neurala nätverk baserat på villkorad sannolikhetsmodellering mellan intilliggande datafönster i tidsseriesekvensen. För det första utvecklar vi en förbearbetningsmetod för att aggregera rå trafikloggdata och ta prov på de aggregerade tidsserierna till angränsande datafönster, som träningsexempel. För det andra använder vi neurala nätverk för att parametrisera den villkorliga sannolikheten mellan intilliggande datafönster och uppskatta sannolikheten genom att träna de neurala nätverken med samplade data. Den uppskattade villkorade sannolikheten används sedan för att sammanställa förutsägelsen. För det tredje visar vi teoretiskt att förutsägelsen baserad på alla historiska data är ekvivalent med förutsägelsen baserad på just tidigare datafönster, givet uppskattningen av villkorlig sannolikhet mellan angränsande datafönster. Vi analyserar också beräkningskomplexiteten och visar att säsongsvariationer kommer att minska beräkningskomplexiteten. I experimentet jämför vi prediktionsprestandan bland modellerna med olika säsongsvariationer, urvalsstorlek och antal dolda lager, och visar att de föreslagna scheman uppnår bättre prediktionsnoggrannhet än toppmoderna.

De Recurrent Neural Networks (RNN) med rikt fördelade interna tillstånd och flexibla icke-linjära övergångsfunktioner, hargradvis gått om de dynamiska Bayesianska nätverken vid modellering av högstrukturerade sekventiella data. Dessa data, som kan komma fråntal och handstil, innehåller ofta komplexa samband mellan de underliggande variationsfaktorerna såsom talareegenskaper och observerade data. Standard-RNN-modellen har mycket begränsad slumpmässighet eller variabilitet i sin struktur, vilket kommer från den betingade sannolikhetsmodellen för output. För att förbättra variabiliteten och prestandan studerar vi de nya latenta variabelmodellerna med nya regulariseringsmetoder. Den andra delen av denna avhandling kommer att presentera olika sätt att använda latenta slumpvariabler på hög nivå i RNN för att modellera variabiliteten i sekventiell data. Vi kommer att utforska möjliga sätt att använda kontradiktoriska metoder för att träna en variationsrik RNN-modell. Genom teoretisk analys visar vi att, i motsats till konkurrerande tillvägagångssätt, har våra system teoretiskt optimum i modellträningen och den symmetriska objektivfunktionen i den kontradiktoriska träningen ger bättre modellträningsstabilitet. Vårt tillvägagångssätt förbättrar också den bakre approximationen i det variationsmässiga slutledningsnätverket genom ett separerat kontradiktoriskt träningssteg. Numeriska resultat simulerade från TIMIT-taldata visar att rekonstruktionsförlust och nedre gräns för bevis konvergerar till samma nivå och kontradiktorisk träningsförlust konvergerar i en stabil kurs. Numeriska resultat visar också att vårt tillvägagångssätt för regularisering ger stabilitet och jämnhet på sannolikhetsfördelningen minimering av avståndsförlust mellan föregående och bakre av de latenta variablerna. Detta är en klar förbättring än den ursprungliga RNN-modellen.

I den sista delen av denna avhandling studerar vi potentiella utmaningar och möjligheter inom intelligent vägtrafikavkänning ur datautvinnings- och inlärningssynpunkt med mobilnätsgenererad data. Denna del av avhandlingen innehåller endast kvalitativ analys. För det första klassificerar vi de tillgängliga dataresurserna i det kommersiella mobilnätet enligt olika taxonomikriterier. Sedan skisserar vi de nedbrutna problemen som passar inom ramen för vägtrafikavkänning baserat på mobilanvändarnätverksloggdata. Vi studerar befintliga databearbetnings- och inlärningsalgoritmer för att extrahera information om vägtrafiktillstånd från en stor mängd mobilnätverksloggdata. Slutligen ger vi förslag på potentiellt framtida arbete för vägtrafikavkänning på data från mobilnät.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2023. , p. 168
Series
TRITA-EECS-AVL ; 2023:47
National Category
Other Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-326829ISBN: 978-91-8040-597-3 (print)OAI: oai:DiVA.org:kth-326829DiVA, id: diva2:1756436
Public defence
2023-06-05, https://kth-se.zoom.us/j/62129883050, E32, Osquars backe 2, Stockholm, 14:00 (English)
Opponent
Supervisors
Note

QC 20230512

Available from: 2023-05-12 Created: 2023-05-11 Last updated: 2023-06-19Bibliographically approved

Open Access in DiVA

fulltext(5084 kB)335 downloads
File information
File name FULLTEXT09.pdfFile size 5084 kBChecksum SHA-512
8aba374b7fd9a429d73d44033f707285aa345f57acf4829593422d2ee1f9a79a6ab26656be8b5e8518bfd145c00a8060daf909f2a0633e811c05e5f304a97d47
Type fulltextMimetype application/pdf

Authority records

Huang, Jin

Search in DiVA

By author/editor
Huang, Jin
By organisation
Information Science and Engineering
Other Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 371 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1751 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf