Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Modeling News Data Flows using Multivariate Hawkes Processes
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Modellering av nyhetsdataflöden med multivariata hawkesprocesser (Swedish)
Abstract [en]

This thesis presents a multivariate Hawkes process approach to model flows of news data. The data is divided into classes based on the news' content and sentiment levels, such that each class contains a homogeneous type of observations. The arrival times of news in each class are related to a unique element in the multivariate Hawkes process. Given this framework, the massive and complex flow of information is given a more compact representation that describes the excitation connections between news classes, which in turn can be used to better predict the future flow of news data. Such a model has potential applications in areas such as finance and security. This thesis focuses especially on the different bucket sizes used in the discretization of the time scale as well as the differences in results that these imply. The study uses aggregated news data provided by RavenPack and software implementations are written in Python using the TensorFlow package.

For the cases with larger bucket sizes and datasets containing a larger number of observations, the results suggest that the Hawkes models give a better fit to training data than the Poisson model alternatives. The Poisson models tend to give better performance when models trained on historic data are tested on subsequent data flows. Moreover, the connections between news classes are given to vary significantly depending on the underlying datasets. The results indicate that lack of observations in certain news classes lead to over-fitting in the training of the Hawkes models and that the model ought to be extended to take into account the deterministic and periodic behaviors of the news data flows.

Abstract [sv]

Detta examensarbete presenterar en multivariat hawkesprocess som modell för flöden av nyhetsdata. Den givna datan delas upp i klasser baserat på nyheternas ämnen och sentimentnivåer. På sådant sätt ges att varje klass innehåller en mer homogen typ av datapunkter. Ankomsttiden för nyheterna inom varje klass relateras till ett unikt element i den multivariata hawkesprocessen. Givet denna modell ges det massiva och komplexa informationsflödet en mer kompakt representation som beskriver kopplingarna mellan nyhetsgrupperna och som kan användas för att bättre predicera det framtida flödet av nyheter, vilket är av intresse inom områden som säkerhet och finans. Arbetet fokuserar framförallt på de olika storleksordningar som används vid diskretisering av tidsskalan, samt de skillnader i resultat som dessa implicerar. Studien använder aggregerad nyhetsdata från RavenPack och implementationen skrevs i Python med hjälp av TensorFlow.

För testerna med större tidsskalor och dataset som innehåller större mängd observationer ger resultaten att hawkesmodellerna anpassas bättre till träningsdata än de enklare poissonmodellerna. Dock tenderar poissonmodellerna ge bättre prestanda när modellerna som tränats på historiska data sedan testas på efterföljande nyhetsdataflöden. Dessutom fås att kopplingarna mellan nyhetsklasserna varierar avsevärt beroende på underliggande dataset. Resultaten tyder på att bristen på observationer i vissa nyhetsgrupper leder till överpassning i träningen av hawkesmodellerna och att modellen bör utvidgas för att bättre ta hänsyn till de fenomen i nyhetsdataflödet som är deterministiska och periodiska.

Place, publisher, year, edition, pages
2018.
Series
TRITA-SCI-GRU ; 2018:2212
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-229061OAI: oai:DiVA.org:kth-229061DiVA, id: diva2:1215664
External cooperation
Lynx Asset Management
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2018-06-08 Created: 2018-06-08 Last updated: 2018-06-08Bibliographically approved

Open Access in DiVA

fulltext(2621 kB)226 downloads
File information
File name FULLTEXT01.pdfFile size 2621 kBChecksum SHA-512
812060ddc976b0b66da5c268b946a31b0b984b16ba17bddee832e5c7a472f575f9b8b0ab7cdb8e01fa12c2e5a0429d9354892676df674d956b6cf1e443f0445c
Type fulltextMimetype application/pdf

By organisation
Mathematical Statistics
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 226 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 944 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf