Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Time-series long-term forcasting for A/B tests
KTH, School of Information and Communication Technology (ICT).
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [sv]

Den tekniska utvecklingen av datorenheter och kommunikationsverktyg har skapat möjligheter att lagra och bearbeta större mängder information än någonsin tidigare. För forskare är det ett sätt att göra mer exakta vetenskapliga upptäckter, för företag är det ett verktyg för att bättre förstå sina kunder, sina produkter och att skapa fördelar gentemot sina konkurrenter. Inom industrin har A/B-testning blivit ett viktigt och vedertaget sätt att skaffa kunskaper som bidrar till att kunna fatta datadrivna beslut.

A/B-test är en jämförelse av två eller flera versioner för att avgöra vilken som fungerar bäst enligt förutbestämda mätningar. I kombination med informationsutvinning och statistisk analys gör dessa tester det möjligt att besvara ett antal viktiga frågor och bidra till övergången från att "vi tror" till att "vi vet". Samtidigt kan dåliga testfall ha negativ inverkan på företags affärer och kan också leda till att användare upplever testerna negativt. Det är skälet till varför det är viktigt att kunna förutsäga A/B-testets långsiktiga effekter, utvunna ur kortsiktiga data.

I denna rapport är A/B-tester och de prognoser de skapar undersökta genom att använda univariat tidsserieanalys. Men på grund av den korta tidsperioden och det stora urvalet, är det en stor utmaning att ge korrekta långtidsprognoser. Det är en kvantitativ och empirisk studie som använder verkliga data som tagits från ett socialt spelutvecklingsbolag, King Digital Entertainment PLC (King.com).

Först analyseras och förbereds data genom en serie olika steg. Tidsserieprognoser har funnits i generationer. Därför görs en analys och noggrannhetsjämförelse av befintliga prognosmodeller, så som medelvärdesprognos, ARIMA och Artificial Neural Networks. Resultaten av analysen på verkliga data visar liknande resultat som andra forskare har funnit för långsiktiga prognoser med kortsiktiga data.

För att förbättra exaktheten i prognosen föreslås en metod med tidsseriekluster. Metoden utnyttjar likheten mellan tidsserier genom Dynamic Time Warping och skapar separata kluster av prognosmodeller. Klustren väljs med hög noggrannhet med hjälp av Random Forest klassificering och de långa tidsserieintervallen säkras genom att använda historiska tester och en Markov Chain. Den föreslagna metoden visar överlägsna resultat i jämförelse med befintliga modeller och kan användas för att erhålla långsiktiga prognoser för A/B-tester.

Abstract [en]

The technological development of computing devices and communication tools has allowed to store and process more information than ever before. For researchers it is a means of making more accurate scientific discoveries, for companies it is a way of better understanding their clients, products and gain an edge over the competitors. In the industry A/B testing is becoming an important and a common way of obtaining insights that help to make data-driven decisions.

A/B test is a comparison of two or more versions to determine which is performing better according to predetermined measurements. In combination of data mining and statistical analysis, these tests allow to answer important questions and help to transition from the state of “we think” to “we know”. Nevertheless, running bad test cases can have negative impact on businesses and can result in bad user experience. That is why it is important to be able to forecast A/B test long-term effects from short-term data.

In this report A/B tests and their forecasting is looked at using the univariate time-series analysis. However, because of the short duration and high diversity, it poses a great challenge in providing accurate long-term forecasts. This is a quantitative and empirical study that uses real-world data set from a social game development company King Digital Entertainment PLC(King.com).

First through series of steps the data are analysed and pre-processed. Time-series forecasting has been around for generations. That is why an analysis and accuracy comparison of existing forecasting models, like, mean forecast, ARIMA and Artificial Neural Networks, is carried out. The results on real data set show similar results that other researchers have found for long-term forecasts with short-term data.

To improve the forecasting accuracy a time-series clustering method is proposed. The method utilizes similarity between time-series through Dynamic Time Warping, and trains separate cluster forecasting models. The clusters are chosen with high accuracy using Random Forest classifier, and certainty about time-series long-term range is obtained by using historical tests and a Markov Chain. The proposed method shows superior results against existing models, and can be used to obtain long-term forecasts for A/B tests.

Place, publisher, year, edition, pages
2016. , 70 p.
Series
TRITA-ICT-EX, 2016:42
Keyword [en]
A/B tests, time-series, long-term forecasting, time-series clustering
Keyword [sv]
A/B-tester, tidsserier, långsiktiga prognoser, tidsseriekluster
National Category
Computer and Information Science
Identifiers
URN: urn:nbn:se:kth:diva-205344OAI: oai:DiVA.org:kth-205344DiVA: diva2:1088619
Subject / course
Computer Science
Educational program
Master of Science - Distributed Computing
Supervisors
Examiners
Available from: 2017-04-13 Created: 2017-04-13 Last updated: 2017-04-28Bibliographically approved

Open Access in DiVA

fulltext(2227 kB)27 downloads
File information
File name FULLTEXT01.pdfFile size 2227 kBChecksum SHA-512
8aa06e3288099406a33194dc40ed5e8db9b00657c84a40ff68463767793cbdef24db14e5ef6850b0a713dafc0d3ef5d92883a2af27e2b8467b70956b3a1987f1
Type fulltextMimetype application/pdf

By organisation
School of Information and Communication Technology (ICT)
Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 27 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 124 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf