Ericsson regularly collects traffic datasets from different radio networks around the world. These data sets can be used for several research purposes, ranging from general statistics to more specific studies such as system troubleshooting and buffer-level analysis. Currently, a researcher may find it difficult to assess if a certain dataset is useful for aparticular investigation, since there exists no easily accessible overview of the properties of the different data sets.This thesis project aims to make it easier to compare the existing traffic datasets in terms of general statistics, user and time coverage,data integrity and the patterns of sequences in radio network event logs. The key contribution is a method of clustering event sequences based on sequence duration and occurrences of a number of key events.A method called the Gap-statistic was applied to determine that using 11 clusters was suitable for the analysis, although no strong evidence was found for the existence of well separated clusters.The results show that the method can work as a useful extension of basic comparative statistics. Two dense ranges of sequence durations discovered in the basic statistics could successfully be linked to corresponding clusters of sequences. Extensive statistics about the cluster members then revealed detailed properties of the sequences in these two dense areas, at a deeper level than could be understood from the basic statistics.A problematic part of interpreting the results of the method is that many different perspectives of the data need to be considered at the same time to find interesting links. Future work could include automating the process of linking features in the basic statistics to clusters.
Att jämföra trafikdatamängder för mobila enheter genom klusteranalys för sekvenser av event i radionätet Ericsson samlar regelbundet in trafikdatamängder ifrån olika radionätverk runt om i världen. Dessa datamängder kan användas i många olika forsknings- och utvecklingssyften, både ur ett generellt perspektiv genom att betrakta allmän statistik, men även för specifika studier som till exempel felsökning av system och analys av buffernivåer i nätverket. För närvarande kan det dock vara svårt för en potentiell analytiker av dessa datamängder att avgöra om de lämpar sig för en viss studie. Detta examensarbete är inriktat på att underlätta jämförelser mellan olika inspelningar av dessa trafikdatamängder vad gäller allmänstatistik, användar- och tidstäckning och dataintegritet samt mönster i loggarna för radionätshändelser. Det huvudsakliga bidraget av detta examensarbete är en metod för att klustra händelsesekvenser baserat på deras tidsspann och antal förekomster av nyckelhändelser. Den s.k. Gap Statistic-metoden användes för att avgöra att 11 kluster var lämpligt för klusteranalysen, även om starka bevis inte kunde hittas för existensen av tydligt separerade kluster i de studerade datamängderna. Resultaten visar på att den valda metoden kan fungera som en användbar fördjupning av allmän jämförande statistik. Två intervall av tätt samlande durationer för händelsesekvenser kunde länkas till två motsvarande kluster av sekvenser. Utförlig statistik om sekvenserna i dessa kluster kunde visa på sekvensernas egenskaper i stor detalj, på en djupare nivå än vad som kunde åstadkommas med allmän statistik. En problematisk del i tolkandet av metodens resultat var att flera olika perspektiv av data var tvungna att betraktas på samma gång för att kunna upptäcka intressanta länkar. En vidareutveckling av arbetet i denna rapport kan vara att skapa metoder för att automatisera och förenkla processen att länka intressanta fenomen i den allmänna statistiken till olika kluster.