Evaluating Data Quality for behavioural event data using semiotic theory: Analysing how data roles perceive Data Quality and how it is influenced by Data Quality awareness and experience
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utvärdering av datakvalitet för data på användarbeteende genom det semiotiska ramverket : Forskning på datarollernas syn på datakvalitet och hur den påverkas av medvetenhet och erfarenhet kring datakvalitet (Swedish)
Abstract [en]
Today companies are handling and producing big data. To maximise the value of the data, companies need to achieve high data quality (DQ), and be able to measure it. This study analyses if semiotic framework is suitable to asses DQ for big data, specifically for behavioural event data. The research also investigates how data roles perceive DQ and how DQ awareness and experience influence DQ perception. The case study is conducted within the media company Schibsted. The investigation is carried out using semiotic framework on Schibsted’s data and surveying data consumers, producers and brokers. From the results it is possible to conclude that semiotic framework can be used for behavioural event data. However, the metrics should be easy to understand and the data should be sampled at the source. Moreover, the sample used in the survey should be equally distributed between data consumers, producers and brokers to minimise bias toward one of the data roles. The results also show that data roles give more importance to DQ criteria linked to their role. The level of DQ awareness and experience have a slight influence on the DQ perception but the sample size is too limited to affirm such a statement. The research can be extended by applying semiotic framework at different companies and use-case scenarios.
Abstract [sv]
Idag är det många företag som hanterar big data. För att kunna få ut det maximala värdet, måste företag nå en hög datakvalitet och kunna mäta det. Denna studie analyserar om det semiotiska ramverket är lämpligt för att värdera datakvalitet för big data, specifikt för data på användarbeteende. Denna studie undersöker hur olika dataroller uppfattar datakvalitet och hur den påverkas av medvetenhet och erfarenhet kring datakvalitet. Denna fallstudie är genomförd tillsammans med företaget Schibsted. Deras datakvalitet är analyserad med hjälp av det semiotiska ramverket och datakonsumenter, -producenter och -samlare är intervjuade. Resultaten visar att ramverket kan användas för att analysera datakvaliteten på data på användarbeteende. Däremot, måste de olika värderingarna vara entydiga och lätta att förstå. Data måste också samplas vid källan och lika många dataroller borde intervjuas för att undvika att en dataroll blir överrepresenterad. Resultaten visar också att datarollerna lägger mer värde i datakvalitetskriterier som är kopplade till deras roll. Datakvalitets medvetenhet och erfarenhet har en liten påverkan på synen på datakvalitet, men provstorleken är för liten för att kunna säkerställa det. Forskningen kan expanderas genom att genomföra samma studie på olika företag med samma typ av data. Vidare studier skulle hjälpa att avgöra om detta ramverk är lämplig för big data och data på användarbeteende.
Place, publisher, year, edition, pages
2023. , p. 67
Series
TRITA-EECS-EX ; 2023:8
Keywords [en]
Data Quality, semiotic framework, big data, data roles
Keywords [sv]
Datakvalitet, semiotiskaramverket, big data, dataroller
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-324013OAI: oai:DiVA.org:kth-324013DiVA, id: diva2:1737820
External cooperation
Schibsted AB
Supervisors
Examiners
2023-02-252023-02-172025-01-27Bibliographically approved