Enhancing Data Preparation with Adaptive Learning: A Contextual Bandit Approach for Recommender Systems
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Organizations increasingly rely on data analysis to inform strategic decisions, with the effectiveness of these decisions heavily contingent on the quality of the underlying data. This thesis addresses the complexities of data preparation, focusing on enhancing data quality through efficient and accurate data preprocessing techniques. The core challenge tackled in this work is the imputation of missing values by introducing a contextual multi-armed bandit recommendation system. This system leverages an internal knowledge base to recommend the most suitable imputation techniques, balancing the need for automation and explainability. Methodologically, this thesis advances the framework from previous research by incorporating an online learning methodology that adapts based on the user’s specific scenario. The recommendation system is rigorously developed and evaluated, undergoing fine-tuning and a sensitivity analysis of its parameters. It is then benchmarked against state-of-the-art multi-armed-bandit policies, achieving an average 8% improvement in MAP@1 scores and a 20% increase in real-world simulated Leave-One-Dataset-Out scenarios compared to existing literature. Additionally, the application of empirical knowledge has led to a further 7% increase in MAP@1, demonstrating the system’s effectiveness in utilizing contextual and historical data insights for data preparation. In conclusion, this thesis significantly contributes to the data preparation field by presenting a novel recommendation system that effectively utilizes both contextual information and historical data insights. This system aids users in enhancing the quality of their datasets, thereby improving the trustworthiness and usefulness of subsequent data analyses.
Abstract [sv]
Organisationer förlitar sig alltmer på dataanalys för att förstå strategiska beslut, varvid beslutens effektivitet starkt beror på den underliggande datakvaliteten. Denna avhandling adresserar utmaningarna med datapreparering, fokuserat på att förbättra datakvaliteten genom effektiva och noggranna förberedelsetekniker. Kärnproblemet som behandlas är imputation av saknade värden genom ett kontextuellt multi-armat banditrekommendationssystem. Systemet använder en intern kunskapsbas för att rekommendera lämpliga imputationsalgoritmer och balanserar behovet av automatisering med beslutens förklaringsgrad. Avhandlingen utvecklar metodiskt tidigare arkitekturer genom att införliva en onlineinlärningsmetod som anpassas efter användarens specifika scenario. Rekommendationssystemet har utvärderats grundligt, inklusive finjustering och känslighetsanalys av dess parametrar, samt jämförts med ledande förstärkningsinlärningspolicys genom en realistiskt simulerad ”leave one out”-metod. Resultaten visar att det föreslagna systemet presterar robust och överträffar många etablerade policys i att rekommendera precisa imputationstekniker, vilket bekräftar dess förmåga att effektivt använda kontextuella och historiska datainsikter för att underlätta datapreparering. Avhandlingen bidrar till dataprepareringsfältet genom att introducera ett nytt rekommendationssystem som effektivt utnyttjar kontextuell och historisk information, vilket hjälper användare att förbättra kvaliteten i sina datamängder och därmed öka tillförlitligheten och nyttan i efterföljande dataanalyser.
Place, publisher, year, edition, pages
2024. , p. 114
Series
TRITA-EECS-EX ; 2024:556
Keywords [en]
Data Preparation, Recommender Systems, Contextual Multi-Armed Bandit, Knowledge Base, Data Imputation
Keywords [sv]
Dataförberedelse, Rekommendationssystem, Kontextuell Multi-Armad Bandit, Kunskapsbas, Data Imputation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352869OAI: oai:DiVA.org:kth-352869DiVA, id: diva2:1895930
External cooperation
Politecnico di Milano; PwC Sweden
Supervisors
Examiners
2024-10-022024-09-092024-10-02Bibliographically approved