Predicting Attendance at Events Within the Life-Science Sector Using Machine Learning
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [en]
This thesis aims to apply different machine learning models on the complex problem of event curation to maximise attendance and customer engagement. Utilising historical attendance data and various demographic parameters from two different datasets provided by the life science industry organisation SwedenBIO, the study aims to provide event planners with reliable parameters that may affect a persons attendance. Testing the machine learning algorithms XGBoost, Random Forest and logistic regression to determine which of these gives the most accurate predictions on the two datasets as well as investigating which features each model deems as important for the decision making process. The findings demonstrate different strengths and weaknesses withing the models, but XGBoost gave the most accurate prediction for each dataset, exceeding the greatest from baseline comparison of both datasets. Features that impacted attendance the most for the Event-data were generally work titles as well as whether the event fell under the ’Knowledge’ category. However for the Expo-data the models deemed company type as more important for deciding the type of participation with ’Investment’, ’Biotech’ and ’Service and Collaboration’ in the top three, respectively. The findings of this thesis are able to assist SwedenBIO’s event organisation in a way that boosts their event attendance and customer engagement.
Abstract [sv]
Den här rapporten ämnar att tillämpa olika maskininlärningsmodeller på det komplicerade problemet som är eventorganisering, för att kunna maximera deltagande och öka kundengagemang. Genom att använda historisk närvarodata och olika demografiska parametrar från två olika dataset som tillhandahållits av life science branschorganisationen Sweden-BIO, avser studien att ge eventplanerare tillförlitliga parametrar som kan påverka en persons närvaro. Rapporten ämnar även att testa maskininlärningsalgoritmerna XGBoost, Random Forest och Logistisk Regression för att avgöra vilken av dessa som ger en mest exakt prognos på de två dataseten samt undersöka vilka egenskaper varje modell anser vara viktiga för beslutsprocessen. Resultaten visar på olika styrkor och svagheter hos modellerna, men XGBoost gav den mest exakta förutsägelsen för varje dataset som övertäffade baslinjen i båda dataseten. De parametrar som hade störst påverkan på deltagandet för Event-datan var yrkestitlar samt om eventet klassades som ett ’Kunskaps’-event. För Expo-datan påvisades istället att företagstyp var viktigare för att bestämma deltagandetyp med ’Investering’, ’Bioteknik’ samt ’Service och tjänsteorganisationer’ som de tre främsta, i den ordningen. Resultaten från denna rapport kan hjälpa SwedenBIO:s eventorganisation på ett sätt som ökar deras evenemangsdeltagande och kundengagemang.
Place, publisher, year, edition, pages
2024. , p. 9
Series
TRITA-EECS-EX ; 2024:253
Keywords [en]
XGBoost, Random Forest, Logistic Regression, Customer Engagement, SwedenBIO, Machine Learning, Attendance prediction
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-350660OAI: oai:DiVA.org:kth-350660DiVA, id: diva2:1884568
Supervisors
Examiners
2024-08-092024-07-172024-08-09Bibliographically approved