Enhancing Football Match Outcome Prediction: A Comparative Study of Feature Selection Techniques and Support Vector Machines
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Förbättring av förutsägelser av fotbollsmatchresultat : En jämförande studie av tekniker för funktionsurval och stödvektormaskiner (Swedish)
Abstract [en]
This study explores the predictability of football match outcomes in the English Premier League using Support Vector Machines (SVMs), covering the 2012-2013 to 2022-2023 seasons. The research encompasses extensive data collection, preprocessing, and employs a variety of feature selection techniques to identify the most influential factors affecting match outcomes. The outcome of a football match has three possible values, 0 that represents an away win, 1 that represents a draw, and 2 that represents a home win. However, the SVM is a binary classifier, and thus a one-against-one algorithm was applied. The accuracy of the model is determined by its ability to correctly predict these outcomes, with the highest accuracy achieved being 56.1%. The study also examines the complexity of the model, defined by the number of features used. It critically evaluates traditional statistical metrics against more abstracted features collected from the FIFA video game series. It is shown that abstracted features not only enhance the model’s accuracy but also offer a novel perspective on predicting football match outcomes. A minor reduction in accuracy by 0.6% from the optimal value obtained, allows a substantial decrease in complexity, with a 92% reduction in the number of features. This reduction is achieved by focusing on abstracted features, rather than statistical metrics, which offer significant predictive power while simplifying the model. This approach highlights the potential of integrating unconventional data sources in sports analytics. Additionally, the study highlights limitations in predicting specific outcomes, notably the consistent underperformance in accurately predicting draw outcomes. This specific aspect of the model’s performance signifies a critical gap in its learning algorithm, indicating an area of future work.
Abstract [sv]
Denna studie undersöker förutsägbarheten av fotbollsmatchresultat i den engelska högsta ligan Premier League med hjälp av stödvektormaskiner (SVMs), som täcker säsongerna 2012-2013 till 2022-2023. Forskningen omfattar omfattande datainsamling, förbearbetning, och använder en rad olika tekniker för val av egenskaper för att identifiera de mest inflytelserika faktorerna som påverkar matchresultat. Ett fotbollsmatchresultat kan ha tre möjliga värden: 0 som representerar en bortavinst, 1 som representerar oavgjort, och 2 som representerar en hemmavinst. En SVM är däremot en binär klassificerare, och därav användes en en-mot-en algoritm. Noggrannheten av modellen bestäms av dess förmåga att korrekt förutsäga dessa utfall, där den högsta noggrannheten som uppnåddes var 56, 1%. Studien undersöker även komplexiteten hos modellen, som definieras av antalet använda egenskaper. Den utvärderar kritiskt traditionella statistiska mått mot mer abstrakta egenskaper som samlats in från FIFA-videospelsserien. Det visas att abstrakta egenskaper inte bara förbättrar modellens noggrannhet utan också erbjuder ett nytt perspektiv på att förutsäga fotbollsmatchresultat. En mindre minskning av noggrannheten av 0, 6%-enheter från det optimala värdet gör det möjligt att minska komplexiteten avsevärt, med en 92%-minskning i antalet egenskaper som behövs. Denna reduktion uppnås genom att fokusera på abstrakta egenskaper, snarare än statistiska mått, som erbjuder betydande prediktiv kraft samtidigt som modellen förenklas. Detta tillvägagångssätt belyser potentialen för att integrera otraditionella datakällor inom sportanalys. Vidare så finner studien en begränsning i att förutsäga specifika resultat, specifikt den konsekventa underprestation i att korrekt förutsäga oavgjorda resultat. Denna specifika aspekt av modellens prestanda indikerar en kritisk brist i dess inlärningsalgoritm, vilket pekar på ett område för framtida arbete.
Place, publisher, year, edition, pages
2024. , p. 36
Series
TRITA-EECS-EX ; 2024:393
Keywords [en]
Football match outcomes, English Premier League, Support Vector Machines, Feature selection, Predictive modelling
Keywords [sv]
Fotbollsmatchresultat, engelska Premier League, Support Vector Machines, Funktionsval, Prediktiv modellering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351194OAI: oai:DiVA.org:kth-351194DiVA, id: diva2:1886691
Supervisors
Examiners
2024-09-172024-08-022024-09-17Bibliographically approved