Impact of LightGBM Hyperparameters on Class Imbalance
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Påverkan av LightGBM-hyperparametrar på Klassobalans (Swedish)
Abstract [en]
Class imbalance is a common problem in Machine Learning (ML) that introduces bias during the training phase of ML models, compromising their accuracy and reliability. This problem is particularly critical in fields such as disease diagnosis and credit risk assessment, where it is crucial to accurately predict the minority class. Despite extensive research on class imbalance, its treatment in the LightGBM model, especially through hyperparameter optimisation, remains underexplored. This thesis investigates the influence of hyperparameters on handling class imbalance in the LightGBM model. The main objectives are to identify which hyperparameters most significantly affect class imbalance and to determine whether hyperparameter optimisation can overcome this problem. A series of experiments were conducted to assess the individual impact of various LightGBM hyperparameters on class imbalance. We trained multiple configurations of LightGBM models, each varying only one hyperparameter while keeping all others at their default values. These configurations were evaluated using key performance metrics such as AUC, recall, and F1 score to determine their efficacy in predicting the minority class. This approach identified the hyperparameters that most significantly affect class imbalance. Furthermore, we conducted a second study employing Bayesian optimisation to find the optimal combination of hyperparameters. This optimal combination was then compared against results from similar studies to evaluate its effectiveness in overcoming class imbalance. Our findings identified is_unbalance and max_depth as the hyperparameters that most significantly influence LightGBM’s performance on classimbalanced datasets. Setting is_unbalance incorrectly results in LightGBM identifying only 1.6% of minority class instances, whereas setting it correctly enables LightGBM to identify up to 70% of such instances. Additionally, our research concludes that hyperparameter optimisation significantly enhances LightGBM’s ability to detect the minority class compared to using default hyperparameters. This demonstrates that optimising hyperparameters is crucial for effectively addressing class imbalance.
Abstract [sv]
Obalans i klasser är ett vanligt problem inom maskininlärning (ML) som introducerar bias under träningsfasen av ML-modeller, vilket äventyrar deras noggrannhet och tillförlitlighet. Detta problem är särskilt kritiskt inom områden som sjukdomsdiagnos och kreditriskbedömning, där det är avgörande att korrekt förutsäga minoritetsklassen. Trots omfattande forskning om obalans i klasser, är dess behandling i LightGBM-modellen, särskilt genom hyperparameteroptimering, fortfarande outforskat. Denna avhandling undersöker hyperparameterarnas inverkan på hantering av obalans i klasser i LightGBM-modellen. De huvudsakliga målen är att identifiera vilka hyperparameterar som mest påverkar obalans i klasser och att avgöra om hyperparameteroptimering kan lösa detta problem. Vi genomförde en serie experiment för att bedöma den individuella påverkan av olika hyperparameterar i LightGBM på obalans i klasser. Vi tränade flera konfigurationer av LightGBM-modeller, var och en varierande endast en hyperparameter medan alla andra hölls på sina standardvärden. Dessa konfigurationer utvärderades med hjälp av viktiga prestandamått som AUC, recall och F1-score för att avgöra deras effektivitet i att förutsäga minoritetsklassen. Denna metod identifierade de hyperparameterar som mest påverkar obalans i klasser. Dessutom genomförde vi en andra studie som använde Bayesiansk optimering för att hitta den optimala kombinationen av hyperparameterar. Denna optimala kombination jämfördes sedan med resultat från liknande studier för att utvärdera dess effektivitet i att lösa obalans i klasser. Våra resultat identifierade is_unbalance och max_depth som de hyperparameterar som mest påverkar LightGBM:s prestanda på dataset med obalans i klasser. Felaktig inställning av is_unbalance resulterar i att LightGBM endast identifierar 1,6% av instanserna i minoritetsklassen, medan korrekt inställning av is_unbalance gör att LightGBM kan identifiera upp till 70% av sådana instanser. Dessutom konstaterar vår forskning att hyperparameteroptimering avsevärt förbättrar LightGBM:s förmåga att upptäcka minoritetsklassen jämfört med att använda standardhyperparameterar. Detta visar att optimering av hyperparameterar är avgörande för att effektivt hantera obalans i klasser.
Abstract [es]
El desequilibrio de clases es un problema común en Machine Learning (ML) que introduce sesgo durante la fase de entrenamiento de los modelos de ML, comprometiendo su precisión y fiabilidad. Este problema es particularmente crítico en campos como el diagnóstico de enfermedades y la evaluación del riesgo crediticio, donde es crucial predecir con precisión la clase minoritaria. A pesar de la extensa investigación sobre el desequilibrio de clases, su tratamiento en el modelo LightGBM, especialmente a través de la optimización de hiperparámetros, sigue sin ser explorado. Esta tesis investiga la influencia de los hiperparámetros en el manejo del desequilibrio de clases en el modelo LightGBM. Los principales objetivos son identificar qué hiperparámetros afectan más significativamente al desequilibrio de clases y determinar si la optimización de hiperparámetros puede resolver este problema. Realizamos experimentos para evaluar el impacto de varios hiperparámetros de LightGBM en el desequilibrio de clases. Entrenamos configuraciones de modelos LightGBM, variando solo un hiperparámetro mientras manteníamos los demás en sus valores predeterminados. Estas configuraciones se evaluaron utilizando métricas clave de rendimiento para determinar su eficacia en la predicción de la clase minoritaria, identificando los hiperparámetros que afectan más significativamente al desequilibrio de clases. Además, realizamos un segundo estudio empleando optimización bayesiana para encontrar la combinación óptima de hiperparámetros. Esta combinación se comparó con estudios similares para evaluar su efectividad en superar el desequilibrio de clases. Nuestros hallazgos identificaron is_unbalance y max_depth como los hiperparámetros que más influyen en el rendimiento de LightGBM con desequilibrio de clases. Configurar incorrectamente is_unbalance resulta en LightGBM solo identificando el 1.6% de las instancias minoritarias, mientras que configurarlo correctamente permite identificar hasta el 70%. Además, nuestra investigación concluye que la optimización de hiperparámetros mejora significativamente la capacidad de LightGBM para detectar la clase minoritaria en comparación con los hiperparámetros predeterminados. Esto demuestra que la optimización de hiperparámetros es crucial para abordar el desequilibrio de clases.
Abstract [ca]
El desequilibri de classes és un problema comú en Machine Learning (ML) que introdueix biaix durant la fase d’entrenament dels models de ML, comprometent la seva precisió i fiabilitat. Aquest problema és particularment crític en camps com el diagnòstic de malalties i l’avaluació del risc creditici, on és crucial predir amb precisió la classe minoritària. Malgrat l’extensa investigació sobre el desequilibri de classes, el seu tractament en el model LightGBM, especialment a través de l’optimització d’hiperparàmetres, continua sent poc explorat. Aquesta tesi investiga la influència dels hiperparàmetres en la gestió del desequilibri de classes en el model LightGBM. Els principals objectius són identificar quins hiperparàmetres afecten més significativament el desequilibri de classes i determinar si l’optimització d’hiperparàmetres pot resoldre aquest problema. Vam realitzar experiments per avaluar l’impacte de diversos hiperparàmetres de LightGBM en el desequilibri de classes. Vam entrenar configuracions de models LightGBM, variant només un hiperparàmetre mentre manteníem els altres predeterminats. Aquestes configuracions es van avaluar amb mètriques clau de rendiment per determinar la seva eficàcia en la predicció de la classe minoritària. Aquest enfocament va identificar els hiperparàmetres que afecten més el desequilibri de classes. A més, vam realitzar un segon estudi utilitzant optimització bayesiana per trobar la combinació òptima d’hiperparàmetres. Aquesta combinació òptima es va comparar amb els resultats d’estudis similars per avaluar la seva efectivitat en superar el desequilibri de classes. Els nostres descobriments van identificar is_unbalance i max_depth com els hiperparàmetres que més influeixen en el rendiment de LightGBM amb desequilibri de classes. Configurar incorrectament is_unbalance resulta en LightGBM identificant només l’1,6% de les instàncies minoritàries, mentre que configurar-lo correctament identifica fins al 70%. A més, la nostra investigació conclou que l’optimització d’hiperparàmetres millora significativament la capacitat de LightGBM per detectar la classe minoritària en comparació amb hiperparàmetres predeterminats. Això demostra que l’optimització d’hiperparàmetres és crucial per abordar el desequilibri de classes.
Place, publisher, year, edition, pages
2024. , p. 37
Series
TRITA-EECS-EX ; 2024:366
Keywords [en]
Class Imbalance, LightGBM, Hyperparameter Optimisation, Machine Learning, Minority Class Prediction
Keywords [ca]
Desequilibri de classes, LightGBM, Optimització d’hiperparàmetres, Aprenentatge automàtic, Predicció de classe minoritària
Keywords [sv]
Klassobalans, LightGBM, Hyperparameteroptimering, Maskininlärning, Förutsägelse av minoritetsklass
Keywords [es]
Desequilibrio de clases, LightGBM, Optimización de hiperparámetros, Aprendizaje automático, Predicción de clase minoritaria
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-353803OAI: oai:DiVA.org:kth-353803DiVA, id: diva2:1900560
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2024-09-272024-09-242024-09-27Bibliographically approved