Outlier Detection in Advertising Using Deep Evidential Regression: A Comparison Between Machine Learning Methods for Uncertainty Estimation
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Avvikelsedetektering Inom Reklam med Djup Evidentiell Regression : En Jämförelse Mellan Maskininlärningsalgoritmer för Osäkerhetsestimering (Swedish)
Abstract [en]
Deep Evidential Regression is a machine learning algorithm that has been developed in recent years and this thesis explores how it can be used in advertising to detect outliers. In particular it is used to detect outliers in Cost-Per-Mille which is an important metric in advertising that determines how much an advertiser pays per thousand impressions on their website, app or other digital platform. The model works by learning an evidential distribution and placing priors directly on the parameters of the likelihood function. Deep Evidential Regression eliminates the need for extensive sampling used in Bayesian Neural Networks and can be used to learn both epistemic and aleatoric uncertainty. Prediction intervals from the model are evaluated on different performance metrics such as Prediction Interval Coverage Probability and Prediction Interval Normalized Average Width. To gain new insight on how Deep Evidential Regression performs against other models it is compared against Bayesian Neural Networks, Bayesian Ridge Regression, Gaussian Process Regression, Quantile Regression and Quantile Regression Forests. The results of the thesis show that the Quantile Regression Forest performed best on the performance metrics related to the validity of the intervals, but all of the models, including Deep Evidential Regression, created valid prediction intervals according to the evaluation framework of the thesis. On performance metrics related to the width of the intervals Deep Evidential Regression had the best performance. Overall Deep Evidential Regression performed well against the other models.
Abstract [sv]
Djup Evidentiell Regression (Deep Evidential Regression) är en maskininlärningsalgoritm som har utvecklats de senaste åren och den här avhandlingen undersöker hur det kan användas för att upptäcka avvikande värden i annonsering. Det som särskilt undersöks är hur avvikande värden i Cost-Per-Mille (Kostnad Per Tusen) kan upptäckas. Cost-Per-Mille är ett viktig mätetal som avgör hur mycket annonsörer ska betala per tusen intryck på deras hemsida, app eller annan digital platform. Modellen fungerar genom att placera en priori-sannolikhhet (prior probability) direkt på sannolikhetsfunktionen (likelihood function). Djup Evidentiell Regression eliminerar behovet för omfattande stickprov använt i Bayesiska Neurala Nätverk och det kan användas för att lära sig aleatorisk och epistemisk osäkerhet. Förutsägelseintervall (Prediction Intervals) från modellen evalueras på Prediction Interval Coverage Probability (förutsägelseintervall täckningsgrads sannolikhet) och Prediction Interval Normalized Average Width (förusägelseintervall normaliserad genomsnittlig bredd). För att få nya insikter om hur Djup Evidentiell Regression klarar sig mot andra metoder så jämförs det med Bayesiska Neurala Nätverk (Bayesian Neural Networks), Bayesisk Ridge Regression (Bayesian Ridge Regression), Gaussisk processregression (Gaussian Process Regression), Kvantilregression (Quantile Regression) och Kvantilregressionsträd (Quantile Regression Forest). Resultaten i avhandlingen visar att Kvantilregressionsträd hade de bästa resultaten på prestandamått relaterade till validitet av intervallen men alla modeller, inklusive Djup Evidentiell Regression, skapade korrekta förutsägelseintervall enligt utvärderingsramen som användes i avhandlingen. På prestandamått relaterade till bredden på intervallen så hade Djup Evidentiell Regression de bästa resultaten. Överlag så hade Djup Evidentiell Regression bra resultat i jämförelse med de andra modellerna.
Place, publisher, year, edition, pages
2024. , p. 50
Series
TRITA-EECS-EX ; 2024:246
Keywords [en]
Outlier Detection, Anomaly Detection, Deep Evidential Regression, Evidential Deep Learning, Bayesian Neural Network, Bayesian Ridge Regression, Gaussian Process Regression, Quantile Regression, Quantile Regression Forest
Keywords [sv]
Avvikelseupptäckt, Djup Evidentiell Regression, Djup Evidentiell Inlärning, Baysiska Neurala Nätverk, Bayesisk Ridge Regression, Gaussisk processregression, Kvantilregression, Kvantilregressionsträd
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-349966OAI: oai:DiVA.org:kth-349966DiVA, id: diva2:1881840
External cooperation
GMP SYSTEMS
Supervisors
Examiners
2024-08-092024-07-032024-08-09Bibliographically approved