The inherent predisposition of popular LLM services: Analysis of classification bias in GPT-4o mini, Mistral NeMo and Gemini 1.5 Flash
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Den ärvda predispositionen av populära LLM-tjänster : Analys av klassificeringsbias i GPT-4o mini, Mistral NeMo and Gemini 1.5 Flash (Swedish)
Abstract [en]
LLM (Large Language Models) is today the most popular form of neural networks for generating and classifying text. These models are used in everything from chat systems to smart agents and are implemented today in many companies for automation. These models are built by training a model on very large amounts of text available online. Since these models are trained on human-written texts, it also means that the models respond like humans and thus inherit various biases that humans possess. Large LLM models are usually practically impossible to train or run locally due to the high costs such work entails. Therefore, companies rely on a few popular models that are censored or pre-instructed to respond in a particular way. The work presented in this report examines how three different models (GPT4o-mini, Gemini-1.5-flash & Open-Mistral-nemo-2407) perform when classifying and rating responses from a job interview where temperature, instruction, gender and cultural background of the interviewee changes. We find from the results that all three LLMs exhibit with statistical significance a discrimination against men in general and against names that indicate an Anglo-Saxon background in particular. We also find that this discrimination is inhibited slightly when the classification instruction explicitly describes the criteria for the different grades. Our results show no major difference in discrimination when the temperature in the calls changes, on the other hand, temperature affects the overall rating by increasing or decreasing the mean value depending on the model.
Abstract [sv]
LLM (Large Language Models) är idag den mest populära formen av neurala nätverk för att generera och klassificera text. Dessa modeller används i allt från chatt-system till smarta agenter och implementeras idag i många bolag för automation. Dessa modeller byggs genom att träna en modell på väldigt stora mängder text tillgängligt på nätet. Eftersom dessa modeller är tränade på människoskrivna texter medför det också att modellerna svarar som människor och därmed ärver olika fördomar som människor besitter. Stora LLM-modeller är oftast praktiskt omöjliga att träna upp eller köra lokalt på grund av de höga kostnader ett sådant arbete medför. Därför förlitar sig bolag på ett fåtal populära modeller som är censurerade eller för-instruerade att svara på ett särskilt sätt. Det arbete som presenteras i denna rapport undersöker hur tre olika modeller (GPT4o-mini, Gemini-1.5-flash & Open-Mistral-nemo-2407) presterar när de ska klassificera och betygsätta svar från en anställningsintervju där temperatur, instruktion samt kön och kulturell bakgrund på den intervjuade ändras. Vi finner från resultatet att alla tre LLM uppvisar med statistisk signifikans en diskriminering mot män generellt samt mot namn som indikerar anglosaxig bakgrund särskilt. Vi finner också att denna diskriminering hämmas tills viss del när klassificeringsinstruktionen explicit beskriver kriterium för dom olika betygen. Våra resultat visar ingen större skillnad i diskriminering när temperaturen i anropen ändras, däremot så påverkar temperatur betyg överlag genom att öka eller minska medelvärdet beroende på modell.
Place, publisher, year, edition, pages
2024. , p. 36
Series
TRITA-EECS-EX ; 2024:700
Keywords [en]
LLM, temperature, prompt engineering, classification, bias
Keywords [sv]
LLM, temperatur, promptdesign, klassificering, partiskhet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-354760OAI: oai:DiVA.org:kth-354760DiVA, id: diva2:1905220
External cooperation
Semsomi AB
Supervisors
Examiners
2024-10-112024-10-112024-10-11Bibliographically approved