kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
The inherent predisposition of popular LLM services: Analysis of classification bias in GPT-4o mini, Mistral NeMo and Gemini 1.5 Flash
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Den ärvda predispositionen av populära LLM-tjänster : Analys av klassificeringsbias i GPT-4o mini, Mistral NeMo and Gemini 1.5 Flash (Swedish)
Abstract [en]

LLM (Large Language Models) is today the most popular form of neural networks for generating and classifying text. These models are used in everything from chat systems to smart agents and are implemented today in many companies for automation. These models are built by training a model on very large amounts of text available online. Since these models are trained on human-written texts, it also means that the models respond like humans and thus inherit various biases that humans possess. Large LLM models are usually practically impossible to train or run locally due to the high costs such work entails. Therefore, companies rely on a few popular models that are censored or pre-instructed to respond in a particular way. The work presented in this report examines how three different models (GPT4o-mini, Gemini-1.5-flash & Open-Mistral-nemo-2407) perform when classifying and rating responses from a job interview where temperature, instruction, gender and cultural background of the interviewee changes. We find from the results that all three LLMs exhibit with statistical significance a discrimination against men in general and against names that indicate an Anglo-Saxon background in particular. We also find that this discrimination is inhibited slightly when the classification instruction explicitly describes the criteria for the different grades. Our results show no major difference in discrimination when the temperature in the calls changes, on the other hand, temperature affects the overall rating by increasing or decreasing the mean value depending on the model.

Abstract [sv]

LLM (Large Language Models) är idag den mest populära formen av neurala nätverk för att generera och klassificera text. Dessa modeller används i allt från chatt-system till smarta agenter och implementeras idag i många bolag för automation. Dessa modeller byggs genom att träna en modell på väldigt stora mängder text tillgängligt på nätet. Eftersom dessa modeller är tränade på människoskrivna texter medför det också att modellerna svarar som människor och därmed ärver olika fördomar som människor besitter. Stora LLM-modeller är oftast praktiskt omöjliga att träna upp eller köra lokalt på grund av de höga kostnader ett sådant arbete medför. Därför förlitar sig bolag på ett fåtal populära modeller som är censurerade eller för-instruerade att svara på ett särskilt sätt. Det arbete som presenteras i denna rapport undersöker hur tre olika modeller (GPT4o-mini, Gemini-1.5-flash & Open-Mistral-nemo-2407) presterar när de ska klassificera och betygsätta svar från en anställningsintervju där temperatur, instruktion samt kön och kulturell bakgrund på den intervjuade ändras. Vi finner från resultatet att alla tre LLM uppvisar med statistisk signifikans en diskriminering mot män generellt samt mot namn som indikerar anglosaxig bakgrund särskilt. Vi finner också att denna diskriminering hämmas tills viss del när klassificeringsinstruktionen explicit beskriver kriterium för dom olika betygen. Våra resultat visar ingen större skillnad i diskriminering när temperaturen i anropen ändras, däremot så påverkar temperatur betyg överlag genom att öka eller minska medelvärdet beroende på modell.

Place, publisher, year, edition, pages
2024. , p. 36
Series
TRITA-EECS-EX ; 2024:700
Keywords [en]
LLM, temperature, prompt engineering, classification, bias
Keywords [sv]
LLM, temperatur, promptdesign, klassificering, partiskhet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-354760OAI: oai:DiVA.org:kth-354760DiVA, id: diva2:1905220
External cooperation
Semsomi AB
Supervisors
Examiners
Available from: 2024-10-11 Created: 2024-10-11 Last updated: 2024-10-11Bibliographically approved

Open Access in DiVA

fulltext(689 kB)1014 downloads
File information
File name FULLTEXT01.pdfFile size 689 kBChecksum SHA-512
f82967fae5982b46a7d1df9e6d05ee8ff4369b34d260b887e1dd45e1ce5c6ab777298592d283cf09abf2a37296f52f2b51169be9f6e1b94a58b261b7fb26e9a7
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 1015 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 770 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf