kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Enhancing Thematic Analysis with Large Language Models: A Comparative Study of Structured Prompting Techniques: Leveraging Large Language Models to Automate and Enhance Inductive Thematic Analysis in Qualitative Research
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förbättrad tematisk analys med stora språkmodeller: En jämförande studie av tekniker för strukturerade uppmaningar : Utnyttja stora språkmodeller för att automatisera och förbättra induktiv tematisk analys i kvalitativ forskning (Swedish)
Abstract [en]

Thematic analysis, while crucial for qualitative research, becomes challenging with large datasets due to the intensive manual effort involved. This thesis explores the capacity of Large Language Mod- els (LLMs) to automate and enhance this process through different prompting techniques, benchmarking their performance against human-generated analyses. In this thesis we compare three distinct approaches: (1) Zero-Shot prompting, a single-prompt solution relying solely on pre-trained knowledge; (2) Top- Down Structured Prompting (TDSP), leveraging prompt engineering principles by starting with broad themes and progressively refining analysis; and (3) Bottom-Up Structured Prompting (BUSP), mirroring the established six steps of human thematic analysis designed for efficient extraction of nuanced insights. Applying these techniques to three diverse qualitative datasets, we used a rubric-based scoring system to evaluate the outputs against findings from the original research. Our results demonstrate that structured prompting techniques, particularly TDSP, significantly outperform the Zero-Shot approach in accurately capturing key findings. On average, 86% of findings identified by human researchers were at least par- tially identified in the outputs generated using structured prompting techniques. We also explored using an AI-based evaluator for rubric scoring but found the results unreliable, indicating that human evalua- tion remains crucial. This study makes a compelling argument that AI can efficiently perform thematic analysis and, especially in the future, provide substantial support to qualitative researchers in their work.

Abstract [sv]

Tematisk analys, som är avgörande för kvalitativ forskning, blir utmanande med stora datamängder på grund av den intensiva manuella ansträngning som krävs. I den här avhandlingen undersöks kapaciteten hos stora språkmodeller (LLM) för att automatisera och förbättra denna process genom olika prompt- tekniker och jämföra deras prestanda med mänskligt genererade analyser. I denna avhandling jämför vi tre olika tillvägagångssätt: (1) Zero-Shot prompting, en lösning med en enda uppmaning som enbart förl- itar sig på förutbildad kunskap; (2) Top-Down Structured Prompting (TDSP), som utnyttjar principer för promptteknik genom att börja med breda teman och gradvis förfina analysen; och (3) Bottom-Up Struc- tured Prompting (BUSP), som speglar de etablerade sex stegen i mänsklig tematisk analys utformad för effektiv extraktion av nyanserade insikter. Genom att tillämpa dessa tekniker på tre olika kvalitativa dataset använde vi ett rubrikbaserat poängsystem för att utvärdera resultaten mot resultaten från den ursprungliga forskningen. Våra resultat visar att strukturerade uppmaningstekniker, särskilt TDSP, är betydligt bättre än Zero-Shot-metoden när det gäller att korrekt fånga viktiga resultat. I genomsnitt iden- tifierades 86% av de resultat som identifierats av mänskliga forskare åtminstone delvis i de resultat som genererats med hjälp av strukturerade prompttekniker. Vi undersökte också möjligheten att använda en AI-baserad utvärderare för bedömning av rubriker, men resultaten var otillförlitliga, vilket tyder på att mänsklig utvärdering fortfarande är avgörande. Denna studie ger ett övertygande argument för att AI effektivt kan utföra tematisk analys och, särskilt i framtiden, ge betydande stöd till kvalitativa forskare i deras arbete.

Place, publisher, year, edition, pages
2024. , p. 29
Series
TRITA-EECS-EX ; 2024:797
Keywords [en]
Large Language Models, Thematic Analysis, Qualitative Research, Artificial Intelligence, Prompt Engi- neering, NLP for Qualitative Data, Inductive Thematic Analysis
Keywords [sv]
Stora Språkmodeller, Tematisk Analys, Kvalitativ Forskning, Artificiell Intelligens, Promptteknik, NLP för Kvalitativa Data, Induktiv Tematisk Analys
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360236OAI: oai:DiVA.org:kth-360236DiVA, id: diva2:1939104
External cooperation
Mahagoni Festival
Supervisors
Examiners
Available from: 2025-02-25 Created: 2025-02-20 Last updated: 2025-02-25Bibliographically approved

Open Access in DiVA

fulltext(890 kB)493 downloads
File information
File name FULLTEXT02.pdfFile size 890 kBChecksum SHA-512
36957645cc19c103eb3d3683ba1d7848adccd8d9edd92d21ec4b30f7932cf76ed6b3a03691e6731e27f7dac3d747deaecf41ca25a8e4c26b4e7119a5a352c51c
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 493 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 866 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf