kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Investigating the relationship between localization and edit success in the large language model GPT-2
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Undersökning av sambandet mellan lokalisering och lyckad modelleditering i den stora språkmodellen GPT-2 (Swedish)
Abstract [en]

Large language models (LLMs), at the forefront of contemporary artificial intelligence and machine learning research, have demonstrated remarkable capabilities in language-related tasks. These models excel in language synthesis, natural language understanding, and factual recall. However, they are not designed to learn new information dynamically, making it challenging to update them with current data due to the high costs and complexities of retraining. Model editing has emerged as a cost-effective solution for modifying model behaviors and incorporating new knowledge without complete retrain- ing. This thesis investigates the ROME (rank-one model editing) locate-and- edit method, focusing on the relationship between localization (the process of identifying causally significant states within the model), the position of edits, and the associated success of the edits in transformer-based LLMs, specifically GPT-2-XL. An experiment was conducted on a subset of the COUNTERFACT dataset, generating data points that include pre-edit localization measures, post-edit success measures, and deviations in information flow for each record and edited model. These measures provide insights into the effects of edits on the model’s performance and internal mechanisms. The results reveal that while there is no direct correlation between either edit position or localization and individual edit success, these features do influence edit success on average. However, they are not individually predictive of whether an edit will succeed. Additionally, the study found that editing alters the model’s localization patterns and information flow, suggesting that edits may override existing mechanisms rather than interfacing with them. These findings have important implications for the development of more effective and targeted model editing techniques in the future, potentially leading to more efficient and reliable methods for updating LLMs with new information.

Abstract [sv]

Stora språkmodeller (Large Language Models, LLM) ligger i framkant av dagens forskning inom artificiell intelligens och maskininlärning. De har visat stor potential inom språksyntes, förståelse av naturligt språk och faktainhämtning. Denna potential har visat sig vara tillräckligt stor för att snabbt integreras av många företag och har blivit en del av vardagen för många. Trots denna potential lider språkmodeller av utmaningar med att lära sig ny information eller att förändra existerande beteenden. Detta beror dels på de stora resurser som krävs för att träna modellerna och dels på de oförutsägbara konsekvenser som mindre förändringar kan få på modellens funktionalitet. För att lösa detta har modelleditering föreslagits som en kostnadseffektiv lösning för att robust förändra modellbeteenden utan fullständig återträning av modellen. Det här arbetet undersöker modellediteringsmetoden ROME (rank-one model editing) med fokus på sambandet mellan lokalisering (process för att hitta betydelsefulla tillstånd i modellen för specifika beteenden), position för editering och mått på framgång för editeringar av fakta i den transformer-baserade språkmodellen GPT-2-XL. För att undersöka sambandet konstruerades ett experiment på en delmängd av datasettet COUNTERFACT, där datapunkter för lokaliseringsvärden före editering, mätvärden för framgången av editeringen och den resulterande förändringen i informationsflöde inom modellen efter editeringen mättes. Resultaten visar att det inte finns något tydligt samband mellan lokali- seringsvärde eller position av editering och den resulterande framgången för editeringen på individuell nivå. Däremot påverkar både editeringsposition och lokalisering framgången i genomsnitt, även om dessa egenskaper inte kan användas för att exakt förutse framgången på enskilda editeringar. Vidare visades att editering leder till betydande förändringar i lokaliseringsmönster och informationsflöde inom modellen, vilket tyder på att editeringar kan överskrida befintliga mekanismer snarare än att kirurgiskt modifiera dem. Dessa insikter har viktiga implikationer för utvecklingen av mer effektiva och exakta tekniker för modelleditering, vilket kan leda till mer pålitliga och resurseffektiva metoder för att uppdatera språkmodeller i framtiden.

Place, publisher, year, edition, pages
2024. , p. 63
Series
TRITA-EECS-EX ; 2024:772
Keywords [en]
Large language model, GPT-2-XL, Model editing, ROME, Attribution patching
Keywords [sv]
Stor språkmodell, GPT-2-XL, Modelleditering, ROME, Approximativ aktive- ringslappning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360199OAI: oai:DiVA.org:kth-360199DiVA, id: diva2:1938988
External cooperation
FOI Swedish Defence Research Agency
Supervisors
Examiners
Available from: 2025-02-24 Created: 2025-02-20 Last updated: 2025-02-24Bibliographically approved

Open Access in DiVA

fulltext(1222 kB)33 downloads
File information
File name FULLTEXT02.pdfFile size 1222 kBChecksum SHA-512
2b0b913ff4f0c13a75977a08bb69e43469c77a7bb432c83bfec6370442c0a3e8f5c6b1feb78b63ebf75512e8babeeb1d44ee91fc97c30c4cf62481cce7255ad4
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 33 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 502 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf