Investigating the relationship between localization and edit success in the large language model GPT-2
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Undersökning av sambandet mellan lokalisering och lyckad modelleditering i den stora språkmodellen GPT-2 (Swedish)
Abstract [en]
Large language models (LLMs), at the forefront of contemporary artificial intelligence and machine learning research, have demonstrated remarkable capabilities in language-related tasks. These models excel in language synthesis, natural language understanding, and factual recall. However, they are not designed to learn new information dynamically, making it challenging to update them with current data due to the high costs and complexities of retraining. Model editing has emerged as a cost-effective solution for modifying model behaviors and incorporating new knowledge without complete retrain- ing. This thesis investigates the ROME (rank-one model editing) locate-and- edit method, focusing on the relationship between localization (the process of identifying causally significant states within the model), the position of edits, and the associated success of the edits in transformer-based LLMs, specifically GPT-2-XL. An experiment was conducted on a subset of the COUNTERFACT dataset, generating data points that include pre-edit localization measures, post-edit success measures, and deviations in information flow for each record and edited model. These measures provide insights into the effects of edits on the model’s performance and internal mechanisms. The results reveal that while there is no direct correlation between either edit position or localization and individual edit success, these features do influence edit success on average. However, they are not individually predictive of whether an edit will succeed. Additionally, the study found that editing alters the model’s localization patterns and information flow, suggesting that edits may override existing mechanisms rather than interfacing with them. These findings have important implications for the development of more effective and targeted model editing techniques in the future, potentially leading to more efficient and reliable methods for updating LLMs with new information.
Abstract [sv]
Stora språkmodeller (Large Language Models, LLM) ligger i framkant av dagens forskning inom artificiell intelligens och maskininlärning. De har visat stor potential inom språksyntes, förståelse av naturligt språk och faktainhämtning. Denna potential har visat sig vara tillräckligt stor för att snabbt integreras av många företag och har blivit en del av vardagen för många. Trots denna potential lider språkmodeller av utmaningar med att lära sig ny information eller att förändra existerande beteenden. Detta beror dels på de stora resurser som krävs för att träna modellerna och dels på de oförutsägbara konsekvenser som mindre förändringar kan få på modellens funktionalitet. För att lösa detta har modelleditering föreslagits som en kostnadseffektiv lösning för att robust förändra modellbeteenden utan fullständig återträning av modellen. Det här arbetet undersöker modellediteringsmetoden ROME (rank-one model editing) med fokus på sambandet mellan lokalisering (process för att hitta betydelsefulla tillstånd i modellen för specifika beteenden), position för editering och mått på framgång för editeringar av fakta i den transformer-baserade språkmodellen GPT-2-XL. För att undersöka sambandet konstruerades ett experiment på en delmängd av datasettet COUNTERFACT, där datapunkter för lokaliseringsvärden före editering, mätvärden för framgången av editeringen och den resulterande förändringen i informationsflöde inom modellen efter editeringen mättes. Resultaten visar att det inte finns något tydligt samband mellan lokali- seringsvärde eller position av editering och den resulterande framgången för editeringen på individuell nivå. Däremot påverkar både editeringsposition och lokalisering framgången i genomsnitt, även om dessa egenskaper inte kan användas för att exakt förutse framgången på enskilda editeringar. Vidare visades att editering leder till betydande förändringar i lokaliseringsmönster och informationsflöde inom modellen, vilket tyder på att editeringar kan överskrida befintliga mekanismer snarare än att kirurgiskt modifiera dem. Dessa insikter har viktiga implikationer för utvecklingen av mer effektiva och exakta tekniker för modelleditering, vilket kan leda till mer pålitliga och resurseffektiva metoder för att uppdatera språkmodeller i framtiden.
Place, publisher, year, edition, pages
2024. , p. 63
Series
TRITA-EECS-EX ; 2024:772
Keywords [en]
Large language model, GPT-2-XL, Model editing, ROME, Attribution patching
Keywords [sv]
Stor språkmodell, GPT-2-XL, Modelleditering, ROME, Approximativ aktive- ringslappning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360199OAI: oai:DiVA.org:kth-360199DiVA, id: diva2:1938988
External cooperation
FOI Swedish Defence Research Agency
Supervisors
Examiners
2025-02-242025-02-202025-02-24Bibliographically approved