Exploring Text-to-SQL with Large Language Models: A Comparative Study of Claude Opus and a fine-tuned smaller-sized LLM
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Generering av SQL-frågor från naturligt språk med hjälp av stora språkmodeller : En jämförelse av Claude Opus och en finjusterad mindre språkmodell (Swedish)
Abstract [en]
Using natural language to search databases is one of the oldest applications of Natural Language Processing. With the recent developments using Transformer-based Large Language Models, the possibility to convert any natural language question into SQL with high accuracy has emerged. The current State-Of-The-Art models use ChatGPT-3.5 and GPT-4 with various prompting techniques. However, the models competing with GPT-4 have not been tested. Furthermore, smaller fine-tuned models have been shown to outperform GPT-4 on specific tasks, using lower computational costs and allowing for locally hosting the model instead of using third-party APIs. This thesis compares Claude Opus, one of the competitors to GPT-4, against a fine-tuned Mixtral 8x7B on the Text-to-SQL task. Text-to-SQL entails answering a natural language question asking for data in a database, and the goal is to generate SQL that correctly answers the question. Mixtral is fine-tuned on the Big bench for large-scale databases grounded in the Text-to-SQL (BIRD) training dataset, and both models are evaluated on the BIRD evaluation dataset. The main metric used to compare the models is Execution Accuracy, which compares the resulting rows when executing queries. The two models perform insignificantly differently on the evaluation dataset, with an Execution Accuracy of 50 %, around 7 % points behind the State-Of-The-Art on BIRD. However, when analysing the data points classified as incorrect, it is found that 17 % of the evaluation dataset contain incorrect ground truth SQL queries. The evaluation also incorrectly classifies many semantically correct queries, for example, when the order of the returned rows differs, or when there are rounding differences. When accounting for the error analysis, it is found that Claude Opus significantly outperforms Mixtral, with an Execution Accuracy of 82 % and 67 %, respectively.
Abstract [sv]
Att använda naturligt språk för att söka i databaser är ett av de äldsta användningsområdena för naturligt-språkbehandling. Den senaste tidens utveckling med Transformer-baserade stora språkmodeller har gjort det möjligt att med hög träffsäkerhet generera SQL från frågor i naturligt språk. De modeller som är i framkant inom Text-till-SQL använder ChatGPT-3.5 och GPT-4 med olika promptningsstrategier. Däremot har inte modeller som är jämförbara med GPT-4 testats tidigare. Det har också visats att finjusterade mindre modeller har presterat bättre än GPT-4 på specifika uppgifter, samtidigt som de är mindre beräkningstunga och kan köras på lokal hårdvara istället för att bara användas via ett tredjeparts API. Denna uppsats jämför Claude Opus, en stor generell språkmodell, mot att finjustera Mixtral 8x7B på Text-till-SQL. Text-till-SQL omfattar att generera SQL baserat på en fråga ställd i naturligt språk. Mixtral är finjusterad på träningsdatamängden av “Big bench for large-scale database grounded in Text-to-SQL” (BIRD). Den huvudsakliga utvärderingsmåttet som används är exekveringsnogrannhet, som jämför om resultaten av att exekvera den genererade SQL-frågan och datamängdens referens-SQL stämmer överens. De två testade modellerna har en exekveringsnogrannhet på 50 % och är därmed inte signifikant olika när de evalueras på BIRDs evalueringsdatamängd: modellerna presterar ungefär 7 procentenheter sämre än den bästa publicerade metoden på evalueringsdatamängden. Vid en studie av de datapunkter som klassificerats som inkorrekta i evalueringsdatan visar det sig dock att 17 % av evalueringsdatan består av felaktiga referens-SQL-frågor, samt att många korrekt genererade frågor felklassificeras på grund av, bland annat, att kolumner i resultatet kommer i olika ordning, samt av avrundningsskillnader. Om man beaktar dessa fel visar det sig att Claude Opus presterar signifikant bättre än finjusterade Mixtral, med en exekveringsnogrannhet på 82 % respektive 67 %.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 77
Series
TRITA-EECS-EX ; 2024:440
Keywords [en]
Deep learning, Transformers, Natural Language Processing, Large Language Model, Fine-Tuning, Automated Database Querying, Text-to-SQL
Keywords [sv]
Djupinlärning, Transformers, Naturling Språkbehandling, Stora Språkmodeller, Finjustering, Automatiserad databassökning, Text-till-SQL
National Category
Computer Sciences Natural Language Processing
Identifiers
URN: urn:nbn:se:kth:diva-351378OAI: oai:DiVA.org:kth-351378DiVA, id: diva2:1887425
Subject / course
Computer Science
Supervisors
Examiners
2024-09-192024-08-072025-02-01Bibliographically approved