Leveraging LLMs to automatically parse and log fitness workouts from unstructured text: Evaluating LLama 3’s few-shot learning performance
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utnyttja LLMs för att automatiskt analysera och logga träningspass från ostrukturerad text : Utvärdering av LLama 3:s few-shot learning prestanda (Swedish)
Abstract [en]
The growing popularity of health and fitness tracking among athletes has highlighted the need for an automated solution for logging workouts. While technology enhances user engagement and can provide valuable performance data, a gap remains between fitness tracking tools and the methods employed by fitness professionals to deliver workout plans. This disconnect often requires athletes to manually log their training sessions, resulting in inefficiencies and a sub-optimal user experience. The absence of standardized formats, varied terminology, and the need for contextual understanding in parsing workout plans present significant challenges in identifying, extracting, and organizing information. Recent advances in LLMs (Large Language Models) offer new opportunities to address these issues. Hence, this study investigates the potential of LLMs and few-shot learning to convert unstructured workout descriptions into JavaScript Object Notation (JSON). By leveraging the capabilities of LLMs, the study implements a customized integration with the general-purpose model LLama 3 to generate valid JSON objects suitable for logging purposes. Through the use of a JSON Schema with regular expressions and enumerations to guide the generation, experiments demonstrate that the 8B parameter model, LLama 3 Instruct, can structure a workout description into a complex JSON object with minimal few-shot examples provided and no task-specific training. The findings indicate that the model’s performance is significantly influenced by the examples provided in the prompt template. This research contributes to the field of automated fitness tracking by showcasing an application of LLMs for data structuring using few-shot learning. Future research can further refine the integration of LLMs in fitness tracking, potentially incorporating multimodal data sources such as images and audio to improve the system’s robustness and applicability.
Abstract [sv]
Den växande populariteten för hälsa och fitnesstracking bland idrottare har skapat ett behov av en automatiserad lösning för att logga träningspass. Trots att teknikutvecklingen har ökat engagemanget och ger åtkomst till värdefull prestationsdata, finns det fortfarande en klyfta mellan fitnesstracking- applikationer och de metoder som används för att leverera träningsplaner. Denna klyfta kräver ofta att idrottare manuellt loggar sina träningspass, vilket resulterar i ineffektivitet och en suboptimal användarupplevelse. Bristen på ett standardiserat format, varierande terminologi och behovet av kontextuell förståelse vid tolkning av träningsplaner utgör utmaningar för att identifiera, extrahera och strukturera information. Nya framsteg inom stora språkmodeller (LLMs) erbjuder möjligheter att hantera dessa problem. Därför undersöker denna studie potentialen hos LLMs för att konvertera ostrukturerade träningsbeskrivningar till JavaScript Object Notation (JSON) med hjälp av few-shot learning. Genom att utnyttja LLMs språkförståelse och kapacitet implementerar studien en specialanpassad integration med LLama 3 för att generera giltiga JSON-objekt från ostrukturerad textdata. Genom att använda ett JSON Schema med reguljära uttryck och enumerations för att vägleda genereringen visar experimenten att LLama 3 Instruct (med 8 miljarder parametrar) kan strukturera en träningsbeskrivning till en komplex JSON-struktur med endast några få demonstrerande exempel. Resultaten i studien visar att modellens prestanda är starkt påverkad av de exempel som ges i promptmallen. Denna strudie bidrar till området för automatiserad fitnesstracking genom att demonstrera en tillämpning av LLMs för datastrukturering med hjälp av few-shot leaning. Framtida forskning kan vidare förfina integrationen av LLMs i fitnesstracking, med en möjlig inriktning på att inkludera flera datakällor som bilder och ljud för att öka systemets robusthet och tillämplighet.
Place, publisher, year, edition, pages
2024. , p. 65
Series
TRITA-EECS-EX ; 2024:805
Keywords [en]
Machine learning, Large language models, Natural language processing, Data analysis, Data parsing, Few-shot learning, Fitness data, Fitness logging
Keywords [sv]
Maskininlärning, Stora språkmodeller, Data analys, Naturlig språk behand- ling, Few-shot learning, Träningsdata, Träningsloggning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360310OAI: oai:DiVA.org:kth-360310DiVA, id: diva2:1939962
External cooperation
WODMotions
Supervisors
Examiners
2025-02-272025-02-252025-02-27Bibliographically approved