Automated Dietary Analysis Using Computer Vision and Large Language Models: An iOS Prototype
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Automatisk kostanalys med datorseende och stora språkmodeller : En iOS-prototyp (Swedish)
Abstract [en]
Maintaining awareness of dietary habits is important for health, but traditional methods such as manual food journaling are time-consuming and often inaccurate. Advances in computer vision and language models offer opportunities to automate this process, making dietary assessment more convenient and reliable.
This thesis presents a prototype iOS application in which an on-device computer vision model extracts ingredients from meal photos and creates structured meal entries without manual typing. To turn these entries into practical guidance, the system aggregates meals over selected time windows and uses a large language model to assess dietary patterns, highlight benefits and risks, and propose targeted recommendations.
An evaluation based on meal plans aligned with dietary guidelines indicates that the prototype can identify overconsumption of discretionary foods and partly detect the absence of seafood, demonstrating the potential of combining computer vision with language models to support automated dietary assessment.
Abstract [sv]
Att ha medvetenhet om sina kostvanor är viktigt för hälsan, men traditionella metoder såsom manuell kostregistrering är tidskrävande och ofta opålitliga. Framsteg inom datorseende och språkmodeller erbjuder möjligheter att automatisera denna process och därigenom göra kostbedömningar mer lättillgängliga och tillförlitliga.
Denna rapport presenterar en prototyp av en iOS-applikation där en datorseendemodell på enheten identifierar ingredienser från matbilder och skapar strukturerade måltidsregistreringar utan manuell inmatning. För att omvandla dessa registreringar till praktisk vägledning sammanställer systemet måltider över valda tidsintervall och använder en stor språkmodell för att analysera kostmönster, framhäva fördelar och risker samt föreslå riktade rekommendationer.
En utvärdering baserad på måltidsplaner i linje med kostriktlinjer visar att prototypen kan identifiera överkonsumtion av energirika livsmedel som sötsaker och snacks samt delvis upptäcka avsaknaden av fisk och skaldjur. Detta demonstrerar potentialen i att kombinera datorseende med språkmodeller för att stödja automatiserad kostbedömning.
Place, publisher, year, edition, pages
2025.
Series
TRITA-CBH-GRU ; 2025:308
Keywords [en]
Vision-Based Dietary Assessment (VBDA), Semantic Segmentation, Computer Vision, Deep Learning, LLM, Mobile Application
Keywords [sv]
Vision-Based Dietary Assessment (VBDA), Semantisk segmentering, Datorseende, Djupinlärning, LLM, Mobilapplikation
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-370493OAI: oai:DiVA.org:kth-370493DiVA, id: diva2:2001430
Educational program
Bachelor of Science in Engineering - Computer Engineering; Master of Science in Engineering - Information and Communication Technology
Supervisors
Examiners
2025-09-302025-09-262025-09-30Bibliographically approved