An Empirical Examination of Generative Artificial Intelligence Leveraging OpenAI and Machine Learning Techniques for Data Visualization and Predictive Analysis: A Comparative Study Utilizing OpenAI in Microsoft Azure and MuleSoft
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
En empirisk undersökning av generativ artificiell intelligens med användning av OpenAI och maskininlärningstekniker för datavisualisering och prediktiv analys : En jämförande studie medanvändning av Microsoft Azure och MuleSoft (Swedish)
Abstract [en]
This research constitutes an empirical exploration into the application of generative artificial intelligence (AI) and machine learning methodologies for predictive analysis and data visualization, with a concentrated focus on how Generative AI can generate accurate and meaningful results based on specific questionnaires such as on the prediction of housing prices in California. The comparative study evaluates the efficacy of OpenAI for Microsoft Azure with Lida and Mulesoft OpenAI platforms in executing these analytical tasks. The results of the predictive analysis revealed a clear association between geographic location and housing prices, with properties designated as ’<1H OCEAN’ showing significantly higher median values as opposed to those located in ’INLAND’ areas. While Azure OpenAI (Lida) demonstrated expertise in generating inferential statistics using specific datasets, Mulesoft OpenAI assisted in conducting statistical analysis and identifying potential predictors. Mulesoft’s integration with OpenAI saw noticeable growth with generative AI functionality, despite the absence of data visualization capabilities. A specific instance highlighting the impact of dataset size on results was observed in the examination of the average cost of living in California across different platforms. With 480 rows of datasets, Azure OpenAI (Lida) indicated an average living cost of $185,665.97, while the same dataset size for MuleSoft OpenAI yielded a significantly different result of $246,057. This discrepancy suggests that MuleSoft OpenAI may have limitations in handling larger datasets, potentially impacting the accuracy of its results. In contrast, Azure OpenAI’s ability to handle larger datasets, as evidenced by the result of $251,000 when using the full CHPD, indicates the importance of sufficient data for more accurate predictions. These findings emphasize the need for careful consideration of platform capabilities and dataset sizes when conducting data analysis tasks. The descriptive results revealed disparities in the Median income and house values displayed a positive correlation, with Azure OpenAI (Lida) reporting a median income of $3,5349 and median house price of $179,500, while Mulesoft OpenAI noted an average housing age of 52 years. Distribution analyses showed average room prices of $2568.20 and bedroom prices of $523.56 with Azure OpenAI, contrasting Mulesoft OpenAI’s mean total rooms of 2666 and total bedrooms of 538. Urban-rural disparities were evident in median home values, with Azure OpenAI indicating under $200,000 for rural areas and above $300,000 for urban regions. Comparative analyses highlighted variations in median residence ages across California regions, with a median age of 28.5 years. These findings underscore the importance of platform capabilities and dataset sizes in extracting meaningful insights for real estate decision-making. In conclusion, this comparative study on integration platforms for data analysis and visualization using AI, generative AI, and ML reveals promising opportunities for predicting housing prices. Concrete results indicate that the LIDA framework and MuleSoft with OpenAI offer user-friendly interfaces, streamlining data analysis processes for a broad spectrum of users and organizations. For instance, user feedback demonstrated a significant reduction in the time required to derive insights from data, with non-technical users reporting increased confidence in their ability to navigate and interpret analytical outputs. Furthermore, metrics revealed a notable decrease in the number of technical support requests related to data analysis tasks, indicating improved self-sufficiency among users. These findings underscore how the integration of OpenAI with Microsoft Azure and MuleSoft effectively lowers the barrier for non-technical users, enabling them to leverage their data more efficiently through intuitive graphical interfaces.
Abstract [sv]
Denna forskning utgör en empirisk utforskning av tillämpningen av generativ artificiell intelligens (AI) och maskininlärningsmetoder för prediktiv analys och datavisualisering, med ett fokuserat intresse för hur Generativ AI kan generera precisa och meningsfulla resultat baserade på specifika frågeformulär, såsom förutsägelser om bostadspriser i Kalifornien. Den jämförande studien utvärderar effektiviteten hos OpenAI för Microsoft Azure med Lida och Mulesoft OpenAI-plattformarna när det gäller att utföra dessa analytiska uppgifter. Resultaten av den prediktiva analysen avslöjade en tydlig koppling mellan geografisk plats och bostadspriser, där fastigheter betecknade som ’<1H OCEAN’ visade betydligt högre medianvärden jämfört med de som är belägna i ’INLAND’-områden. Medan Azure OpenAI (Lida) visade expertis i att generera inferentiell statistik med specifika dataset, erbjöd Mulesoft OpenAI hjälp med att genomföra statistisk analys och identifiera potentiella prediktorer. Mulesofts integration med OpenAI såg märkbar tillväxt med generativ AIfunktionalitet, trots frånvaron av datavisualiseringsförmåga. Ett specifikt exempel som belyser datasetets storlekens påverkan på resultat observerades vid undersökningen av den genomsnittliga levnadskostnaden i Kalifornien över olika plattformar. Med 480 rader av datasetet angav Azure OpenAI (Lida) en genomsnittlig levnadskostnad på $185665,97, medan samma datasetstorlek för MuleSoft OpenAI gav ett betydligt annorlunda resultat på $246 057. Denna diskrepans antyder att MuleSoft OpenAI kan ha begränsningar i att hantera större dataset, vilket potentiellt påverkar noggrannheten i dess resultat. Å andra sidan indikerar Azure OpenAI:s förmåga att hantera större dataset, som bevisas av resultatet på $251000 när hela Kaliforniens bostadsdata används, vikten av tillräcklig data för mer exakta förutsägelser. Dessa resultat betonar behovet av noggrant övervägande av plattformars förmågor och datasetstorlekar vid utförandet av dataanalysuppgifter. De deskriptiva resultaten avslöjade skillnader i medianinkomst och husvärden som visade en positiv korrelation, medan Azure OpenAI (Lida) rapporterade en medianinkomst på $35349 och medianhuspris på $179 500, noterade Mulesoft OpenAI i genomsnitt en bostadsålder på 52 år. Fördelnings-analyser visade genomsnittliga rumpriser på 2 $568,20 och sovrumpriser på $523,56 med Azure OpenAI, vilket skiljer sig från Mulesoft OpenAI:s genomsnittliga totala rum på 2 666 och totala sovrum på 538. Urban-rurala skillnader var tydliga i medianhemvärden, där Azure OpenAI indikerade mindre än $200 000 för landsbygden och över $300000 för urbana områden. Jämförande analyser framhöll variationer i medianålder för bostadsorter över Kaliforniens regioner, med en medianålder på 28,5 år. Dessa resultat understryker vikten av plattformars förmågor och datasetstorlekar för att extrahera meningsfulla insikter för fastighetsbeslut.Sammanfattningsvis avslöjar denna jämförande studie om integrationsplattformar för dataanalys och visualisering med AI, generativ AI och ML lovande möjligheter för att förutsäga bostadspriser. Konkreta resultat indikerar att LIDAramverket och MuleSoft med OpenAI erbjuder användarvänliga gränssnitt och förenklar dataanalysprocesser för en bred spektrum av användare och organisationer. Till exempel visade användaråterkoppling en betydande minskning av tiden som krävs för att dra slutsatser från data, med icke-tekniska användare som rapporterade ökad förtroende för sin förmåga att navigera och tolka analytiska resultat. Dessutom visade metriska en märkbar minskning av antalet tekniska supportförfrågningar relaterade till dataanalysuppgifter, vilket indikerar förbättrad självförsörjning bland användare. Dessa resultat understryker hur integrationen av OpenAI med Microsoft Azure och MuleSoft effektivt sänker tröskeln för icke-tekniska användare, vilket gör det möjligt för dem att effektivare utnyttja sina data genom intuitiva grafiska gränssnitt.
Place, publisher, year, edition, pages
2024. , p. 83
Series
TRITA-EECS-EX ; 2024:87
Keywords [en]
Generative AI, Machine Learning, Integration Platform, Data Analytics, Data visualization, Mulesoft, Microsoft
Keywords [sv]
Generative AI, Machine Learning, Integration Platform, Data Analytics, Data visualization, Mulesoft, Microsoft
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351572OAI: oai:DiVA.org:kth-351572DiVA, id: diva2:1887849
External cooperation
Redpill-Linpro AB
Subject / course
Software Engineering
Educational program
Master of Science - Software Engineering of Distributed Systems
Supervisors
Examiners
2024-08-122024-08-092024-08-12Bibliographically approved