En jämförelse av metoder och verktyg för datahantering och analys inom datalager
2024 (Swedish)Independent thesis Basic level (university diploma), 10 credits / 15 HE credits
Student thesisAlternative title
A comparison of methods and tools for data management and analysis within data warehouses (English)
Abstract [sv]
I detta examensarbete utförs en jämförande analys av metoder och verktyg för hantering och analys av data inom datalager. Med den snabbt ökande mängden data och utvecklingen av molnteknologier står företag inför utmaningen att navigera bland olika metoder för att välja den mest lämpliga för sin specifika datahantering och analysbehov. Rapporten belyser metoden One Big Table (OBT) samt verktyget Data Build Tool (dbt) och undersöker deras för- och nackdelar i datalagermiljöer. För att få en djupare förståelse för deras funktion och effektivitet jämförs de i olika användarfall genom prestandatester på latens och samtidighet med hjälp av verktyget Hyperfine. OBT implementeras med hjälp av Google BigQuery såväl som Google Cloud SQL för PostgreSQL där latens och samtidighet för analytiska målsättningar utvärderas genom användning av Python-skript med SQL-frågor respektive med dbt-modeller. Skripten och dbt-modellerna körs mot BigQuery samt PostgreSQL och de båda implementerar OBT. Resultatet visar att SQL-skripten uppvisade lägre latens än dbt-modeller när de exekverades mot både BigQuery och PostgreSQL. Ett annat fynd är att latensen för SQL-skripten var lägre i PostgreSQL jämfört med BigQuery, medan dbt-modellerna istället uppvisade högre latens i PostgreSQL jämfört med BigQuery. I båda datalagermiljöer visas det även att SQL-skripten presterar bättre än dbt-modeller vid samtidiga körningar.
Abstract [en]
This bachelor’s thesis presents a comparative analysis of methods and tools for data management and analysis within data warehouses. With the rapidly increasing volume of data and the development of cloud technologies, companies face the challenge of navigating various methods to choose the most suitable one for their specific data management and analysis needs. The report highlights the One Big Table (OBT) method and the Data Build Tool (dbt), examining their advantages and disadvantages in data warehouse environments. To gain a deeper understanding of their functionality and efficiency, they are compared in different use cases through performance tests on latency and concurrency using the Hyperfine tool. OBT is implemented using Google BigQuery as well as Google Cloud SQL for PostgreSQL, where latency and concurrency for analytical purposes are evaluated using Python scripts with SQL queries and dbt models. The scripts and dbt models are run against BigQuery and PostgreSQL, both implementing OBT. The results show that the SQL scripts exhibited lower latency than the dbt models when executed against both BigQuery and PostgreSQL. Another finding is that the latency for SQL scripts was lower when run against PostgreSQL compared to BigQuery, while dbt models showed higher latency when run against PostgreSQL compared to BigQuery. The SQL scripts also performed better than the dbt models in concurrent executions in both BigQuery and PostgreSQL.
Place, publisher, year, edition, pages
2024. , p. 86
Series
TRITA-CBH-GRU ; 2024:052
Keywords [en]
Data Analysis, Data Build Tool (dbt), Data Management, Data Warehouse, Google BigQuery, One Big Table (OBT), Performance, PostgreSQL, SQL
Keywords [sv]
Dataanalys, Data Build Tool (dbt), datahantering, datalager, Google BigQuery, One Big Table (OBT), prestanda, PostgreSQL, SQL
National Category
Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-347215OAI: oai:DiVA.org:kth-347215DiVA, id: diva2:1865110
External cooperation
XLENT
Subject / course
Computer Technology, Networks and Security
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
2024-06-042024-06-042024-06-04Bibliographically approved