A Comparative Study on Efficiency and Scalability of Integer and String Datasets in cuDF and pandas
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
En jämförelse av effektivitet och skalbarhet mellan cuDF och pandas på heltal- och strängdata (Swedish)
Abstract [en]
This thesis presents a comparative analysis of cuDF and pandas, two Python data processing libraries, with a focus on performance, limitations, and scalability when handling integer and string datasets. The study aims to assess the efficiency and suitability of cuDF as a potential alternative to pandas in scenarios where high-performance data processing is required. By generating string and integer datasets of different scale and creating a test suite consisting of basic operations available in both pandas and cuDF a comparative analysis was made. The results showed that cuDF performed better for almost all operations on both integers and strings, but especially on strings. There were operations where cuDF appeared to become faster at a certain scale but these operations were very quick in general. However, cuDF was found to have limitations when it came to user defined functions and could not handle abstract Python objects like pandas could. The study concluded that cuDF could offer significant increase in performance if the user is handling a dataset that consists of basic data types and fairly basic user defined functions.
Abstract [sv]
Denna avhandling presenterar en jämförande analys av cuDF och pandas, två bibliotek i Python för dataprocessering, med fokus på prestanda, begränsningar och skalbarhet vid hantering av heltals- och strängdata. Studien syftar till att utvärdera effektiviteten och lämpligheten hos cuDF som ett potentiellt alternativ till pandas i scenarion där högpresterande dataprocessering krävs. Genom att generera heltals- och strängdata av olika omfattning och skapa en testsvit bestående av grundläggande operationer som finns tillgängliga i både pandas och cuDF genomfördes en jämförande analys. Resultaten visade att cuDF presterade bättre för nästan alla operationer både på heltal och strängar, men särskilt på strängar. Det fanns operationer där cuDF tycktes bli snabbare vid en viss skala på datamängden, men dessa operationer var generellt sett mycket snabba. Dock upptäcktes det att cuDF hade begränsningar när det gällde användardefinierade funktioner och att cuDF inte kunde hantera abstrakta Python-objekt som pandas kunde. Studien drog slutsatsen att cuDF kan erbjuda betydande ökning av prestanda om användaren ska behandla och arbeta med en datamängd som består av grundläggande datatyper och relativt enkla användardefinierade funktioner.
Place, publisher, year, edition, pages
2023. , p. 33
Series
TRITA-EECS-EX ; 2023:294
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-330842OAI: oai:DiVA.org:kth-330842DiVA, id: diva2:1779196
Supervisors
Examiners
2023-08-012023-07-032023-08-01Bibliographically approved