kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A Comparative Study on Efficiency and Scalability of Integer and String Datasets in cuDF and pandas
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2023 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
En jämförelse av effektivitet och skalbarhet mellan cuDF och pandas på heltal- och strängdata (Svenska)
Abstract [en]

This thesis presents a comparative analysis of cuDF and pandas, two Python data processing libraries, with a focus on performance, limitations, and scalability when handling integer and string datasets. The study aims to assess the efficiency and suitability of cuDF as a potential alternative to pandas in scenarios where high-performance data processing is required. By generating string and integer datasets of different scale and creating a test suite consisting of basic operations available in both pandas and cuDF a comparative analysis was made. The results showed that cuDF performed better for almost all operations on both integers and strings, but especially on strings. There were operations where cuDF appeared to become faster at a certain scale but these operations were very quick in general. However, cuDF was found to have limitations when it came to user defined functions and could not handle abstract Python objects like pandas could. The study concluded that cuDF could offer significant increase in performance if the user is handling a dataset that consists of basic data types and fairly basic user defined functions.

Abstract [sv]

Denna avhandling presenterar en jämförande analys av cuDF och pandas, två bibliotek i Python för dataprocessering, med fokus på prestanda, begränsningar och skalbarhet vid hantering av heltals- och strängdata. Studien syftar till att utvärdera effektiviteten och lämpligheten hos cuDF som ett potentiellt alternativ till pandas i scenarion där högpresterande dataprocessering krävs. Genom att generera heltals- och strängdata av olika omfattning och skapa en testsvit bestående av grundläggande operationer som finns tillgängliga i både pandas och cuDF genomfördes en jämförande analys. Resultaten visade att cuDF presterade bättre för nästan alla operationer både på heltal och strängar, men särskilt på strängar. Det fanns operationer där cuDF tycktes bli snabbare vid en viss skala på datamängden, men dessa operationer var generellt sett mycket snabba. Dock upptäcktes det att cuDF hade begränsningar när det gällde användardefinierade funktioner och att cuDF inte kunde hantera abstrakta Python-objekt som pandas kunde. Studien drog slutsatsen att cuDF kan erbjuda betydande ökning av prestanda om användaren ska behandla och arbeta med en datamängd som består av grundläggande datatyper och relativt enkla användardefinierade funktioner.

Ort, förlag, år, upplaga, sidor
2023. , s. 33
Serie
TRITA-EECS-EX ; 2023:294
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-330842OAI: oai:DiVA.org:kth-330842DiVA, id: diva2:1779196
Handledare
Examinatorer
Tillgänglig från: 2023-08-01 Skapad: 2023-07-03 Senast uppdaterad: 2023-08-01Bibliografiskt granskad

Open Access i DiVA

fulltext(755 kB)230 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 755 kBChecksumma SHA-512
746cd59ae4a530d78b7d6f1b42ed1f454dd855dafa09dd5001ebaae76b492a6b747e53384dde3b698b0d9a7a4d6186f48f87523c843f04e87ebafe0462682f1f
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 231 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 240 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf