Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Data Classification System Based on Combination Optimized Decision Tree: A Study on Missing Data Handling, Rough Set Reduction, and FAVC Set Integration
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2023 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Dataklassificeringssystem baserat på kombinationsoptimerat beslutsträd : En studie om saknad datahantering, grov uppsättningsreduktion och FAVC-uppsättningsintegration (svensk)
Abstract [en]

Data classification is a novel data analysis technique that involves extracting valuable information with potential utility from databases. It has found extensive applications in various domains, including finance, insurance, government, education, transportation, and defense. There are several methods available for data classification, with decision tree algorithms being one of the most widely used. These algorithms are based on instance-based inductive learning and offer advantages such as rule extraction, low computational complexity, and the ability to highlight important decision attributes, leading to high classification accuracy. According to statistics, decision tree algorithms[1] are among the most widely utilized data mining algorithms. To address these challenges, a decision tree algorithm is employed to solve classification problems. However, the existing decision tree algorithm exhibits limitations such as low calculation efficiency and multi-valued[2] bias. Therefore, a data classification system based on an optimized decision tree algorithm written in Python and a data storage system based on PostgreSQL were developed. The proposed algorithm surpasses traditional classification algorithms in terms of dimensionality reduction, attribute selection, and scalability. Ultimately, a combined optimization decision tree classifier system is introduced, which exhibits superior performance compared to the widely used ID3[3] algorithm. The improved decision tree algorithm has both theoretical and practical significance for data mining applications.

Abstract [sv]

Dataklassificering är en ny dataanalysteknik som innebär att man extraherar värdefull information med potentiell nytta från databaser. Den har hittat omfattande tillämpningar inom olika domäner, inklusive finans, försäkring, regering, utbildning, transport och försvar. Det finns flera metoder tillgängliga för dataklassificering, där beslutsträdsalgoritmer är en av de mest använda. Dessa algoritmer är baserade på instansbaserad induktiv inlärning och erbjuder fördelar som regelextraktion, låg beräkningskomplexitet och förmågan att lyfta fram viktiga beslutsattribut, vilket leder till hög klassificeringsnoggrannhet. Enligt statistik är beslutsträdsalgoritmer bland de mest använda datautvinningsalgoritmerna. För att hantera dessa utmaningar används en beslutsträdsalgoritm för att lösa klassificeringsproblem. Den befintliga beslutsträds-algoritmen uppvisar dock begränsningar såsom låg beräkningseffektivitet och flervärdig bias. Därför utvecklades ett dataklassificeringssystem baserat på en optimerad beslutsträdsalgoritm skriven i Python och ett datalagringssystem baserat på PostgreSQL. Den föreslagna algoritmen överträffar traditionella klassificeringsalgoritmer när det gäller dimensionsreduktion, attributval och skalbarhet. I slutändan introduceras ett kombinerat optimeringsbeslutsträd-klassificeringssystem, som uppvisar överlägsen prestanda jämfört med den allmänt använda ID3-algoritmen. Den förbättrade beslutsträdsalgoritmen har både teoretisk och praktisk betydelse för datautvinningstillämpningar.

sted, utgiver, år, opplag, sider
2023. , s. 32
Serie
TRITA-EECS-EX ; 2023:779
Emneord [en]
Missing data handling, Rough set reduction, FAVC Set, ID3
Emneord [sv]
Saknade datahantering, Rough set reducering, FAVC Set, ID3
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-340647OAI: oai:DiVA.org:kth-340647DiVA, id: diva2:1818347
Veileder
Examiner
Tilgjengelig fra: 2024-01-17 Laget: 2023-12-11 Sist oppdatert: 2025-01-17bibliografisk kontrollert

Open Access i DiVA

fulltext(452 kB)79 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 452 kBChecksum SHA-512
7857e1716c4347f2f2cd100ba53389ec865f8d852b527a5aeda4a0e03db2e81b863bbc835f5f7a365f82478216fd883269f8dab3182ab601c81adf9648853744
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 79 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 292 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf