Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
DeGPar: Large Scale Topic Detection usingNode-Cut Partitioning on Dense Weighted Graphs
KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS. Swedish Institute of Technology (SICS).ORCID-id: 0000-0003-1007-8533
KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS.ORCID-id: 0000-0003-4516-7317
2017 (Engelska)Ingår i: 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS), IEEE conference proceedings, 2017, s. 775-785, artikel-id 7980020Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Topic Detection (TD) refers to automatic techniques for locating topically related material in web documents. Nowadays, massive amounts of documents are generated by users of Online Social Networks (OSNs), in form of very short text, tweets and snippets of news. While topic detection, in its traditional form, is applied to a few documents containing a lot of information, the problem has now changed to dealing with massive number of documents with very little information. The traditional solutions, thus, fall short either in scalability (due to huge number of input items) or sparsity (due to insufficient information per input item). In this paper we address the scalability problem by introducing an efficient and scalable graph based algorithm for TD on short texts, leveraging dimensionality reduction and clustering techniques. We first, compress the input set of documents into a dense graph, such that frequent co-occurrence patterns in the documents create multiple dense topological areas in the graph. Then, we partition the graph into multiple dense sub-graphs, each representing a topic. We compare the accuracy and scalability of our solution with two state-of-the-art solutions (including the standard LDA, and BiTerm). The results on two widely used benchmark datasets show that our algorithm not only maintains a similar or better accuracy, but also performs by an order of magnitude faster than the state-of-the-art approaches.

Ort, förlag, år, upplaga, sidor
IEEE conference proceedings, 2017. s. 775-785, artikel-id 7980020
Serie
Proceedings - International Conference on Distributed Computing Systems, ISSN 1063-6927
Nyckelord [en]
TopicDetection, Node-cut Graph Partitioning, Distributed Algorithms, Random Indexing, Dimensionality Reduction, Dense Weighted Graph Partitioning, Online Social Networks
Nationell ämneskategori
Datorsystem
Forskningsämne
Datalogi; Informations- och kommunikationsteknik; Tillämpad matematik och beräkningsmatematik
Identifikatorer
URN: urn:nbn:se:kth:diva-204406DOI: 10.1109/ICDCS.2017.19ISI: 000412759500071Scopus ID: 2-s2.0-85027258993ISBN: 9781538617915 (tryckt)OAI: oai:DiVA.org:kth-204406DiVA, id: diva2:1086963
Konferens
37th IEEE International Conference on Distributed Computing Systems, ICDCS 2017, J.W. Marriott Hotel, Atlanta, United States, 5 June 2017 through 8 June 2017
Anmärkning

QC 20170407

Tillgänglig från: 2017-04-05 Skapad: 2017-04-05 Senast uppdaterad: 2019-11-19Bibliografiskt granskad
Ingår i avhandling
1.
Posten kunde inte hittas. Det kan bero på att posten inte längre är tillgänglig eller att du har råkat ange ett felaktigt id i adressfältet.

Open Access i DiVA

fulltext(2117 kB)113 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 2117 kBChecksumma SHA-512
0ca48d9d4e7463c2cb28454971781e176775f7cea834eee82d1bd3df137e45e1baa7b9decf2fa63d265ac5490e52c7b0662586c98a94f79fafcc76e076dbc8b2
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopus

Personposter BETA

Ghoorchian, KambizGirdzijauskas, Sarunas

Sök vidare i DiVA

Av författaren/redaktören
Ghoorchian, KambizGirdzijauskas, Sarunas
Av organisationen
Programvaruteknik och Datorsystem, SCS
Datorsystem

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 113 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 221 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf