kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
COVID-19 Literature Compiler: A literature-mining and Data Visualization Tool
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Covid-19 Litteraturkompilator : Ett verktyg för litteraturbrytning och datavisualisering (Swedish)
Abstract [en]

The number of COVID-19 related articles increased explosively with the start of the pandemic. To save time and effort, researchers use literature-mining tools to find articles efficiently. As COVID-19 related research continues developing, it is important for researchers to know the trend of recent studies. Although there are many advanced literature-mining tools with different designs and using different technologies, most literature-mining tools focus on finding articles by text searching and Natural Language Processing (NLP). Researchers must have specific words in mind and then search for articles by using these words.

In this thesis project, a literature-mining tool is built as a web app. This tool uses the relationships among articles, including shared references and Medical Subject Headings (MeSH), to find new related articles and to help researchers further study the literature at hand. This represents a shift from keyword searching to searching based upon relationships among articles and MeSH terms.

The main technical problem of the web app is search speed. Different methods, including the use of a graph database and a Single Page App (SPA), were used to improve the app's speed and performance. Another problem is the commonly used MeSH terms for COVID-19 related articles, such as``COVID-19'', ``Humans'', and ``Child'' caused serious noise when finding similar articles that share the same MeSH terms. Different methods such as Over-Representation Analysis (ORA) and Fisher's exact test are used. Different kinds of filters are provided for users to eliminate unwanted result.

After the web app was developed, it was tested and the results show that the planned functions could be realized and the search speed is acceptable, i.e. under 3 seconds. However, the issue of MeSH terms leading to broad results remains to be solved.

Abstract [sv]

Antalet covid-19-relaterade artiklar ökade explosivt i och med att pandemin började. För att spara tid och ansträngning använder forskare litteraturutvinningsverktyg för att hitta artiklar på ett effektivt sätt. Eftersom covid-19-relaterad forskning fortsätter att utvecklas är det viktigt för forskare att känna till trenden i nyare studier.Även om det finns många avancerade litteraturutvinningsverktyg med olika design och med olika teknologier, fokuserar de flesta litteraturutvinningsverktyg på att hitta artiklar genom textsökning och naturlig språkbearbetning (NLP). Forskare måste ha specifika ord i åtanke och sedan söka efter artiklar med hjälp av dessa ord.

I detta examensarbete byggs ett litteraturutvinningsverktyg som en webbapp. Det här verktyget använder relationerna mellan artiklar, inklusive delade referenser och medicinska ämnesrubriker (MeSH), för att hitta nya relaterade artiklar och för att hjälpa forskare att ytterligare studera den aktuella litteraturen. Detta representerar ett skifte från nyckelordssökning till sökning baserat på relationer mellan artiklar och MeSH-termer.

Det största tekniska problemet med webbappen är sökhastigheten. Annorlunda metoder, inklusive användningen av en grafdatabas och en Ensidig Applikation (SPA), har använts för att förbättra appens hastighet och prestanda. Ett annat problem är de vanligaste MeSH-termerna för COVID-19-relaterade artiklar, som ``COVID-19'', ``Människor'' och ``Barn'' orsakade allvarligt brus när man hittade liknande artiklar som delar samma MeSH-termer. Olika metoder som överrepresentationsanalys (ORA) och Fishers exakta test används.Olika typer av filter tillhandahålls för användare för att eliminera oönskade resultat.

Efter att webbappen utvecklats har den testats och resultatet visar att de planerade funktionerna kunde uppfyllas och sökhastigheten är acceptabel.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2022. , p. xvi,93
Series
TRITA-EECS-EX ; 2022:862
Keywords [en]
literature-mining, Single Page Application, Graph Database
Keywords [sv]
Litteraturbrytning, Ensidig Applikation, Grafdatabas
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-324240OAI: oai:DiVA.org:kth-324240DiVA, id: diva2:1739088
External cooperation
Karolinska Institute
Subject / course
Information and Communication Technology
Educational program
Master of Science -Communication Systems
Presentation
2022-12-08, via Zoom https://kth-se.zoom.us/j/66256100895, Isafjordsgatan 22 (Kistagången 16), Stockholm, 13:00 (English)
Supervisors
Examiners
Available from: 2023-02-27 Created: 2023-02-23 Last updated: 2023-02-27Bibliographically approved

Open Access in DiVA

fulltext(8851 kB)393 downloads
File information
File name FULLTEXT01.pdfFile size 8851 kBChecksum SHA-512
91508ad2bf9fa00135e0e519c2b8a1f1961021f0585ca2f16838f54f8f4e3de8fbb5a5e549eea3c55fd11b748cc745df3765ee5ba5070057644b8c67d65664a2
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Luo, Yulian
By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 393 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 695 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf