COVID-19 Literature Compiler: A literature-mining and Data Visualization Tool
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Covid-19 Litteraturkompilator : Ett verktyg för litteraturbrytning och datavisualisering (Swedish)
Abstract [en]
The number of COVID-19 related articles increased explosively with the start of the pandemic. To save time and effort, researchers use literature-mining tools to find articles efficiently. As COVID-19 related research continues developing, it is important for researchers to know the trend of recent studies. Although there are many advanced literature-mining tools with different designs and using different technologies, most literature-mining tools focus on finding articles by text searching and Natural Language Processing (NLP). Researchers must have specific words in mind and then search for articles by using these words.
In this thesis project, a literature-mining tool is built as a web app. This tool uses the relationships among articles, including shared references and Medical Subject Headings (MeSH), to find new related articles and to help researchers further study the literature at hand. This represents a shift from keyword searching to searching based upon relationships among articles and MeSH terms.
The main technical problem of the web app is search speed. Different methods, including the use of a graph database and a Single Page App (SPA), were used to improve the app's speed and performance. Another problem is the commonly used MeSH terms for COVID-19 related articles, such as``COVID-19'', ``Humans'', and ``Child'' caused serious noise when finding similar articles that share the same MeSH terms. Different methods such as Over-Representation Analysis (ORA) and Fisher's exact test are used. Different kinds of filters are provided for users to eliminate unwanted result.
After the web app was developed, it was tested and the results show that the planned functions could be realized and the search speed is acceptable, i.e. under 3 seconds. However, the issue of MeSH terms leading to broad results remains to be solved.
Abstract [sv]
Antalet covid-19-relaterade artiklar ökade explosivt i och med att pandemin började. För att spara tid och ansträngning använder forskare litteraturutvinningsverktyg för att hitta artiklar på ett effektivt sätt. Eftersom covid-19-relaterad forskning fortsätter att utvecklas är det viktigt för forskare att känna till trenden i nyare studier.Även om det finns många avancerade litteraturutvinningsverktyg med olika design och med olika teknologier, fokuserar de flesta litteraturutvinningsverktyg på att hitta artiklar genom textsökning och naturlig språkbearbetning (NLP). Forskare måste ha specifika ord i åtanke och sedan söka efter artiklar med hjälp av dessa ord.
I detta examensarbete byggs ett litteraturutvinningsverktyg som en webbapp. Det här verktyget använder relationerna mellan artiklar, inklusive delade referenser och medicinska ämnesrubriker (MeSH), för att hitta nya relaterade artiklar och för att hjälpa forskare att ytterligare studera den aktuella litteraturen. Detta representerar ett skifte från nyckelordssökning till sökning baserat på relationer mellan artiklar och MeSH-termer.
Det största tekniska problemet med webbappen är sökhastigheten. Annorlunda metoder, inklusive användningen av en grafdatabas och en Ensidig Applikation (SPA), har använts för att förbättra appens hastighet och prestanda. Ett annat problem är de vanligaste MeSH-termerna för COVID-19-relaterade artiklar, som ``COVID-19'', ``Människor'' och ``Barn'' orsakade allvarligt brus när man hittade liknande artiklar som delar samma MeSH-termer. Olika metoder som överrepresentationsanalys (ORA) och Fishers exakta test används.Olika typer av filter tillhandahålls för användare för att eliminera oönskade resultat.
Efter att webbappen utvecklats har den testats och resultatet visar att de planerade funktionerna kunde uppfyllas och sökhastigheten är acceptabel.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2022. , p. xvi,93
Series
TRITA-EECS-EX ; 2022:862
Keywords [en]
literature-mining, Single Page Application, Graph Database
Keywords [sv]
Litteraturbrytning, Ensidig Applikation, Grafdatabas
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-324240OAI: oai:DiVA.org:kth-324240DiVA, id: diva2:1739088
External cooperation
Karolinska Institute
Subject / course
Information and Communication Technology
Educational program
Master of Science -Communication Systems
Presentation
2022-12-08, via Zoom https://kth-se.zoom.us/j/66256100895, Isafjordsgatan 22 (Kistagången 16), Stockholm, 13:00 (English)
Supervisors
Examiners
2023-02-272023-02-232023-02-27Bibliographically approved