Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Entitetsklassificering med hjälp av aktiv maskininlärning.
KTH, School of Computer Science and Communication (CSC).
2011 (Swedish)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

In this thesis the possibilities of using active machine learning for the task of classification of entities in regular text is examined. The traditional machine learning approach depends on the availability of a larger set of annotated training data. This poses a problem though, since training data is often not available at all, or it was annotated with another context in mind. A new data set must then be annotated and this process is often costly with respect to both time and money. This is where active machine learning can be a viable option. During active machine learning an iterative training process is used, and with only a small set of annotated data. This small set is then, with each iteration, increased with further examples annotated by a human training assistant. We investigate if an actively learned system can perform on the same level as a traditional system. Both a traditional system and a system trained with active machine learning are implemented and compared. The results show that an actively trained system can perform on the same level as a traditional system. The active machine learning process poses another question in how many examples should be annotated and added in each iteration, and what the implications are if the amount is changed. To answer the question three different active learning processes with different parameters are run. The thesis ends with an examination of how sensitive a system trained by means of active machine learning is to changes in the types of text on which it is used. In the traditional approach a performance drop can be seen when the classifier is used on other types of text than the text used in the training data. The actively trained classifier with the best performance is used on some different types of text, and the result shows that this problem still exists when using active machine learning.

Abstract [sv]

Vi undersöker möjligheterna att använda aktiv maskininlärning vid klassificering av entiteter i text. Traditionell maskininlärning bygger på att man har en större mängd annoterad träningsdata tillgänglig. Detta är dock ett problem då träningsdata oftast inte finns att tillgå, eller är ämnad för en annan typ av kontext. Man måste då manuellt annotera upp en korpus och denna process kan vara tidskrävande och kostsam. Det är här aktiv inlärning kan användas som ett alternativ. Vid aktiv inlärning använder man sig av en iterativ träningsprocess där systemet börjar med en mindre mängd annoterad träningsdata, vilken sedan byggs på i varje iteration med, av en mänsklig träningsassistent, rättade exempel. Vi undersöker om det aktivt inlärda systemet kan prestera likvärdiga resultat som det traditionella systemet undersöks. Ett grundläggande traditionellt system implementeras och tränas upp vars resultat jämförs med ett annat system som tränas upp med aktiv inlärning. Det visar sig att aktivt inlärda klassificerare i stort sett kan uppnå samma resultat som en traditionellt upptränad klassificerare. Frågan om hur många informativa exempel man vill rätta i varje iteration, och hur resultaten påverkas under träningsprocessen om detta varieras uppstår. För att besvara frågan utförs tre olika aktivt inlärda träningsprocesser med olika parametrar. Rapporten avslutar med att undersöka hur kontextkänsligt ett aktivt inlärt system är. Vid traditionell inlärning uppkommer problemet med att systemet blir känsligt för ny typ av text som skiljer sig från den typ av text som används för träningsdata. Den bäst presterande klassificeraren får klassificera några olika texttyper, och det visar sig att ett aktivt inlärt system också presterar sämre på andra texttyper än de som används under träningen.

Place, publisher, year, edition, pages
2011.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2011:118
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130787OAI: oai:DiVA.org:kth-130787DiVA: diva2:654234
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2011/rapporter11/wessman_johan_11118.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 35 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf