Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk extraktion av idiom ur text.
KTH, School of Computer Science and Communication (CSC).
2012 (Swedish)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Idioms are defined as a group of words whose meaning cannot be predicted from the meanings of the constituent words. For example, smell a rat and separate the wheat from the chaff.

Idioms can be difficult to learn and master, translate and analyze because they function as one unit. Extraction of idioms is considered an important part in the areas of computer assisted language learning, machine translation and general text analysis.

A degree of overlap exists between collocations and idioms. Collocations are described as a sequence of words that co-occur more often than would be expected by chance. Statistical methods are used in the extraction of collocations. The one tested are t-test, chi-square, likelihood ratio and pointwise mutual information. The methods use a text collection (corpus) to rank word pairs (bigrams).

The Swedish corpus used for studies and analysis is Parole. Parole includes newspapers, novels and magazines, which should give a good representation of the Swedish language. The statistical methods are analyzed and it turns out that pointwise mutual information is best suited for extraction of idioms.

Only the uses of statistical methods do not give good results. Idioms can be filtered using parts of speech. The majority of idioms match patterns (NN‑PP‑NN) and (VB‑NN‑PP), where NN is a noun, PP a preposition and VB a verb. Distribution of the corpus can also be used to filter out incorrect candidates. Idioms occur rarely and usually not concentrated in the same position.

Evaluation of the result is done manually. A total of 66 idioms were found among the 100 highest ranked candidates.

The conclusion is that it is possible to automatically find idioms, but it requires human filtering. The strategy for best result uses a mixture of part of speech, distribution and statistical methods.

Abstract [sv]

Idiom definieras som ett fast uttryck, med en betydelse som inte går att läsa ut ifrån idiomets delar. Exempel på idiom, ana ugglor i mossen och skilja agnarna från vetet.

Idiom kan vara svåra att lära och bemästra, översätta och analysera då de fungerar som en enhet. Utvinning av idiom anses vara en viktig del inom områdena datorstödd språkinlärning, maskinöversättning och allmän textanalys.

En viss överlapp finns mellan kollokationer och idiom. Kollokationer beskriv som en sekvens av ord som förekommer oftare än de borde av ren slump. Statistiska metoder används vid extraktion av kollokationer. De som testats är t-test, chi-square, likelihood ratio och pointwise mutual information. Metoderna använder en textsamling (korpus) för att rangordna ordpar (bigram).

Den svenska korpus som används för undersökningar och analys är Parole. Parole innehåller dagstidningar, romaner och tidskrifter, vilket ska ge en bra representation av det svenska språket. De statistiska metoderna analyseras och det visar sig att pointwise mutual information lämpar sig bäst för extraktion av idiom.

Endast användning av statistiska metoder ger inget bra resultat. Idiom kan filtreras med hjälp av ordklasser. De flesta idiom matchar mönstren (NN‑PP‑NN) och (VB‑PP‑NN), där NN är ett substantiv, PP en preposition och VB ett verb. Spridning i korpusen kan också användas för att filtrera bort felaktiga kandidater. Idiom förekommer sällan och oftast inte koncentrerat på samma position.

Utvärdering av resultat sker manuellt. Totalt hittades det 66 stycken idiom bland de 100 högst rankande kandidaterna.

Slutsatsen är att det går att automatiskt hitta idiom, men det kräver mänsklig filtrering. Strategin för bästa resultat, använder en blandning av ordklass, spridning och statistisk metod.

Place, publisher, year, edition, pages
2012.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2012:050
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130976OAI: oai:DiVA.org:kth-130976DiVA: diva2:654422
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2012/rapporter12/pettersson_andreas_12050.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 60 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf