kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Experiments to Investigate the Utility of Linguistically Informed Features for Detecting Textual Plagiarism.
KTH, Skolan för datavetenskap och kommunikation (CSC).
2011 (Engelska)Självständigt arbete på avancerad nivå (yrkesexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

We perform experiments that shows whether or not two linguistic features are good indicators to be used when automatically detecting plagiarism in digital texts.

Two experiments are performed. In the first experiment a linguistic feature based on a semantic word-space model is evaluated, and in the second experiment a linguistic feature based on stylometry is evaluated. Both experiments are evaluated by using a nearest neighbor metric since the features are multidimensional vectors.

We find that the fist feature is a good indicator for detecting plagiarism that is an exact copy of its source. We find that the second feature performs equally good independent of text obfuscation.

Abstract [sv]

Vi utför experiment som visar huruvida två lingvistiska särdrag är bra indikatorer att använda för att automatiskt upptäcka plagiat i digitala texter.

Två experiment utförs. I det första experimentet utvärderas ett lingvistiskt särdrag som baseras på en semantisk ord-rums modell och i det andra experimentet utvärderas ett lingvistiskt särdrag som baseras på stilometeri (eng. stylometry). Båda experimenten utvärderas med hjälp av ett närmaste granne (eng. nearest neighbor) mätvärde eftersom särdragen är flerdimensionella vektorer.

Vi finner att det första särdraget är en bra indikator för att upptäcka plagiat som är en exakt kopia av källan. Vi finner att det andra särdraget fungerar lika bra oberoende av text-förvirring (eng. obfuscation).

Ort, förlag, år, upplaga, sidor
2011.
Serie
Trita-CSC-E, ISSN 1653-5715 ; 2011:109
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-130657OAI: oai:DiVA.org:kth-130657DiVA, id: diva2:654104
Utbildningsprogram
Civilingenjörsexamen - Datateknik
Uppsök
teknik
Handledare
Examinatorer
Tillgänglig från: 2013-10-07 Skapad: 2013-10-07 Senast uppdaterad: 2022-06-23

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2011/rapporter11/almquist_per_11109.pdf
Av organisationen
Skolan för datavetenskap och kommunikation (CSC)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 503 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf