We perform experiments that shows whether or not two linguistic features are good indicators to be used when automatically detecting plagiarism in digital texts.
Two experiments are performed. In the first experiment a linguistic feature based on a semantic word-space model is evaluated, and in the second experiment a linguistic feature based on stylometry is evaluated. Both experiments are evaluated by using a nearest neighbor metric since the features are multidimensional vectors.
We find that the fist feature is a good indicator for detecting plagiarism that is an exact copy of its source. We find that the second feature performs equally good independent of text obfuscation.
Vi utför experiment som visar huruvida två lingvistiska särdrag är bra indikatorer att använda för att automatiskt upptäcka plagiat i digitala texter.
Två experiment utförs. I det första experimentet utvärderas ett lingvistiskt särdrag som baseras på en semantisk ord-rums modell och i det andra experimentet utvärderas ett lingvistiskt särdrag som baseras på stilometeri (eng. stylometry). Båda experimenten utvärderas med hjälp av ett närmaste granne (eng. nearest neighbor) mätvärde eftersom särdragen är flerdimensionella vektorer.
Vi finner att det första särdraget är en bra indikator för att upptäcka plagiat som är en exakt kopia av källan. Vi finner att det andra särdraget fungerar lika bra oberoende av text-förvirring (eng. obfuscation).