Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Genomgång och utvärdering av algoritmer för fonetisk sökning efter svenska efternamn.
KTH, School of Computer Science and Communication (CSC).
2011 (Swedish)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The aim of this work is to conduct a review of the methods available for phonetic search for Swedish family names. The goal is to find an algorithm that has good precision and recall but that isn?t to slow and ideally it should scale well with the amount of names in the database. The focus will be on algorithms that generate keys for indexing but a few other algorithms will be considered as well. The algorithms in this work can roughly be placed in three main groups; algorithms for string comparison, algorithms that make use of phonetic encoding on a character basis and algorithms that use more complex linguistic rules. The performance of the algorithms is to be measured with regard to their ability to find phonetically similar strings and therefore I involved a rather large group of people in the development of the test data to obtain as objective a picture as possible of what can be considered a similar pronunciation. This led to a definition of ?pronunciation similarity? that was somewhat broader then the definitions used in similar works. The results are very diverse and must be interpreted for different use cases to be really meaningful although some general conclusions can be drawn. Algorithms for string comparison are not very well suited for larger data sets but all other algorithms could be useful in different scenarios since they are relatively quick and can be designed so that they either get a high precision or a high recall, as required.

Abstract [sv]

Detta arbete syftar till att göra en genomgång av de metoder som finns för för fonetisk sökning efter svenska namn. Målet är att hitta en algoritm som har både bra täckning och precision samtidigt som den inte är för långsam och skalar bra med mängden namn i databasen. Fokus ligger på algoritmer som skapar nycklar för indexering men även ett par andra metoder kommer beröras. Algoritmerna som undersöks kan grovt delas in i tre huvudgrupper. Algoritmer för strängjämförelse, algoritmer som använder sig av fonetisk kodning av enskilda tecken i namnet och algoritmer som bygger på mer komplexa regler. Då jämförelsen av algoritmernas prestanda ska göras utifrån deras förmåga att hitta fonetiskt lika strängar har ett större antal personer involverats i framtagandet av testdata för att få en så objektiv bild som möjligt av vad som kan anses vara snarlikt uttal. Detta har lett till en något vidare definition av uttalslikhet än vad som använts i många andra arbeten. Resultatet från undersökningen är väldigt skiftande och måste tolkas utifrån enskilda användningsfall. Allmänt kan dock sägas att algoritmer för strängjämförelse lämpar sig dåligt för användning på större datamängder medan i stort sett alla tecken- och grafemkodande algoritmer alla är relativt snabba och går att konstruera så att de antingen får en hög precision eller en hög täckning allt efter behov.

Place, publisher, year, edition, pages
2011.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2011:076
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130770OAI: oai:DiVA.org:kth-130770DiVA: diva2:654217
Educational program
Master of Science in Engineering -Engineering Physics
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2011/rapporter11/spaedtke_johan_11076.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 63 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf