Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Tal till text för relevant metadatataggning av ljudarkiv hos Sveriges Radio
KTH, School of Computer Science and Communication (CSC), Media Technology and Interaction Design, MID.
2015 (Swedish)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesisAlternative title
Speech to text for relevant metadata tagging of audio archive at Sveriges Radio (English)
Abstract [sv]

Tal till text för relevant metadatataggning av ljudarkiv hos Sveriges Radio

Sammanfattning

Under åren 2009-2013 har Sveriges Radio digitaliserat sitt programarkiv. Sveriges Radios ambition är att mer material från de 175 000 timmar radio som sänds varje år ska arkiveras. Det är en relativt tidsödande process att göra allt material sökbart och det är långt ifrån säkert att kvaliteten på dessa data är lika hög hos alla objekt.

        Frågeställningen som har behandlats för detta examensarbete är: Vilka tekniska lösningar finns för att utveckla ett system åt Sveriges Radio för automatisk igenkänning av svenskt tal till text utifrån deras ljudarkiv?

        System inom tal till text har analyserats och undersökts för att ge Sveriges Radio en aktuell sammanställning inom området.

        Intervjuer med andra liknande organisationer som arbetar inom området har utförts för att se hur långt de har kommit i sin utveckling av det berörda ämnet.

        En litteraturstudie har genomförts på de senare forskningsrapporterna inom taligenkänning för att jämföra vilket system som skulle passa Sveriges Radio behov och krav bäst att gå vidare med.

        Det Sveriges Radio bör koncentrera sig på först för att kunna bygga en ASR, Automatic Speech Recognition, är att transkribera sitt ljudmaterial. Där finns det tre alternativ, antingen transkribera själva genom att välja ut ett antal program med olika inriktning för att få en så stor bredd som möjligt på innehållet, gärna med olika talare för att sedan även kunna utveckla vidare för igenkänning av talare. Enklaste sättet är att låta olika yrkeskategorier som lägger in inslagen/programmen i systemet göra det. Andra alternativet är att starta ett liknade projekt som BBC har gjort och ta hjälp av allmänheten. Tredje alternativet är att köpa tjänsten för transkribering.

        Mitt råd är att fortsätta utvärdera systemet Kaldi, eftersom det har utvecklats mycket på senaste tiden och verkar vara relativt lätt att utvidga. Även den öppna källkod som Lingsoft använder sig av är intressant att studera vidare.

Abstract [en]

Speech to text for relevant metadata tagging of audio archive at Sveriges Radio

Abstract

In the years 2009-2013, Sveriges Radio digitized its program archive. Sveriges Radio's ambition is that more material from the 175 000 hours of radio they broadcast every year should be archived. This is a relatively time-consuming process to make all materials to be searchable and it's far from certain that the quality of the data is equally high on all items.

        The issue that has been treated for this thesis is: What opportunities exist to develop a system to Sveriges Radio for Swedish speech to text?

        Systems for speech to text has been analyzed and examined to give Sveriges Radio a current overview in this subject.

        Interviews with other similar organizations working in the field have been performed to see how far they have come in their development of the concerned subject.

        A literature study has been conducted on the recent research reports in speech recognition to compare which system would match Sveriges Radio's needs and requirements best to get on with.

        What Sveriges Radio should concentrate at first, in order to build an ASR, Automatic Speech Recognition, is to transcribe their audio material. Where there are three alternatives, either transcribe themselves by selecting a number of programs with different orientations to get such a large width as possible on the content, preferably with different speakers and then also be able to develop further recognition of the speaker. The easiest way is to let different professions who make the features/programs in the system do it. Other option is to start a similar project that the BBC has done and take help of the public. The third option is to buy the service for transcription.

        My advice is to continue evaluate the Kaldi system, because it has evolved significantly in recent years and seems to be relatively easy to extend. Also the open-source that Lingsoft uses is interesting to study further.

Place, publisher, year, edition, pages
2015. , 50 p.
Keyword [en]
Speech to text, ASR, Automatic Speech Recognition, transcription, metadata taggning, Swedish Radio
Keyword [sv]
Tal till text, ASR, Automatisk taligenkänning, transkribering, metadatataggning, Sveriges Radio
National Category
Computer Engineering Media and Communication Technology
Identifiers
URN: urn:nbn:se:kth:diva-169464OAI: oai:DiVA.org:kth-169464DiVA: diva2:823058
External cooperation
Sveriges Radio
Subject / course
Media Technology
Educational program
Master of Science in Engineering - Computer Science and Technology
Presentation
2015-06-04, Seminarierum 1537, Lindstedtsvägen 3 (5 tr), 114 28 Stockholm, 15:15 (Swedish)
Supervisors
Examiners
Available from: 2015-07-10 Created: 2015-06-15 Last updated: 2015-07-10Bibliographically approved

Open Access in DiVA

Annika Jansson Examensarbete(1432 kB)166 downloads
File information
File name FULLTEXT01.pdfFile size 1432 kBChecksum SHA-512
7e9d40e6f56a8f4ced533d71a8a1a7f91a12a7732e00d3102325b0b627e782e467e7ef32754aa85078f327df659e00932a1d7a9046ee2693d0c789985ce1ed99
Type fulltextMimetype application/pdf

By organisation
Media Technology and Interaction Design, MID
Computer EngineeringMedia and Communication Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 166 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 866 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf