Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
An Interactive Articulation-to-Area-Function Phonetics Modelling Tool.
KTH, School of Computer Science and Communication (CSC).
2011 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

For speech synthesis, the concatenative approach is currently the most widely adopted, however, it is recognized that concatenated speech has several inherent disadvantages when compared to what might be achieved using articulatory synthesis. As articulatory speech synthesis receives more attention, many articulatory models are developed. While articulatory models may eventually be used for speech synthesis, they are already valuable as research and pedagogical tools. For example, they can be applied to explore formant – cavity relationships and other articulatory aspects of the human sound production system. The main objectives of this work were to rewrite and modernize APEX, one of several current articulatory models, and at the same time to explore the feasibility of using the SuperCollider development environment as an interactive platform for voice modelling. SuperCollider is a programming environment for composition and sound processing. It follows a client-server model, where the client has an interpreted programming language to control the server, which has natively implemented signal processing functions. Initially, only the client side was used, but later to achieve better performance, the time consuming numeric computations were implemented using native code in the server. The architecture of this second version is described in details in the Implementation section. It was found that real-time simulation in SuperCollider is possible, but only if the code is carefully optimized and structured. Basic speed benchmarks are presented in the results section. The resulting software inherits the portability of SuperCollider, so it should be easy to transfer it to other platforms. The architecture makes it easy to change part of the software, for example to implement a new synthesizer.

There are also recommendations for further work, including suggestions for an improved architecture and a discussion of how the project would benefit from a 3D model.

Abstract [sv]

För talsyntes är konkatenerande syntes för närvarande den mest använda metoden. Det är dock välkänt att konkatenerat tal har flera inneboende nackdelar jämfört med vad som skulle kunna uppnås med artikulatorisk syntes. Artikulatoriska modeller kan så småningom komma att användas för talsyntes, men redan nu har de ett värde för forskning och för pedagogiska verktyg. I det föreliggande projektet gjordes en ny implementation av en befintlig artikulatorisk modell kallad APEX, som används för att kartlägga relationer mellan ansatsrörets topologi och de resulterande formantfrekvenserna. Samtidigt utforskades möjligheten att använda utvecklingsmiljön SuperCollider som en interaktiv plattform för röstmodellering.

Super¬Collider är en programmeringsmiljö för komposition och ljudbearbetning, med en klient-server-struktur. Klienten inrymmer ett interpreterande Smalltalk-liknande språk SClang med vilket användaren kan styra servern, som utför signalbehandlingen i realtid. I ett första försök implementerades APEX helt i SClang, så när som på själva ljudgenereringen som görs med klassisk källa-filter-syntes. För att uppnå bättre prestanda flyttades sedan de mer tidskrävande beräkningarna till modulariserad kod i servern. Arkitekturen i denna senare version beskrivs i detalj. Det konstaterades att realtidssimulering i SuperCollider är möjlig, men bara om koden optimeras och struktureras noga. Liksom SuperCollider blir den resulterande programvaran portabel mellan plattformar. En modulär struktur underlättar framtida förändringar, som till exempel att ersätta källan och/eller filtret med andra lösningar. Rekommendationer ges för vidare arbete, inklusive förslag till en förbättrad arkitektur och en diskussion om hur projektet skulle dra nytta av en 3D-modell.

Place, publisher, year, edition, pages
2011.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2011:081
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130718OAI: oai:DiVA.org:kth-130718DiVA: diva2:654165
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2011/rapporter11/jani_matyas_11081.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 20 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf