Ändra sökning
Avgränsa sökresultatet
2345678 201 - 250 av 11813
RefereraExporteraLänk till träfflistan
Permanent länk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Träffar per sida
  • 5
  • 10
  • 20
  • 50
  • 100
  • 250
Sortering
  • Standard (Relevans)
  • Författare A-Ö
  • Författare Ö-A
  • Titel A-Ö
  • Titel Ö-A
  • Publikationstyp A-Ö
  • Publikationstyp Ö-A
  • Äldst först
  • Nyast först
  • Skapad (Äldst först)
  • Skapad (Nyast först)
  • Senast uppdaterad (Äldst först)
  • Senast uppdaterad (Nyast först)
  • Disputationsdatum (tidigaste först)
  • Disputationsdatum (senaste först)
  • Standard (Relevans)
  • Författare A-Ö
  • Författare Ö-A
  • Titel A-Ö
  • Titel Ö-A
  • Publikationstyp A-Ö
  • Publikationstyp Ö-A
  • Äldst först
  • Nyast först
  • Skapad (Äldst först)
  • Skapad (Nyast först)
  • Senast uppdaterad (Äldst först)
  • Senast uppdaterad (Nyast först)
  • Disputationsdatum (tidigaste först)
  • Disputationsdatum (senaste först)
Markera
Maxantalet träffar du kan exportera från sökgränssnittet är 250. Vid större uttag använd dig av utsökningar.
  • 201.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Edlund, Jens
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    House, David
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Animated Faces for Robotic Heads: Gaze and Beyond2011Ingår i: Analysis of Verbal and Nonverbal Communication and Enactment: The Processing Issues / [ed] Anna Esposito, Alessandro Vinciarelli, Klára Vicsi, Catherine Pelachaud and Anton Nijholt, Springer Berlin/Heidelberg, 2011, s. 19-35Konferensbidrag (Refereegranskat)
    Abstract [en]

    We introduce an approach to using animated faces for robotics where a static physical object is used as a projection surface for an animation. The talking head is projected onto a 3D physical head model. In this chapter we discuss the different benefits this approach adds over mechanical heads. After that, we investigate a phenomenon commonly referred to as the Mona Lisa gaze effect. This effect results from the use of 2D surfaces to display 3D images and causes the gaze of a portrait to seemingly follow the observer no matter where it is viewed from. The experiment investigates the perception of gaze direction by observers. The analysis shows that the 3D model eliminates the effect, and provides an accurate perception of gaze direction. We discuss at the end the different requirements of gaze in interactive systems, and explore the different settings these findings give access to.

  • 202.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Auditory visual prominence From intelligibility to behavior2009Ingår i: Journal on Multimodal User Interfaces, ISSN 1783-7677, E-ISSN 1783-8738, Vol. 3, nr 4, s. 299-309Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    Auditory prominence is defined as when an acoustic segment is made salient in its context. Prominence is one of the prosodic functions that has been shown to be strongly correlated with facial movements. In this work, we investigate the effects of facial prominence cues, in terms of gestures, when synthesized on animated talking heads. In the first study, a speech intelligibility experiment is conducted, speech quality is acoustically degraded and the fundamental frequency is removed from the signal, then the speech is presented to 12 subjects through a lip synchronized talking head carrying head-nods and eyebrows raise gestures, which are synchronized with the auditory prominence. The experiment shows that presenting prominence as facial gestures significantly increases speech intelligibility compared to when these gestures are randomly added to speech. We also present a follow-up study examining the perception of the behavior of the talking heads when gestures are added over pitch accents. Using eye-gaze tracking technology and questionnaires on 10 moderately hearing impaired subjects, the results of the gaze data show that users look at the face in a similar fashion to when they look at a natural face when gestures are coupled with pitch accents opposed to when the face carries no gestures. From the questionnaires, the results also show that these gestures significantly increase the naturalness and the understanding of the talking head.

  • 203.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Gustafson, Joakim
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Mirning, Nicole
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Tscheligi, Manfred
    Furhat goes to Robotville: a large-scale multiparty human-robot interaction data collection in a public space2012Ingår i: Proc of LREC Workshop on Multimodal Corpora, Istanbul, Turkey, 2012Konferensbidrag (Refereegranskat)
    Abstract [en]

    In the four days of the Robotville exhibition at the London Science Museum, UK, during which the back-projected head Furhat in a situated spoken dialogue system was seen by almost 8 000 visitors, we collected a database of 10 000 utterances spoken to Furhat in situated interaction. The data collection is an example of a particular kind of corpus collection of human-machine dialogues in public spaces that has several interesting and specific characteristics, both with respect to the technical details of the collection and with respect to the resulting corpus contents. In this paper, we take the Furhat data collection as a starting point for a discussion of the motives for this type of data collection, its technical peculiarities and prerequisites, and the characteristics of the resulting corpus.

  • 204.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    House, David
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Audio-Visual Prosody: Perception, Detection, and Synthesis of Prominence2010Ingår i: 3rd COST 2102 International Training School on Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces: Theoretical and Practical Issues / [ed] Esposito A; Esposito AM; Martone R; Muller VC; Scarpetta G, 2010, Vol. 6456, s. 55-71Konferensbidrag (Refereegranskat)
    Abstract [en]

    In this chapter, we investigate the effects of facial prominence cues, in terms of gestures, when synthesized on animated talking heads. In the first study a speech intelligibility experiment is conducted, where speech quality is acoustically degraded, then the speech is presented to 12 subjects through a lip synchronized talking head carrying head-nods and eyebrow raising gestures. The experiment shows that perceiving visual prominence as gestures, synchronized with the auditory prominence, significantly increases speech intelligibility compared to when these gestures are randomly added to speech. We also present a study examining the perception of the behavior of the talking heads when gestures are added at pitch movements. Using eye-gaze tracking technology and questionnaires for 10 moderately hearing impaired subjects, the results of the gaze data show that users look at the face in a similar fashion to when they look at a natural face when gestures are coupled with pitch movements opposed to when the face carries no gestures. From the questionnaires, the results also show that these gestures significantly increase the naturalness and helpfulness of the talking head.

  • 205.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Salvi, Giampiero
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    SynFace Phone Recognizer for Swedish Wideband and Narrowband Speech2008Ingår i: Proceedings of The second Swedish Language Technology Conference (SLTC), Stockholm, Sweden., 2008, s. 3-6Konferensbidrag (Övrigt vetenskapligt)
    Abstract [en]

    In this paper, we present new results and comparisons of the real-time lips synchronized talking head SynFace on different Swedish databases and bandwidth. The work involves training SynFace on narrow-band telephone speech from the Swedish SpeechDat, and on the narrow-band and wide-band Speecon corpus. Auditory perceptual tests are getting established for SynFace as an audio visual hearing support for the hearing-impaired. Preliminary results show high recognition accuracy compared to other languages.

  • 206.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Spontaneous spoken dialogues with the Furhat human-like robot head2014Ingår i: HRI '14 Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction, Bielefeld, Germany, 2014, s. 326-Konferensbidrag (Refereegranskat)
    Abstract [en]

    We will show in this demonstrator an advanced multimodal and multiparty spoken conversational system using Furhat, a robot head based on projected facial animation. Furhat is an anthropomorphic robot head that utilizes facial animation for physical robot heads using back-projection. In the system, multimodality is enabled using speech and rich visual input signals such as multi-person real-time face tracking and microphone tracking. The demonstrator will showcase a system that is able to carry out social dialogue with multiple interlocutors simultaneously with rich output signals such as eye and head coordination, lips synchronized speech synthesis, and non-verbal facial gestures used to regulate fluent and expressive multiparty conversations. The dialogue design is performed using the IrisTK [4] dialogue authoring toolkit developed at KTH. The system will also be able to perform a moderator in a quiz-game showing different strategies for regulating spoken situated interactions.

  • 207.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    The Furhat Social Companion Talking Head2013Ingår i: Interspeech 2013 - Show and Tell, 2013, s. 747-749Konferensbidrag (Refereegranskat)
    Abstract [en]

    In this demonstrator we present the Furhat robot head. Furhat is a highly human-like robot head in terms of dynamics, thanks to its use of back-projected facial animation. Furhat also takes advantage of a complex and advanced dialogue toolkits designed to facilitate rich and fluent multimodal multiparty human-machine situated and spoken dialogue. The demonstrator will present a social dialogue system with Furhat that allows for several simultaneous interlocutors, and takes advantage of several verbal and nonverbal input signals such as speech input, real-time multi-face tracking, and facial analysis, and communicates with its users in a mixed initiative dialogue, using state of the art speech synthesis, with rich prosody, lip animated facial synthesis, eye and head movements, and gestures.

  • 208.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Furhat: A Back-projected Human-like Robot Head for Multiparty Human-Machine Interaction2012Ingår i: Cognitive Behavioural Systems: COST 2102 International Training School, Dresden, Germany, February 21-26, 2011, Revised Selected Papers / [ed] Anna Esposito, Antonietta M. Esposito, Alessandro Vinciarelli, Rüdiger Hoffmann, Vincent C. Müller, Springer Berlin/Heidelberg, 2012, s. 114-130Konferensbidrag (Refereegranskat)
    Abstract [en]

    In this chapter, we first present a summary of findings from two previous studies on the limitations of using flat displays with embodied conversational agents (ECAs) in the contexts of face-to-face human-agent interaction. We then motivate the need for a three dimensional display of faces to guarantee accurate delivery of gaze and directional movements and present Furhat, a novel, simple, highly effective, and human-like back-projected robot head that utilizes computer animation to deliver facial movements, and is equipped with a pan-tilt neck. After presenting a detailed summary on why and how Furhat was built, we discuss the advantages of using optically projected animated agents for interaction. We discuss using such agents in terms of situatedness, environment, context awareness, and social, human-like face-to-face interaction with robots where subtle nonverbal and social facial signals can be communicated. At the end of the chapter, we present a recent application of Furhat as a multimodal multiparty interaction system that was presented at the London Science Museum as part of a robot festival,. We conclude the paper by discussing future developments, applications and opportunities of this technology.

  • 209.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Öster, Anne-Marie
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Salvi, Giampiero
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    van Son, Nic
    Viataal, Nijmegen, The Netherlands.
    Ormel, Ellen
    Viataal, Nijmegen, The Netherlands.
    Herzke, Tobias
    HörTech gGmbH, Germany.
    Studies on Using the SynFace Talking Head for the Hearing Impaired2009Ingår i: Proceedings of Fonetik'09: The XXIIth Swedish Phonetics Conference, June 10-12, 2009 / [ed] Peter Branderud, Hartmut Traunmüller, Stockholm: Stockholm University, 2009, s. 140-143Konferensbidrag (Övrigt vetenskapligt)
    Abstract [en]

    SynFace is a lip-synchronized talking agent which is optimized as a visual reading support for the hearing impaired. In this paper wepresent the large scale hearing impaired user studies carried out for three languages in the Hearing at Home project. The user tests focuson measuring the gain in Speech Reception Threshold in Noise and the effort scaling when using SynFace by hearing impaired people, where groups of hearing impaired subjects with different impairment levels from mild to severe and cochlear implants are tested. Preliminaryanalysis of the results does not show significant gain in SRT or in effort scaling. But looking at large cross-subject variability in both tests, it isclear that many subjects benefit from SynFace especially with speech with stereo babble.

  • 210.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Öster, Ann-Marie
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Salvi, Giampiero
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    Granström, Björn
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
    van Son, Nic
    Ormel, Ellen
    Virtual Speech Reading Support for Hard of Hearing in a Domestic Multi-Media Setting2009Ingår i: INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2009, s. 1443-1446Konferensbidrag (Refereegranskat)
    Abstract [en]

    In this paper we present recent results on the development of the SynFace lip synchronized talking head towards multilinguality, varying signal conditions and noise robustness in the Hearing at Home project. We then describe the large scale hearing impaired user studies carried out for three languages. The user tests focus on measuring the gain in Speech Reception Threshold in Noise when using SynFace, and on measuring the effort scaling when using SynFace by hearing impaired people. Preliminary analysis of the results does not show significant gain in SRT or in effort scaling. But looking at inter-subject variability, it is clear that many subjects benefit from SynFace especially with speech with stereo babble noise.

  • 211.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT. KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    De Smet, Michael
    Van Hamme, Hugo
    Lip Synchronization: from Phone Lattice to PCA Eigen-projections using Neural Networks2008Ingår i: INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2008, s. 2016-2019Konferensbidrag (Refereegranskat)
    Abstract [en]

    Lip synchronization is the process of generating natural lip movements from a speech signal. In this work we address the lip-sync problem using an automatic phone recognizer that generates a phone lattice carrying posterior probabilities. The acoustic feature vector contains the posterior probabilities of all the phones over a time window centered at the current time point. Hence this representation characterizes the phone recognition output including the confusion patterns caused by its limited accuracy. A 3D face model with varying texture is computed by analyzing a video recording of the speaker using a 3D morphable model. Training a neural network using 30 000 data vectors from an audiovisual recording in Dutch resulted in a very good simulation of the face on independent data sets of the same or of a different speaker.

  • 212.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Edlund, Jens
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Taming Mona Lisa: communicating gaze faithfully in 2D and 3D facial projections2012Ingår i: ACM Transactions on Interactive Intelligent Systems, ISSN 2160-6455, Vol. 1, nr 2, s. 25-, artikel-id 11Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    The perception of gaze plays a crucial role in human-human interaction. Gaze has been shown to matter for a number of aspects of communication and dialogue, especially for managing the flow of the dialogue and participant attention, for deictic referencing, and for the communication of attitude. When developing embodied conversational agents (ECAs) and talking heads, modeling and delivering accurate gaze targets is crucial. Traditionally, systems communicating through talking heads have been displayed to the human conversant using 2D displays, such as flat monitors. This approach introduces severe limitations for an accurate communication of gaze since 2D displays are associated with several powerful effects and illusions, most importantly the Mona Lisa gaze effect, where the gaze of the projected head appears to follow the observer regardless of viewing angle. We describe the Mona Lisa gaze effect and its consequences in the interaction loop, and propose a new approach for displaying talking heads using a 3D projection surface (a physical model of a human head) as an alternative to the traditional flat surface projection. We investigate and compare the accuracy of the perception of gaze direction and the Mona Lisa gaze effect in 2D and 3D projection surfaces in a five subject gaze perception experiment. The experiment confirms that a 3Dprojection surface completely eliminates the Mona Lisa gaze effect and delivers very accurate gaze direction that is independent of the observer's viewing angle. Based on the data collected in this experiment, we rephrase the formulation of the Mona Lisa gaze effect. The data, when reinterpreted, confirms the predictions of the new model for both 2D and 3D projection surfaces. Finally, we discuss the requirements on different spatially interactive systems in terms of gaze direction, and propose new applications and experiments for interaction in a human-ECA and a human-robot settings made possible by this technology.

  • 213.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Edlund, Jens
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Gustafson, Joakim
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Analysis of gaze and speech patterns in three-party quiz game interaction2013Ingår i: Interspeech 2013, 2013, s. 1126-1130Konferensbidrag (Refereegranskat)
    Abstract [en]

    In order to understand and model the dynamics between interaction phenomena such as gaze and speech in face-to-face multiparty interaction between humans, we need large quantities of reliable, objective data of such interactions. To date, this type of data is in short supply. We present a data collection setup using automated, objective techniques in which we capture the gaze and speech patterns of triads deeply engaged in a high-stakes quiz game. The resulting corpus consists of five one-hour recordings, and is unique in that it makes use of three state-of-the-art gaze trackers (one per subject) in combination with a state-of-theart conical microphone array designed to capture roundtable meetings. Several video channels are also included. In this paper we present the obstacles we encountered and the possibilities afforded by a synchronised, reliable combination of large-scale multi-party speech and gaze data, and an overview of the first analyses of the data. Index Terms: multimodal corpus, multiparty dialogue, gaze patterns, multiparty gaze.

  • 214.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    Heylen, D.
    Bohus, D.
    Koutsombogera, Maria
    Papageorgiou, H.
    Esposito, A.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    UM3I 2014: International workshop on understanding and modeling multiparty, multimodal interactions2014Ingår i: ICMI 2014 - Proceedings of the 2014 International Conference on Multimodal Interaction, Association for Computing Machinery (ACM), 2014, s. 537-538Konferensbidrag (Refereegranskat)
    Abstract [en]

    In this paper, we present a brief summary of the international workshop on Modeling Multiparty, Multimodal Interactions. The UM3I 2014 workshop is held in conjunction with the ICMI 2014 conference. The workshop will highlight recent developments and adopted methodologies in the analysis and modeling of multiparty and multimodal interactions, the design and implementation principles of related human-machine interfaces, as well as the identification of potential limitations and ways of overcoming them.

  • 215.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Effects of 2D and 3D Displays on Turn-taking Behavior in Multiparty Human-Computer Dialog2011Ingår i: SemDial 2011: Proceedings of the 15th Workshop on the Semantics and Pragmatics of Dialogue / [ed] Ron Artstein, Mark Core, David DeVault, Kallirroi Georgila, Elsi Kaiser, Amanda Stent, Los Angeles, CA, 2011, s. 192-193Konferensbidrag (Refereegranskat)
    Abstract [en]

    The perception of gaze from an animated agenton a 2D display has been shown to suffer fromthe Mona Lisa effect, which means that exclusive mutual gaze cannot be established if there is more than one observer. In this study, we investigate this effect when it comes to turntaking control in a multi-party human-computerdialog setting, where a 2D display is compared to a 3D projection. The results show that the 2D setting results in longer response times andlower turn-taking accuracy.

  • 216.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Perception of Gaze Direction for Situated Interaction2012Ingår i: Proceedings of the 4th Workshop on Eye Gaze in Intelligent Human Machine Interaction, Gaze-In 2012, ACM , 2012Konferensbidrag (Refereegranskat)
    Abstract [en]

    Accurate human perception of robots' gaze direction is crucial for the design of a natural and fluent situated multimodal face-to-face interaction between humans and machines. In this paper, we present an experiment targeted at quantifying the effects of different gaze cues synthesized using the Furhat back-projected robot head, on the accuracy of perceived spatial direction of gaze by humans using 18 test subjects. The study first quantifies the accuracy of the perceived gaze direction in a human-human setup, and compares that to the use of synthesized gaze movements in different conditions: viewing the robot eyes frontal or at a 45 degrees angle side view. We also study the effect of 3D gaze by controlling both eyes to indicate the depth of the focal point (vergence), the use of gaze or head pose, and the use of static or dynamic eyelids. The findings of the study are highly relevant to the design and control of robots and animated agents in situated face-to-face interaction.

  • 217.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Turn-taking Control Using Gaze in Multiparty Human-Computer Dialogue: Effects of 2D and 3D Displays2011Ingår i: Proceedings of the International Conference on Audio-Visual Speech Processing 2011, Stockholm: KTH Royal Institute of Technology, 2011, s. 99-102Konferensbidrag (Refereegranskat)
    Abstract [en]

    In a previous experiment we found that the perception of gazefrom an animated agent on a two-dimensional display suffersfrom the Mona Lisa effect, which means that exclusive mutual gaze cannot be established if there is more than one observer. By using a three-dimensional projection surface, this effect can be eliminated. In this study, we investigate whether this difference also holds for the turn-taking behaviour of subjects interacting with the animated agent in a multi-party dialogue. We present a Wizard-of-Oz experiment where five subjects talk toan animated agent in a route direction dialogue. The results show that the subjects to some extent can infer the intended target of the agent’s questions, in spite of the Mona Lisa effect, but that the accuracy of gaze when it comes to selecting an addressee is still significantly lower in the 2D condition, ascompared to the 3D condition. The response time is also significantly longer in the 2D condition, indicating that the inference of intended gaze may require additional cognitive efforts.

  • 218.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    Lip-reading: Furhat audio visual intelligibility of a back projected animated face2012Ingår i: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Springer Berlin/Heidelberg, 2012, s. 196-203Konferensbidrag (Refereegranskat)
    Abstract [en]

    Back projecting a computer animated face, onto a three dimensional static physical model of a face, is a promising technology that is gaining ground as a solution to building situated, flexible and human-like robot heads. In this paper, we first briefly describe Furhat, a back projected robot head built for the purpose of multimodal multiparty human-machine interaction, and its benefits over virtual characters and robotic heads; and then motivate the need to investigating the contribution to speech intelligibility Furhat's face offers. We present an audio-visual speech intelligibility experiment, in which 10 subjects listened to short sentences with degraded speech signal. The experiment compares the gain in intelligibility between lip reading a face visualized on a 2D screen compared to a 3D back-projected face and from different viewing angles. The results show that the audio-visual speech intelligibility holds when the avatar is projected onto a static face model (in the case of Furhat), and even, rather surprisingly, exceeds it. This means that despite the movement limitations back projected animated face models bring about; their audio visual speech intelligibility is equal, or even higher, compared to the same models shown on flat displays. At the end of the paper we discuss several hypotheses on how to interpret the results, and motivate future investigations to better explore the characteristics of visual speech perception 3D projected faces.

  • 219.
    Al Moubayed, Samer
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Skantze, Gabriel
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Stefanov, Kalin
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Gustafson, Joakim
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Multimodal Multiparty Social Interaction with the Furhat Head2012Konferensbidrag (Refereegranskat)
    Abstract [en]

    We will show in this demonstrator an advanced multimodal and multiparty spoken conversational system using Furhat, a robot head based on projected facial animation. Furhat is a human-like interface that utilizes facial animation for physical robot heads using back-projection. In the system, multimodality is enabled using speech and rich visual input signals such as multi-person real-time face tracking and microphone tracking. The demonstrator will showcase a system that is able to carry out social dialogue with multiple interlocutors simultaneously with rich output signals such as eye and head coordination, lips synchronized speech synthesis, and non-verbal facial gestures used to regulate fluent and expressive multiparty conversations.

  • 220.
    Al Samisti, Fanti Machmount
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Visual Debugging of Dataflow Systems2017Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Behandling av stora datamängder har på senare tid blivit en viktig del av data analys i strömning och batch-processering. En uppsjö av verktyg har blivit framtagna för att bryta ner problem till mindre uppgifter och för att använda såväl hårdvara som mjukvara på ett distribuerat och fel tolerant sätt. Apache Spark är en av de mest kända plattformarna för beräkningar på storskaliga kluster. På SICS Swedish ICT, används Spark på deras egna lösning. HopsWorks tillhandahåller ett grafiskt gränssnitt för Hops plattformen med målet att förenkla processen att konfiguera Hadoop miljön och förbättra den. Användargränssnittet inkluderar, utöver annan funktionalitet, ett flertal verktyg för att exekvera distribuerade applikationer såsom Spark, TensorFlow, Flink med ett antal olika datakällor såsom Kafka och HDFS.

    De verktyg som finns för att övervaka den tidigarenämnda teknologi-stacken kommer från både företag och öppna källkod projekt. Den tidigare är vanligtvis en del av en större familj med produkter som kör på proprietär kod. I kontrast mot den senare, som erbjuder en större mängd med val där de viktigaste har bristande flexibilitet i utbyte mot ett mer generiskt tillvägagångssätt eller enkelhet att få nyttig information förutom för de mest erfarna användarna.

    Bidraget från det här projektet är ett visualiseringsspråk i form av ett webbanvändargränssnitt, integrerat med Hops plattformen, för förståelse, felsökning och i slutändan kunna optimera resursallokering och prestanda för dataflödesapplikationer. Dessa processer är baserade på både abstraktionen från dataflöde programmerings paradigmen och på systemkoncept såsom dataegenskaper, datavariabilitet, beräkning, distribution och andra systemegenskaper.

  • 221.
    Al Tayr, Hydar
    et al.
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Al Hakim, Mahmud
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Mikroelektronik och Informationsteknik, IMIT.
    Mobile Ajax2008Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Denna rapport beskriver ett examensarbete utfört på SICS (Swedish Institute of Computer Science) och KTH (Kungliga Tekniska Högskolan) i Stockholm.

    Ajax står för "Asynchronous JavaScript and XML" och är inte något programmeringsspråk, utan ett samlingsnamn för några tekniker som kan användas för att utveckla webbtillämpningar med mer interaktivitet än traditionella webbsidor.

    Ajax-tillämpningar kan anpassas till mobila och begränsade enheter. Detta har fått namnet Mobile Ajax . Medan tekniken är det samma, ses Mobile Ajax som ett specialfall av Ajax, för att den behandlar problem som är specifika till den mobila marknaden.

    Syftet med denna uppsats har varit att undersöka vilka möjligheter och nackdelar som Mobile Ajax har utifrån ett utvecklar- och användarperspektiv. Dessutom jämför vi Mobile Ajax med Java Micro Edition (Java ME) och Flash Lite.

    Detta har gjorts genom litteraturstudier och utveckling av en databasbaserad chattklient (MAIM -Mobile Ajax Instant Messenger). Applikationen skickar och tar emot direkt meddelanden i realtid mellan olika mobila enheter. MAIM har sedan jämförts med egenutvecklade Java ME och Flash Lite chattklienter.

    Vi har testat alla tre applikationer med olika modeller av mobila enheter och på olika webbläsare. Resultaten har visat att Mobile Ajax möjliggör skapandet av sofistikerade och dynamiska mobila webbapplikationer och är mycket bättre än den klassiska webbapplikationsmodellen. Men detta förutsätter att den mobila enheten har en "modern" och kompatibel webbläsare t.ex. Opera Mobile.

  • 222.
    Alabbasi, Abdulrahman
    et al.
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Kommunikationssystem, CoS.
    Shihada, Basem
    Optimal Cross-Layer Design for Energy Efficient D2D Sharing Systems2017Ingår i: IEEE Transactions on Wireless Communications, ISSN 1536-1276, E-ISSN 1558-2248, Vol. 16, nr 2, s. 839-855Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    In this paper, we propose a cross-layer design, which optimizes the energy efficiency of a potential future 5G spectrum-sharing environment, in two sharing scenarios. In the first scenario, underlying sharing is considered. We propose and minimize a modified energy per good bit (MEPG) metric, with respect to the spectrum sharing user's transmission power and media access frame length. The cellular users, legacy users, are protected by an outage probability constraint. To optimize the non-convex targeted problem, we utilize the generalized convexity theory and verify the problem's strictly pseudoconvex structure. We also derive analytical expressions of the optimal resources. In the second scenario, we minimize a generalized MEPG function while considering a probabilistic activity of cellular users and its impact on the MEPG performance of the spectrum sharing users. Finally, we derive the associated optimal resource allocation of this problem. Selected numerical results show the improvement of the proposed system compared with other systems.

  • 223.
    Alaei, Zohreh
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Power Enhancement in Piezoelectric Energy Harvesting2016Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [en]

    Piezoelectric energy harvesting has been around for almost a decade to generate power from the ambient vibrations. Although the generated power is very small, but there are several ways to increase and enhance the generated power. This project presents different methods of optimizing the output power by changing the structural configuration of the energy harvesters, selection of piezoelectric material and circuit interface of these harvesters. To understand the different steps of the enhancement, the process of energy conversion by piezoelectric material has been first looked at.

    Different groups of piezoelectric material were studied to see what kind of materials have the ability of increasing the generated power. As mechanical configuration of the energy harvesters has a significant effect on the output voltage, their configuration such as Cantilever beam type, Cymbal type and Circular diaphragms has been described and compared. After the power generated in the piezoelectric crystal , the current is sent to through an interface circuit to get rectified and regulated. This circuit can be modified to increase the power as well. There are several types of circuits that can increase the output voltage significantly. Synchronized Switch Harvesting (SSH) techniques, Synchronous Electric Charge Extraction technique and voltage doubler are such examples. These techniques have been also studied and compared. Because of the outgrowing industry of piezoelectric energy harvesting in Medical field, their function and their progress has also been reviewed.

  • 224.
    Alam, Joy
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Ljungehed, Jesper
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    A comparative study of hybrid artificial neural network models for one-day stock price prediction2015Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [en]

    Prediction of stock prices is an important financial problem that is receiving increased attention in the field of artificial intelligence. Many different neural network and hybrid models for obtaining accurate prediction results have been proposed during the last few years in an attempt to outperform the traditional linear and nonlinear approaches.

    This study evaluates the performance of three different hybrid neural network models used for one-day stock close price prediction; a pre-processed evolutionary Levenberg-Marquardt neural network, Bayesian regularized artificial neural network and neural network with technical- and fractal analysis. It was also determined which of the three outperformed the others.

    The performance evaluation and comparison of the models are done using statistical error measures for accuracy; mean square error, symmetric mean absolute percentage error and point of change in direction.

    The results indicate good performance values for the Bayesian regularized artificial neural network, and varied performance for the others. Using the Friedman test, one model clearly is different in its performance relative to the others, probably the above mentioned model.

    The results for two of the models showed a large standard deviation of the error measurements which indicates that the results are not entirely reliable.

  • 225.
    Alam, Samiul
    KTH, Skolan för elektroteknik och datavetenskap (EECS).
    Recurrent neural networks in electricity load forecasting2018Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    I denna uppsats beskrivs två studier som jämför feed-forward neurala nätverk (FFNN) och long short-term memory neurala nätverk (LSTM) i prognostisering av elkonsumtion.

    I den första studien undersöks univariata modeller som använder tidigare elkonsumtion, och flervariata modeller som använder tidigare elkonsumtion och temperaturmätningar, för att göra prognoser av elkonsumtion för nästa dag. Hur långt bak i tiden tidigare information hämtas ifrån samt upplösningen av tidigare information varieras. I den andra studien undersöks FFNN- och LSTM-modeller med praktiska begränsningar såsom tillgänglighet av data i åtanke. Även storleken av nätverken varieras.

    I studierna finnes ingen skillnad mellan FFNN- och LSTM-modellernas förmåga att prognostisera elkonsumtion. Däremot minskar FFNN-modellens förmåga att prognostisera elkonsumtion då storleken av modellen ökar. Å andra sidan ökar LSTM-modellens förmåga då storkelen ökar. Utifrån dessa resultat anser vi inte att det finns tillräckligt med bevis till förmån för LSTM-modeller i prognostisering av elkonsumtion.

  • 226.
    al-Askary, Omar
    et al.
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Kommunikationssystem, CoS.
    Ben Slimane, Slimane
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Kommunikationssystem, CoS.
    Effect of error in CSI on the capacity of Rayleigh fading channels with QAM signalling and the design of robust signal constellations2007Ingår i: IET Communications, ISSN 1751-8628, E-ISSN 1751-8636, Vol. 1, nr 6, s. 1118-1125Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    The effects of channel estimation errors on the channel capacity of a discrete time, discrete input, infinite output Rayleigh fading channel are investigated. The case of conventional modulation methods such as phase shift keying (PSK) and quatrature amplitude modulation (QAM) is investigated at first where it was observed that the capacity degrades rapidly with increasing channel estimation errors. The effect of error in the channel estimation is similar to the effect of higher noise in the channel that depends on the transmitted signal. A genetic algorithm is used to optimise the signal constellation in order to maximise the capacity for a given finite number of signal points. The aim of trying to maximise the capacity is to estimate the remaining gap in performance between a traditional modulation scheme such as QAM and the best possible constellation that is optimised for the channel. The constellations obtained from the genetic algorithm are, in general, not directly implementable. A method to design practical robust signal constellations that overcome the effect of channel state information (CSI) error is presented. The robust signal constellations obtained show a performance that is very close to the optimal constellations. In this work, the probability distribution of the error in CSI is assumed to be known.

  • 227.
    Al-Battat, Ahmed
    et al.
    KTH, Skolan för teknik och hälsa (STH), Medicinsk teknik, Data- och elektroteknik.
    Anwer, Noora
    KTH, Skolan för teknik och hälsa (STH), Medicinsk teknik, Data- och elektroteknik.
    Utvärdering utifrån ett mjukvaruutveckling perspektiv av ramverk för SharePoint2017Självständigt arbete på grundnivå (högskoleexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Inom ett företag eller en organisation finns det stor nytta av intranät som ett arbetsverktyg för att kunna dela information. Ett välfungerat intranät bidrar till ett bättre informationsflöde och ett effektivare samarbete. SharePoint är en plattform för intranät med interaktiva funktioner. Omnia är ett ramverk anpassad för Microsofts SharePoint 2013.I detta arbete undersöks hur Omnia fungerar som ett ramverk och vad produkten lämpar sig för. Omnia ramverket utvärderades noggrant och en oberoende bedömning utfördes under examensarbetet. Utvärderingen var baserad på vetenskapliga undersökningar som byggde på den kvalitativa och kvantitativa forskningsmetodiken. Utvärderingens huvudområden baserades på systemets prestanda, skalbarhet, arkitektur och funktionalitet. En testprototyp utvecklades under arbetets gång genom Omnia i from av en webbaserad applikation.Ramverket Omnia var lämplig för utveckling av interaktiva webbaserade applikationer för intranät i SharePoint. Dock saknade den färdig dokumentation/API, vilket gjorde utvecklingsprocessen mer avancerad. Lösningsarkitekturen för systemet uppfyllde kraven för skalbara system, eftersom den baserades på lagerarkitektur. Systemet hade även bra prestanda, dock försämrades den efter att antalet användare översteg ettusen. Funktionaliteten testades med hjälp av två olika tester, vilket visade att produkten är lämplig för att användas i intranät.

  • 228. Albertoni, Riccardo
    et al.
    Bertone, Alessio
    De Martino, Monica
    Demšar, Urška
    KTH, Skolan för arkitektur och samhällsbyggnad (ABE), Samhällsplanering och miljö, Geoinformatik.
    Hauska, Hans
    KTH, Skolan för arkitektur och samhällsbyggnad (ABE), Samhällsplanering och miljö, Geoinformatik.
    Visual and Automatic Data Mining for Exploration of Geographical MetadataManuskript (Övrigt vetenskapligt)
  • 229. Albertoni, Riccardo
    et al.
    Bertone, Alessio
    Demšar, Urška
    KTH, Tidigare Institutioner                               , Infrastruktur.
    De Martino, Monica
    Hauska, Hans
    KTH, Tidigare Institutioner                               , Infrastruktur.
    Knowledge Extraction by Visual Data Mining of Metadata in Site PlanningManuskript (Övrigt vetenskapligt)
    Abstract [en]

    The paper describes a tool designed within the first stage of the European project INVISIP in order to explore geographical metadata in the site planning process. A visual data mining approach is applied to a database of geographical metadata to help the user find an optimal subset of the existing geographical datasets for his particular planning task. It allows the user to perform both confirmative and explorative analysis. The approach is implemented in the Visual Data Mining tool, which integrates different types of visualisations with various interaction functionalities. It includes the interactive communication with the user and the brushing and linking process between different visualisations. The paper also presents an example of an application on a test metadatabase which was created for this purpose.

  • 230.
    Albertsson, Mimmi
    KTH, Skolan för datavetenskap och kommunikation (CSC), Medieteknik och interaktionsdesign, MID.
    TILLGÄNGLIGHET PÅ SVENSKA KOMMUNERS WEBBPLATSER: En kartläggning av kommuners arbete med att göra deras webbplats tillgänglig för personer med funktionsnedsättning.2015Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Svenska kommuners webbplatser innehåller stora mängder information och vänder sig till en bred målgrupp. För att användare ska kunna ta del av denna information är det viktigt att webbplatsen är tillgänglig, för alla. 74 procent av personer med funktionsnedsättning uppger i en undersökning gjord av myndigheten för delaktighet (2015a) att de använder internet för att ta kontakt med kommuner, men samtidigt upplever mer än 1 av 10 svårigheter i samband med användandet av datorer och internet, enligt SCB (2014). Syftet med denna studie var att kartlägga hur Svenska kommuner arbetar med att tillgängliggöra deras webbplats för personer med funktionsnedsättning. Studien undersökte också vad kommunerna bör göra för att tillgängliggöra deras webbplats samt vilka svårigheter som finns i arbetet med att tillgängliggöra en kommunal webbplats.

     

    I arbetet med denna kartläggning intervjuades personer som har insikt i ämnet samt sju kommunrepresentanter. För att samla in kvantitativ data genomfördes en enkätundersökning som besvarades av 208 av Sveriges 290 kommuner.

     

    Studien resulterade i en kartläggning av hur svenska kommuner arbetar med tillgänglighet, en studie av vad kommunerna bör göra och vilka problematiska faktorer som finns i deras tillgänglighetsarbete. Många kommuner satsar i dagsläget på att utveckla nya webbplatser men det finns fyra framträdande faktorer som påverkar deras arbete. Dessa faktorer är kunskapsbrist, resursbrist, organisationsegenskaper, så som oklara ansvarsfördelningar och decentraliserade organisationer, samt bristen på tydliga krav.  Kartläggningen visar också att det finns tydliga skillnader mellan små och stora kommuner i arbetet med webbtillgänglighet. 

  • 231.
    Albertsson, Mimmi
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Arningsmark, Isabella
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Svenska företags användning av sociala medier som marknadsföringsverktyg – En observation över vilka aktiviteter som lämpar sig att bedriva på sociala medier idag.2012Självständigt arbete på avancerad nivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Idag använder sig företag i allt större utsträckning av sociala medier som en del av sin marknadsföring. De flesta företag har upptäckt värdet i att finnas på sociala medier och är idag registrerade på flera olika plattformar, men vad är det egentligen för innehåll som publiceras av företagen på dessa plattformar? De olika plattformarna är uppbyggda på olika sätt och kring olika attribut; finns det då vissa typer av innehåll som passar bättre eller sämre att publicera på en viss plattform?

    Problemformuleringen som uppsatsen ämnar besvara är: Vilka typer av aktiviteter lämpar sig för svenska företag att bedriva på olika sociala plattformar? Frågan har besvarats genom att teori kring ämnesområdet behandlats, en observation av hur svenska företag använder plattformarna idag har genomförts samt att intervjuer på ett företag och på en PR-byrå har hållits. Utifrån en diskussion kring studiens resultat framgår det att det inte går att dra några riktlinjer för vilka olika typer av inlägg som passar bättre eller sämre att publicera i de olika plattformarna. Det som istället visat sig är att det är djupet av information som avgör vilken plattform som passar bäst för företagen att använda sig av. Det som framgår för samtliga plattformar är även att företagen bör fokusera på interaktion med användare och att inlägg bör publiceras frekvent, men inte med för hög frekvens då detta tenderar att störa användare.

  • 232.
    Albrecht, Tomás
    KTH, Skolan för elektroteknik och datavetenskap (EECS), Medieteknik och interaktionsdesign, MID.
    Designing the Publikvitto, a system to make government expenditure tangible2018Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Att transportera sig med hjälp av flygplan är idag en självklarhet. Genom att flyga kan vi upptäcka andra delar av världen, träffa nya människor och få till internationella uppgörelser. Att flyga är dock ett mycket ohållbart sätt att transportera sig och svarar för ca 2% av all världens koldioxidutsläpp, där forskning och utveckling av industrin endast visar att dessa siffror kommer växa. Eftersom flygindustrin är en viktig del av samhället är dock de miljömässiga konsekvenserna förbisedda, där staterna snarare upprätthåller industrin genom bidrag och skattelättnader. Trots sina hållbara mål är Sveriges stat inget undantag. Denna studie handlar om utvecklingen av Publikvittot, ett system som är designat för att hjälpa oss som medborgare att förstå regeringens stöd och skattelättnader gentemot flygindustrin. Processen av utvecklandet är baserad på “forskning genom design” och inspirerad av reflekterande förhållningssätt. Slutsatser av denna studie handlar framför allt om insikter om relationen mellan designer, sociala problem och statens handlingar och hur dessa element kan bli bemötta för att designa produkter som motiverar människor att delta i politiska diskussioner.

  • 233.
    Albrektsson, Fredrik
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Detecting Sockpuppets in Social Media with Plagiarism Detection Algorithms2017Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Allteftersom  nya  former  av  propaganda  och  informationskontroll  sprider sig över internet krävs också nya sätt att identifiera dessa. En  allt mer populär metod för att sprida falsk information på mikrobloggar  som  Twitter  är  att  göra  det  från  till  synes  ordinära,  men  centralt  kontrollerade och koordinerade användarkonton – på engelska kända  som “sockpuppets”. I denna undersökning testar vi ett antal potentiella  metoder  för  att  identifiera  dessa  genom  att  applicera  plagiatkontrollalgoritmer  ämnade  för  text,  och  utvärderar  deras prestanda mot denna sortens hot. Vi identifierar framför allt en typ av  algoritm  –  den  som  nyttjar  vektorrymdsmodellering  av  text  –  som speciellt användbar i detta avseende. 

  • 234.
    Albåge Sandberg, Mikael
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Anpassning av en interaktiv skrivtavla till svenska klassrum.2012Självständigt arbete på avancerad nivå (yrkesexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Under de senaste åren har så kallade interaktiva skrivtavlor (en sorts digital whiteboard) blivit allt mer populära i klassrummen. Många skolor väljer att renovera klassrummen och överväger då möjligheten att utrusta dessa med dator, projektor och någon form av interaktiv skrivtavla. Den interaktiva skrivtavlan kan användas ungefär som en vanlig whiteboard, men den erbjuder också nya möjligheter. Till exempel kan inspelat material i form av ljud och bild visas och utöver detta kan många olika specialprogram användas precis som på en vanlig dator. Lektionerna kan sparas på datorn och det finns också möjlighet att backa och repetera hela lektionen samt möjlighet att skicka ut lektionsanteckningarna via till exempel e-post.

    I denna rapport utreds begränsningar och möjligheter att förbättra mjukvaran till den interaktiva skrivtavlan ePLUS. Arbetet inleddes med en litteraturstudie och intervjuer av lärare från skolor i stockholmsregionen samt Göteborg. Baserat på detta sammanställdes en prototypmjukvara som därefter utvärderades med hjälp av ytterligare intervjuer.

    Resultaten i arbetet visar bland annat att det stora utbudet av program som ePLUS erbjuder kan skapa förvirring bland användarna som lätt blandar ihop de olika programmen. Förvånansvärt få av de intervjuade lärarna som använder ePLUS i sitt arbete använder den digitala pennan aktivt i undervisningen. För att ePLUS ska fungera bättre i skolorna måste mjukvaran vara flexibel och passa både ovana och vana datoranvändare. Detta skulle kunna uppnås genom att användaren kan ange en så kallad svårighetsnivå som styr utbudet av knappar och funktioner. Många andra förbättringar kan genomföras i mjukvaran, men det finns också en gräns för hur många specialiserade funktioner som kan implementeras. Återkommande önskemål från olika lärare är specialprogram eller färdiga lektioner för just deras områden eller undervisningsmetod. Det blir dock svårt att genomföra alltför många specialanpassningar utan att ge avkall på användarvänligheten.

    Undersökningarna som primärt riktats mot mjukvarufrågor visar även att klassrummen i många skolor behöver anpassas till den nya tekniken för att den ska kunna utnyttjas bättre. Till exempel går belysningen inte alltid att styra på önskat sätt och projektorduken kan i vissa fall vara placerad så att den hindrar undervisningen. Det är också viktigt att utbildning i mjukvaran sker i så stor utsträckning som möjligt så att lärarna känner sig bekväma med att använda programmen.

  • 235.
    Aldabbagh, Haimen
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Provinsgenerering med postprocess2014Självständigt arbete på avancerad nivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Kandidatexamensarbetet är en del av ett större projekt som utförs på företaget Paradox Interactive. Projektets mål är att förbättra en kartgenerator för strategispelet Europa Universalis IV. Det här arbetet avser skapandet och implementationen av en provinsgenerator som delar in ett färdiggenererat landskap i provinser. Provinserna i spelet är de landsdelar på kartan som spelmekaniken bygger på.

    Förbättringarna som förväntas av den nya provinsgeneratorn är bland annat att:

    • Provinserna som skapas ska ha mer logiska gränser som påverkas av landskapets utformning och inte vara alltför orealistiska.

    • Ge användaren mer kontroll över hur slutresultatet ska se ut genom användarinmatade parametrar.

    • Inte överstiga en ungefärlig tidsgräns vid programmets exekvering. Tidsgränsen sätts av Paradox Interactive.

    Arbetet började med forskning kring ämnena kartgenerering och kartindelning vilket gav tillräckligt med kunskap för att planera hur programmet skulle implementeras. Programmeringsspråket som används är Java. Implementationen av programmet bygger på många kända algoritmer där den mest anmärkningsvärda algoritmen är Fortune's algoritm som utför huvuduppgiften för provinsindelningen i programmet, skapandet av Voronoidiagram. Voronoi-diagramen används för att dela in kartan i ytor som med hjälp av en postprocess resulterar i skapandet av provinserna.

    Andra kända algoritmer och metoder som används eller tas upp i den här rapporten är bland annat Lloyd relaxation, Bresenham's linjealgoritm, Scanline floodfill, Delaunay triangulering och Bowyer–Watson's algoritm.

    Resultatet av arbetet är ett Java-program som kan läsa in en kartfil med information om landskapsstruktur och skapa en indelning av provinser med provinsgränser som beror på landskapets utformning. Resultatet av provinsindelningen kan styras med hjälp av ett antal användarinmatade parametrar. Programmet hann inte kalibreras fullt ut under arbetets gång på grund av att landskapsgeneratorn inte blev färdig i tid för att kunna bidra med en genererad landskapskarta. De genererade provinserna kan sparas som en bildfil på hårddisken.

  • 236. Aldinucci, Marco
    et al.
    Brorsson, Mats
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS.
    D'Agostino, Daniele
    Daneshtalab, Masoud
    KTH, Skolan för informations- och kommunikationsteknik (ICT), Elektronik, Elektronik och inbyggda system.
    Kilpatrick, Peter
    Leppanen, Ville
    Preface2017Ingår i: The international journal of high performance computing applications, ISSN 1094-3420, E-ISSN 1741-2846, Vol. 31, nr 3, s. 179-180Artikel i tidskrift (Refereegranskat)
  • 237.
    Aldén, Marit
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Utvärdering av ett elektroniskt journalsystem för veterinärer: Identifiering av lämpliga lösningar på ett problem beträffande användbarhet2015Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Mål: Enligt svensk lag måste veterinärer dokumentera information om alla patientbesök. Patientjournaler är användbara för att samla uppgifter om hälsotillståndet hos de djur som behandlats. Syftet med denna studie var att utvärdera och upptäcka användbarhetsproblem i ett befintligt elektroniskt patientjournalsystem som används av veterinärer.

    Metoder: Fyra olika metoder användes för att uppnå målen med studien under en tidsperiod av 14 veckor. Första metoden var fältstudier och observationer som genomfördes på två olika kliniker nära Stockholmsområdet. Tänka-högt-metoden användes för att utvärdera fyra tester, representerande användarflöden, i systemet för att lokalisera användbarhetsfrågor. Fem personer deltog i testet, tre läkarsekreterare och två personer med en teknisk bakgrund. Under en och en halv vecka, genomfördes den heuristiska genomgången bestående av 90 olika tester. Slutligen skickades en enkät bestående av 14 frågor ut till alla veterinärer som för närvarande använder det elektroniska patientjournalsystemet.

    Resultat: Fältstudierna och observationerna resulterade i en storyboard som representerar en visualiserad bild av veterinärernas arbetssituation. Testerna med tänka-högt-metoden synliggjorde de problem deltagarna upptäckte. Efter den heuristiska genomgången hittades 27 buggar och 7 användbarhetsproblem. Totalt hade enkäten en räckvidd av cirka 340 veterinärer och 120 svarade, en svarskvot på 35 %. En sammanfattning av svaren visade att det fanns problem med alltför många klick för att slutföra en uppgift. Användare tyckte det var svårt att få en överblick över systemet och att det var tidskrävande att slutföra sina arbetsuppgifter. Lösningar på problem visualiseras genom pappersprototyper. 

  • 238.
    Aldén, Marit
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Strömbäck, Maria
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Konsumenters syn på QR-koder i marknadsföring.2012Självständigt arbete på avancerad nivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Idag syns QR-koder på allt från tidningsannonser till matvaruprodukter. Med hjälp av en smartphone och en QR-läsare kan konsumenter skanna dessa QR-koder. Syftet med denna undersökning är att ta reda på hur väl företagen når ut med sin marknadsföring genom QR-koder. Undersökningen behandlar vilka förväntningar konsumenter har på olika annonser och om dessa infrias.

    Resultaten från undersökningen pekar på att konsumenter är intresserade av att skanna koderna. Det finns många chanser för QR-koder att slå igenom som en bra marknadsföringsstrategi. Däremot så krävs det en viss förändring, både hos företagen och hos konsumenterna. Företagen har vissa faktorer de behöver förbättra för att konsumenter ska vilja skanna koderna. Tydlig information om vad som kan förväntas av QR-koden var en av de faktorer som deltagarna i intervjuerna värderade högst.

  • 239.
    Aleksandrian, Arsen
    et al.
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Sigrén Vinblad, Emil
    KTH, Skolan för informations- och kommunikationsteknik (ICT).
    Wearables and the potential of Google Glass2015Självständigt arbete på grundnivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    The Mobile Life (TML) är ett företag med stort engagemang inom mobil utveckling med fokus på att leverera skräddarsydda mobila lösningar. Vissa av deras större kunder inkluderar flygbolag som TML designar, utvecklar och levererar applikationer för resenärer att söka boka och köpa flygbiljetter.

    Wearable Technology blir mer och mer accepterat som nästa stora tillskott till det mobila ekosystemet och däri ligger intresset av att undersöka vad de mest hypade enheterna har att erbjuda för avancerande företag som TML. För att få en bättre insikt i vad det betyder att utveckla applikationer för enheter som markant skiljer sig från mobiltelefoner och surfplattor i avseende av prestanda och möjligheter gällande inmatning och utmatning av information tog vi fram de mest framträdande enheterna. De mest framträdande enheterna visade sig vara Google Glass, Android Wear och diverse smarta klockor. Utifrån dessa valdes Google Glass som vår plattform för att undersöka möjligheterna för wearables. Ett lämpligt sätt att förstå möjligheter och begränsningar inom användarinteraktion för Google Glass var att utveckla vår egen flygboknings applikation för Glass.

    Insikten vi fick var att det finns olika aspekter av Glass som begränsar den typ av applikation som kan göras för den. De två primära sakerna är begränsningar för hårdvara och det faktum att användarinteraktion har på ett vis tagit ett steg tillbaka. Från den grafiska direktmanipulering interaktion som vi idag är så vana vid i smartphones, till ett enkelt menysystem med begränsningar för hur mycket användaren kan interagera och hur mycket feedback programmet kan visa användaren.

  • 240. Alekseev, A.A
    et al.
    Kozlov, Alexander
    KTH, Skolan för datavetenskap och kommunikation (CSC), Beräkningsbiologi, CB.
    Shalfeev, V.D
    Chaotic regime and synchronous response in frequency controlled oscillator1994Ingår i: Nonlinear dynamics, ISSN 0924-090X, E-ISSN 1573-269X, Vol. 5, nr 1, s. 71-77Artikel i tidskrift (Refereegranskat)
  • 241. Alesii, Roberto
    et al.
    Congiu, Roberto
    Santucci, Fortunato
    Di Marco, Piergiuseppe
    KTH, Skolan för elektro- och systemteknik (EES), Centra, ACCESS Linnaeus Centre.
    Fischione, Carlo
    KTH, Skolan för elektro- och systemteknik (EES), Reglerteknik. KTH, Skolan för elektro- och systemteknik (EES), Centra, ACCESS Linnaeus Centre.
    Architectures and protocols for fast identification in large-scale RFID systems2014Ingår i: ISCCSP 2014 - 2014 6th International Symposium on Communications, Control and Signal Processing, Proceedings, 2014, s. 243-246Konferensbidrag (Refereegranskat)
    Abstract [en]

    Passive tags based on backscattered signals yield low energy consumption for large-scale applications of RFIDs. In this paper, system architectures and protocol enhancements for fast identifications in ISO/IEC 18000-6C systems that integrate UWB technology are investigated. The anti-collision protocol is studied by considering various tag populations. A novel algorithm is proposed to adapt the UHF air interface parameters with the use of UWB ranging information. The results show that the proposed algorithm yields up to 25% potential performance improvement compared to the ISO/IEC 18000-6C standard.

  • 242.
    Alesund, Henning
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    Olsson, Eva
    KTH, Skolan för datavetenskap och kommunikation (CSC).
    NFC – framtidens betalningsmedel?2011Självständigt arbete på avancerad nivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
    Abstract [sv]

    Allt fler i dagens samhälle införskaffar smartphones som kan hålla reda på allt i ens vardag, utom att betala. Idag används kontokort och kontanter som betalningsmedel till största delen, men kommer detta att bestå för alltid? Nya tekniker så som Near Field Communication – NFC, har tagit marknadsandelar på internationell basis men inte i Sverige. Mobiltelefonen klarar idag det mesta och möjligheterna finns för mobil betalning. Att möjligheten finns betyder inte alltid att företagen ser något behov.

    Examensarbetet fokuserar på företagarnas vilja och behov att implementera en ny teknik för betalning. Uppsatsen har med hjälp av företagsintervjuer, företagsenkäter och fallstudier på tidigare försök till lansering av ny betalningsteknik dragit slutsatserna att intresset bland företagen finns men att de i dagsläget inte ser något behov för tekniken. Kontanter och kort kommer dominera på sikt på bekostnad av en eventuell ny teknik. Det viktigaste för alla betalningsmetoder är säkerheten och att alla ska kunna använda den på ett enkelt sätt. Flera konkurrerande lanseringar simultant skulle skapa förvirring bland såväl kunderna som företagarna.

    En väg till snabbare lansering skulle kunna vara att en befintlig teknik som finns på marknaden används till flera applikationer eller att en storspelare ser en möjlighet i tekniken och lägger mycket resurser på denna. Fördelarna med NFC är inte helt uppenbara för de svenska handlarna och därför kommer inte dessa att leda lanseringen av nya betalningsmetoder.

  • 243. Alexanderson, Petter
    et al.
    Tollmar, Konrad
    Department of Informatics, HCID Group.
    Being and mixing: designing interactive soundscapes2006Ingår i: Proceedings of the 4th Nordic conference on Human-computer interaction: changing roles, 2006, s. 252-261Konferensbidrag (Refereegranskat)
    Abstract [en]

    This paper describes a study of the auditory environment in a chemical factory, and how a group of process operators ascribe meaning to a selection of sound clips from their daily work environment. We argue for a design-oriented phenomenological approach to soundscape studies, and suggest an approach based on an exploration of how already occurring sounds are used. This knowledge will be used to inform the design of new useful auditory environments. Our study shows that the richness of the auditory environment is a crucial aspect of the distributed work environment. An important part of the design process is the operator’s contribution to the concepts suggested. From design workshops several design concepts aiming to explore and test different approaches for making sound affordances available have been developed. This has led us to a new understanding of how interactive soundscapes enable distributed awareness – what we refer to as ’Being and Mixing’.

  • 244.
    Alexanderson, Simon
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.
    Performance, Processing and Perception of Communicative Motion for Avatars and Agents2017Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
    Abstract [en]

    Artificial agents and avatars are designed with a large variety of face and body configurations. Some of these (such as virtual characters in films) may be highly realistic and human-like, while others (such as social robots) have considerably more limited expressive means. In both cases, human motion serves as the model and inspiration for the non-verbal behavior displayed. This thesis focuses on increasing the expressive capacities of artificial agents and avatars using two main strategies: 1) improving the automatic capturing of the most communicative areas for human communication, namely the face and the fingers, and 2) increasing communication clarity by proposing novel ways of eliciting clear and readable non-verbal behavior.

    The first part of the thesis covers automatic methods for capturing and processing motion data. In paper A, we propose a novel dual sensor method for capturing hands and fingers using optical motion capture in combination with low-cost instrumented gloves. The approach circumvents the main problems with marker-based systems and glove-based systems, and it is demonstrated and evaluated on a key-word signing avatar. In paper B, we propose a robust method for automatic labeling of sparse, non-rigid motion capture marker sets, and we evaluate it on a variety of marker configurations for finger and facial capture. In paper C, we propose an automatic method for annotating hand gestures using Hierarchical Hidden Markov Models (HHMMs).

    The second part of the thesis covers studies on creating and evaluating multimodal databases with clear and exaggerated motion. The main idea is that this type of motion is appropriate for agents under certain communicative situations (such as noisy environments) or for agents with reduced expressive degrees of freedom (such as humanoid robots). In paper D, we record motion capture data for a virtual talking head with variable articulation style (normal-to-over articulated). In paper E, we use techniques from mime acting to generate clear non-verbal expressions custom tailored for three agent embodiments (face-and-body, face-only and body-only).

  • 245.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Animated Lombard speech: Motion capture, facial animation and visual intelligibility of speech produced in adverse conditions2014Ingår i: Computer speech & language (Print), ISSN 0885-2308, E-ISSN 1095-8363, Vol. 28, nr 2, s. 607-618Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    In this paper we study the production and perception of speech in diverse conditions for the purposes of accurate, flexible and highly intelligible talking face animation. We recorded audio, video and facial motion capture data of a talker uttering a,set of 180 short sentences, under three conditions: normal speech (in quiet), Lombard speech (in noise), and whispering. We then produced an animated 3D avatar with similar shape and appearance as the original talker and used an error minimization procedure to drive the animated version of the talker in a way that matched the original performance as closely as possible. In a perceptual intelligibility study with degraded audio we then compared the animated talker against the real talker and the audio alone, in terms of audio-visual word recognition rate across the three different production conditions. We found that the visual intelligibility of the animated talker was on par with the real talker for the Lombard and whisper conditions. In addition we created two incongruent conditions where normal speech audio was paired with animated Lombard speech or whispering. When compared to the congruent normal speech condition, Lombard animation yields a significant increase in intelligibility, despite the AV-incongruence. In a separate evaluation, we gathered subjective opinions on the different animations, and found that some degree of incongruence was generally accepted.

  • 246.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Can Anybody Read Me? Motion Capture Recordings for an Adaptable Visual Speech Synthesizer2012Ingår i: In proceedings of The Listening Talker, Edinburgh, UK., 2012, s. 52-52Konferensbidrag (Refereegranskat)
  • 247.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Towards Fully Automated Motion Capture of Signs -- Development and Evaluation of a Key Word Signing Avatar2015Ingår i: ACM Transactions on Accessible Computing, ISSN 1936-7228, Vol. 7, nr 2, s. 7:1-7:17Artikel i tidskrift (Refereegranskat)
    Abstract [en]

    Motion capture of signs provides unique challenges in the field of multimodal data collection. The dense packaging of visual information requires high fidelity and high bandwidth of the captured data. Even though marker-based optical motion capture provides many desirable features such as high accuracy, global fitting, and the ability to record body and face simultaneously, it is not widely used to record finger motion, especially not for articulated and syntactic motion such as signs. Instead, most signing avatar projects use costly instrumented gloves, which require long calibration procedures. In this article, we evaluate the data quality obtained from optical motion capture of isolated signs from Swedish sign language with a large number of low-cost cameras. We also present a novel dual-sensor approach to combine the data with low-cost, five-sensor instrumented gloves to provide a recording method with low manual postprocessing. Finally, we evaluate the collected data and the dual-sensor approach as transferred to a highly stylized avatar. The application of the avatar is a game-based environment for training Key Word Signing (KWS) as augmented and alternative communication (AAC), intended for children with communication disabilities.

  • 248.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    House, David
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Aspects of co-occurring syllables and head nods in spontaneous dialogue2013Ingår i: Proceedings of 12th International Conference on Auditory-Visual Speech Processing (AVSP2013), 2013, s. 169-172Konferensbidrag (Refereegranskat)
    Abstract [en]

    This paper reports on the extraction and analysis of head nods taken from motion capture data of spontaneous dialogue in Swedish. The head nods were extracted automatically and then manually classified in terms of gestures having a beat function or multifunctional gestures. Prosodic features were extracted from syllables co-occurring with the beat gestures. While the peak rotation of the nod is on average aligned with the stressed syllable, the results show considerable variation in fine temporal synchronization. The syllables co-occurring with the gestures generally show greater intensity, higher F0, and greater F0 range when compared to the mean across the entire dialogue. A functional analysis shows that the majority of the syllables belong to words bearing a focal accent.

  • 249.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    House, David
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Extracting and analysing co-speech head gestures from motion-capture data2013Ingår i: Proceedings of Fonetik 2013 / [ed] Eklund, Robert, Linköping University Electronic Press, 2013, s. 1-4Konferensbidrag (Refereegranskat)
  • 250.
    Alexanderson, Simon
    et al.
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    House, David
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Beskow, Jonas
    KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
    Extracting and analyzing head movements accompanying spontaneous dialogue2013Ingår i: Conference Proceedings TiGeR 2013: Tilburg Gesture Research Meeting, 2013Konferensbidrag (Refereegranskat)
    Abstract [en]

    This paper reports on a method developed for extracting and analyzing head gestures taken from motion capture data of spontaneous dialogue in Swedish. Candidate head gestures with beat function were extracted automatically and then manually classified using a 3D player which displays timesynced audio and 3D point data of the motion capture markers together with animated characters. Prosodic features were extracted from syllables co-occurring with a subset of the classified gestures. The beat gestures show considerable variation in temporal synchronization with the syllables, while the syllables generally show greater intensity, higher F0, and greater F0 range when compared to the mean across the entire dialogue. Additional features for further analysis and automatic classification of the head gestures are discussed.

2345678 201 - 250 av 11813
RefereraExporteraLänk till träfflistan
Permanent länk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf