kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Googles röstgränssnitts lämplighet för användning i en röstbaserad medicinteknisk tjänst
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems.
2022 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
The Suitability of Google Speech API for Use in a Voice-Based Medical Device Service (English)
Abstract [sv]

I detta projekt har Googles röstgränssnitt (eng: Google Cloud Speech API) utvärderats utifrån syftet att skapa ett program som ska identifiera en person baserat på dess röst. Detta projekt gjordes tillsammans med ett företager Call Knut vars mål är att utforma en tjänst som bygger på AI teknik som ska ringa upp till äldre. Eftersom tjänsten riktar sig mot äldre vill företaget Call Knut ha ett program som kan identifiera de äldre baserat på rösten. 

Ett program skapades med hjälp av Googles röstgränssnitt för att transkribera och urskilja två röster i en ljudfil. Därefter samlades det in ljudfiler från olika personer i ett brett åldersspann och ljudfilerna kombinerades. De kombinerade ljudfilerna analyserades sedan för att kunna verifiera om Googles röstgränssnitt är optimalt för ändamålet. I 29,2 % av de kombinerade ljudfilerna lyckades Googles röstgränssnitt med att både urskilja och transkribera. Totalt misslyckades Googles röstgränssnitt med 70,8 % av inmatningarna. 

Vår slutsats blev att Googles röstgränssnitt inte är lämpligt att använda för att utveckla Call Knuts planerade tjänst där rösturskiljningen måste fungera med hög precision. Vidare utvecklingsarbete rekommenderas att fokusera på att testa andra program eller röstgränssnitt. 

Abstract [en]

In this project, the Google Speech API has been evaluated based on the purpose of creating a program that will identify a person based on their voice. This project is done together with a company called Call Knut whose goal is to design a service based on AI technology that will call the elderly. Since the service is aimed at the elderly, Call Knut wants a program that can identify the elderly based on their voice. 

An application was created using the Google Speech API to transcribe and distinguish two voices in an audio file. Then audio files were collected from different people in a wide age range and audio files were combined. The combined audio files were then analyzed to verify whether the Google Cloud interface is optimal for the purpose. In 29.2 % of the combined audio files Google Speech API managed to both distinguish two voices and transcribe what they said. In total, Google Speech API failed with 70.8 % of the entries. 

Our conclusion was that Google's voice interface is not suitable to use to develop Call Knut’s planned service where voice recognition must work with high precision. Further development work is recommended to focus on testing other programs or voice interfaces. 

Place, publisher, year, edition, pages
2022. , p. 56
Series
TRITA-CBH-GRU ; 2022:158
Keywords [en]
Google Speech API, transcribe, voice, speech recognition
Keywords [sv]
Googles röstgränssnitt, röst, tal, transkribering, taligenkänning
National Category
Other Medical Engineering
Identifiers
URN: urn:nbn:se:kth:diva-316593OAI: oai:DiVA.org:kth-316593DiVA, id: diva2:1689640
External cooperation
Call Knut
Subject / course
Medical Engineering
Educational program
Master of Science in Engineering - Medical Engineering
Supervisors
Examiners
Available from: 2022-09-08 Created: 2022-08-23 Last updated: 2022-09-08Bibliographically approved

Open Access in DiVA

fulltext(10794 kB)132 downloads
File information
File name FULLTEXT01.pdfFile size 10794 kBChecksum SHA-512
bf9cb12d573e73db79b16d3e478067cfed96a0a1675febe4e3fbef664ba125004315190446aad34ad9cc7e1980d6d9d635e751bb1db07a9ccc821b524e47dfb7
Type fulltextMimetype application/pdf

By organisation
Biomedical Engineering and Health Systems
Other Medical Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 132 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 251 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf