kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
aiLangu - Real-time Transcription and Translation to Reduce Language Barriers: An Engineering Project to Develop an Application for Enhancing Human Verbal Communication
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
aiLangu - realtids transkribering och översättning för att reducera språkbarriärer : Ett ingenjörsarbete som utvecklar en applikation för att förbättra mänsklig verbal kommunikation (Swedish)
Abstract [en]

The research area this report relates to is real-time automatic transcription and translation. The purpose of the work done for the report is to reduce the perceived language barriers online and to make a user-friendly application to make use of the latest deep learning technology to transcribe and translate in real-time. This application could be used in a work environment (especially when working from home) and for leisure activities such as watching videos. There is currently most likely no application that uses automatic speech recognition in this way. The most similar applications that were found were mainly similar to Google Translate which are not meant for real-time usage on a computer but rather to wait for an input and then write it out when it is completely done. The application created for this purpose was a desktop application that combines Open-AI's Whisper model for transcription and Argos Translate for translation into one application with a user-friendly GUI created with Java Swing. For creating the application, an iterative and incremental methodology was used both for the GUI design and the software development. In the end, the development was successful resulting in a working desktop application accomplishing the goals of transcribing and translating in real-time with the user of a user-friendly application, which could for example easily be used for digital meetings or videos online.

Abstract [sv]

Det område som denna rapport handlar om är automatisk transkription och översättning i realtid. Syftet med arbetet som gjorts för rapporten är att minska de upplevda digitala språkbarriärerna och att göra en användarvänlig applikation för att använda den senaste djup maskininlärnings teknologin för att transkribera och översätta i realtid. Just nu finns det med största sannolikhet inget program som använder automatisk röstigenkänning på detta sätt. De mest liknande applikationerna som var funna är sådanna som liknar Google Translate, men dessa är inte skapade för anvädning i realtid utan istället för att höra hela indatan och sedan skriva ut hela resultatet. Applikationen som skapades med detta syfte var en datorapplikation som kombinerar Open-AIs Whisper-modell för transkription och Argos Translate för översättning till en applikation med ett användarvänligt grafiskt användargränssnitt skapat med Java Swing. För att skapa applikationen användes en iterativ och inkrementell metodik både för den grafiska användargränssnittsdesignen och mjukvaruutvecklingen. Resultatet var lyckat vilket ledde till en fungerande dator applikation som uppnådde målen att transkribera och översätta i realtid med en användarvänlig applikation.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2023. , p. 82
Series
TRITA-EECS-EX ; 2023:385
Keywords [en]
Sound transcription, Sound translation, AI, Deep learning, Real-time, Language barrier, Concurrency
Keywords [sv]
Ljud transkription, Ljud översättning, AI, Djupinlärning, Real-tid, Språkbarriär, Samtidighet
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-329785OAI: oai:DiVA.org:kth-329785DiVA, id: diva2:1773922
Educational program
Bachelor of Science - Simulation Technology and Virtual Design
Supervisors
Examiners
Available from: 2023-06-28 Created: 2023-06-23 Last updated: 2023-06-28Bibliographically approved

Open Access in DiVA

fulltext(1341 kB)991 downloads
File information
File name FULLTEXT01.pdfFile size 1341 kBChecksum SHA-512
3f38c110d094de292dfdcdeff03c93dc966f2af44de9aec2b6b17229e715cd2c1ba3d6a754d613841a6573f05709ac3728f663750fc7673a1c6e84fc4caa012f
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Ringström1, VincentAlvarez Funcke, Iley
By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 992 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1060 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf