CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Investigating Deep Learning algorithms for end-to-end language-based interaction with domestic robots
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Undersökning av djupinlärningsalgoritmer för helautomatiserade språkbaserade interaktioner med hushållsrobotar (Swedish)
Abstract [en]

A socially assistive robot capable of helping with domestic work through understanding natural language instructions is still considered a difficult challenge. This work investigates how deep learning algorithms could help us to achieve this goal. Specifically, it focuses on solving the problem of enabling robots to identify objects while navigating in a house environment with language-based interactions. The proposed challenge is solved by implementing three different models. The first model relates the home objects to its typical locations in home regions by solving a classification problem through a neural network architecture. The second model is focused on navigating by understanding language-based commands. This model is solved through a LSTM-based sequence-to-sequence model with an attention mechanism over the language instructions, based on Anderson et al. [1] work. Finally, the third one is centered on identifying the target object by comprehending its associated referring expression. This last model is based on Hatori et al. [2] listener model. Each model is evaluated by using different data-sets suitable to the task. To accomplish the thesis, Matterport3D simulator is used as the main home environment. The purpose of this work is to analyse and study the limitations of the current solutions and the possible problems that we could face when implementing this in a real scenario. Hence, limitations and conclusions from each of the steps are properly stated.

Abstract [sv]

Att konstruera en robot som är kapabel att hjälpa till med hushållsarbete genom förståelse av naturligt språk anses fortfarande vara en svår uppgift. Detta arbete undersöker hur djupinläringsalgoritmer kan hjälpa oss att lösa denna uppgift. Specifikt, så fokuseras det på att lösa problemen som gör det möjligt för roboten att identifiera objekt under navigering i en hemmiljö. Problemet löses genom implementering av tre olika modeller. Första modellen relaterar till föremålen i ett hem genom deras typiska lägen i hemmet genom att lösa ett sorteringsproblem med hjälp av neural nätverksarkitektur. Den andra modellen fokuserar på navigering genom förståelse av språk-baserade kommandon. Denna modell har lösts genom en LSTM-baserad sequence-to-sequence-modell med en ’attention’-mekanism över språkinstruktionerna, baserat på Anderson m. fl. Anderson m. fl. [1] arbete. Slutligen, den tredje koncentreras på identifiering av objekten genom att förstå dess associerade uttryck. Denna sista modell är baserad på Hatori m. fl. Hatori m. fl. [2] listener-modell. Varje model utvärderas genom användning av olika datamängder som är lämpliga för uppgiften. I examensarbetet så har Matterport3D-simulatorn använts som huvudlig hemmiljö. Syftet med detta arbete är att analysera och studera begränsningarna hos de nuvarande lösningarna men även de möjliga problem som kan uppstå vid implementering i en riktig miljö. Det är därför begränsningar och resultat från varje steg är ordentligt angivna.

Place, publisher, year, edition, pages
2019. , p. 64
Series
TRITA-EECS-EX ; 2019:771
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-271181OAI: oai:DiVA.org:kth-271181DiVA, id: diva2:1415898
Subject / course
Computer Science
Educational program
Master of Science - Machine Learning
Supervisors
Examiners
Available from: 2020-03-20 Created: 2020-03-20 Last updated: 2020-03-20Bibliographically approved

Open Access in DiVA

fulltext(6094 kB)5 downloads
File information
File name FULLTEXT01.pdfFile size 6094 kBChecksum SHA-512
40d1dbad3e50eb63cb5a36833b687a934161a448db4d213719880b46041b9042fea379389855e47fa713a3978fa956c858c9fd192d82f18da5df250cbd8e4579
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 5 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 18 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf