Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Fyra-i-rad med förstärkt inlärning – En implementation av Q-learning.
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2011 (Swedish)Independent thesis Advanced level (professional degree), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

Machine learing is an umbrella term for certain types of learning algorithms in artificial intelligence. The purpose of machine learning is to make programs learn to performe tasks in accordance to certain given conditions. Reinforced learning is an area within machine learning which is all about making the program learn what is a good action by being rewarded. One algorithm based on reinforcement learning is the Q-learning algorithm. It uses a table containing values for each state it has encountered. The table is updated with new values when new rewards are awarded by actions it has performed in the environment. This report describes how Q-learning can be implemented an how our implemention behaves against three different adversaries. The purpose of this report is to investigate how the Q-learning learning vaiable α affects the rate of learning and for which values this implementation can performe optimaly. Our best result was α=0.9.

Abstract [sv]

Maskininlärning täcker de områden inom artificiell intelligens som handlar om en typ av inlärningsalgoritmer där program ska lära sig att utföra uppgifter utifrån de givna förutsättningarna. Förstärkt inlärning är ett område inom maskininlärningen som syftar på att programmet ska lära sig vad som är en bra handling genom att handlingarna belönas. En algoritm som bygger på förstärkt inlärning är Q-learning. Den använder sig av en tabell med ett värde för varje tillstånd. Tabellen uppdaterar sina värden när nya belöningar blir utdelade på grund av beslut i miljön. Denna rapport beskriver hur Q-learning kan implementeras och hur implementationen beter sig mot tre olika artificiella motspelare. Syftet med denna rapport är att undersöka hur Q-learnings inlärningsvariabel α påverkar inlärningshastigheten och för vilka värden en implementation kan tänkas fungera som bäst. Vårt bästa resultat fick vi då α=0.9.

Place, publisher, year, edition, pages
2011.
Series
Kandidatexjobb CSC, K11053
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130834OAI: oai:DiVA.org:kth-130834DiVA: diva2:654281
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.csc.kth.se/utbildning/kandidatexjobb/datateknik/2011/rapport/janson_christoffer_OCH_landefjord_carl_K11053.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 52 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf