Inspired by related psychological theory, in computer science, reinforcement learning is a sub-area of machine learning concerned with how an agent ought to take actions in an environment so as to maximize some notion of long-term reward. Reinforcement learning algorithms attempt to find a policy that maps states of the world to the actions the agent ought to take in those states.

PropertyValue
dbpprop:abstract
  • Inspired by related psychological theory, in computer science, reinforcement learning is a sub-area of machine learning concerned with how an agent ought to take actions in an environment so as to maximize some notion of long-term reward. Reinforcement learning algorithms attempt to find a policy that maps states of the world to the actions the agent ought to take in those states. In economics and game theory, reinforcement learning is considered as a boundedly rational interpretation of how equilibrium may arise. The environment is typically formulated as a finite-state Markov decision process (MDP), and reinforcement learning algorithms for this context are highly related to dynamic programming techniques. State transition probabilities and reward probabilities in the MDP are typically stochastic but stationary over the course of the problem. Reinforcement learning differs from the supervised learning problem in that correct input/output pairs are never presented, nor sub-optimal actions explicitly corrected. Further, there is a focus on on-line performance, which involves finding a balance between exploration (of uncharted territory) and exploitation (of current knowledge). The exploration vs. exploitation trade-off in reinforcement learning has been mostly studied through the multi-armed bandit problem. Formally, the basic reinforcement learning model, as applied to MDPs, consists of: # a set of environment states <math>S</math>; a set of actions <math>A</math>; and a set of scalar "rewards" in <math> \Bbb{R}</math>. At each time <math>t</math>, the agent perceives its state <math>s_t \in S</math> and the set of possible actions <math>A(s_t)</math>. It chooses an action <math>a \in A(s_t)</math> and receives from the environment the new state <math>s_{t+1}</math> and a reward <math>r_{t+1}</math>. Based on these interactions, the reinforcement learning agent must develop a policy <math>\pi:S\rightarrow A</math> which maximizes the quantity <math>R=r_0 + r_1 + \cdots + r_n</math> for MDPs which have a terminal state, or the quantity <math> R = \sum_t \gamma^t r_t </math> for MDPs without terminal states (where <math>0\leq\gamma\leq1</math> is some "future reward" discounting factor). Thus, reinforcement learning is particularly well suited to problems which include a long-term versus short-term reward trade-off. It has been applied successfully to various problems, including robot control, elevator scheduling, telecommunications, backgammon and chess.
  • Bestärkendes Lernen bzw. Verstärkendes Lernen ist eine Variante des Maschinellen Lernens, bei dem ein Agent (ein Computerprogramm) lediglich durch ein System von Belohnung und Bestrafung lernt, seinen Nutzen zu optimieren.
  • Vahvistusoppiminen on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi. Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte-tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä. Vahvistusoppimisen perusmalliin kuuluvat: tilajoukko S toimintojoukko A ja palkkioiden joukko, jossa r <math>\in \Bbb{R}</math>. Kullakin hetkellä t agentti havaitsee tilan st <math>\in</math> S ja mahdollisten toimintojen joukon A(st). Agentti valitsee toiminnon a<math>\in</math>A(st) ja saa ympäristöltä uuden tilan st+1 sekä palkkion rt+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan π:S<math>\rightarrow</math>A, joka maksimoi summan R=r0+r1+... +rn Markovin päätösprosesseille joilla on lopputila, tai summan R=Σtγrt prosesseille, joilla ei ole lopputilaa.
  • L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense numérique au cours du temps. Un paradigme classique pour présenter les problèmes d'apprentissage par renforcement consiste à considérer un agent autonome, plongé au sein d'un environnement, et qui doit prendre des décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.
  • L'Apprendimento per rinforzo è una filosofia di programmazione che punta a realizzare algoritmi in grado di apprendere e adattarsi alle mutazioni dell'ambiente. Questa tecnica di programmazione si basa sul presupposto di potere ricevere degli stimoli dall'esterno a seconda delle scelte dell'algoritmo. Quindi una scelta corretta comporterà un premio mentre una scelta scorretta porterà ad una penalizzazione del sistema. L'obiettivo del sistema è il raggiungimento del maggior premio possibile e di conseguenza del migliore risultato possibile. Le tecniche legate all'apprendimento per rinforzo si dividono in due categorie: Algoritmi ad apprendimento continuo: Queste tecniche partono dal presupposto di disporre di un meccanismo semplice in grado di valutare le scelte dell'algoritmo e quindi premiare o punire l'algoritmo a seconda del risultato. Queste tecniche sono in grado di adattarsi anche a delle modifiche sostanziali dell'ambiente. Un esempio sono i programmi di riconoscimento del parlato o i programmi di OCR che con l'utilizzo migliorano le loro prestazioni. Algoritmi ad addestramento preventivo: Questi algoritmi partono dalla constatazione che valutare costantemente le azioni dell'algoritmo può essere un procedimento non automatizzabile oppure molto costoso e in questo caso si applica una prima fase in cui si istruisce l'algoritmo e quando il sistema viene ritenuto affidabile viene cristallizzato e reso non più modificabile. Molti componenti elettronici usano delle reti neurali al loro interno, e i pesi sinaptici di queste reti non sono modificabili dato che sono fissati durante la realizzazione del circuito. Da notare che le categorie sopraelencate sono delle scelte implementative più che delle differenze concettuali dell'algoritmo e quindi spesso un algoritmo può ricadere della prima o nella seconda categoria a seconda di come viene implementato dal progettista. Principali algoritmi: Reti neurali Algoritmi genetici o evolutivi Sistemi a classificatori
  • 強化学習(きょうかがくしゅう, Reinforcement Learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。 最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。 強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、教師あり学習とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用していく行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下でのロボットの行動獲得に良く用いられる。
  • Обучение с подкреплением — способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или ее модель. Так же нужно иметь ввиду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае ИНС, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.
  • 强化学习是人工智能中策略学习的一种,基于预期最大利益原则。和博弈论有密切的关系,也是多主体系统学习的常用方法。
dbpprop:forProperty
  • Reinforcement
  • reinforcement learning in psychology
dbpprop:hasPhotoCollection
dbpprop:reference
dbpprop:wikiPageUsesTemplate
rdfs:comment
  • Inspired by related psychological theory, in computer science, reinforcement learning is a sub-area of machine learning concerned with how an agent ought to take actions in an environment so as to maximize some notion of long-term reward. Reinforcement learning algorithms attempt to find a policy that maps states of the world to the actions the agent ought to take in those states.
  • Bestärkendes Lernen bzw. Verstärkendes Lernen ist eine Variante des Maschinellen Lernens, bei dem ein Agent (ein Computerprogramm) lediglich durch ein System von Belohnung und Bestrafung lernt, seinen Nutzen zu optimieren.
  • Vahvistusoppiminen on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.
  • L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense numérique au cours du temps.
  • L'Apprendimento per rinforzo è una filosofia di programmazione che punta a realizzare algoritmi in grado di apprendere e adattarsi alle mutazioni dell'ambiente. Questa tecnica di programmazione si basa sul presupposto di potere ricevere degli stimoli dall'esterno a seconda delle scelte dell'algoritmo. Quindi una scelta corretta comporterà un premio mentre una scelta scorretta porterà ad una penalizzazione del sistema.
  • Обучение с подкреплением — способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой.
  • 强化学习是人工智能中策略学习的一种,基于预期最大利益原则。和博弈论有密切的关系,也是多主体系统学习的常用方法。
rdfs:label
  • Reinforcement learning
  • Bestärkendes Lernen
  • Vahvistusoppiminen
  • Apprentissage par renforcement
  • Apprendimento per rinforzo
  • 強化学習
  • Обучение с подкреплением
  • 强化学习
owl:sameAs
skos:subject
foaf:page
is dbpprop:redirect of