An Entity of Type: software, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Temporal difference (TD) learning refers to a class of model-free reinforcement learning methods which learn by bootstrapping from the current estimate of the value function. These methods sample from the environment, like Monte Carlo methods, and perform updates based on current estimates, like dynamic programming methods. Temporal difference methods are related to the temporal difference model of animal learning.

Property Value
dbo:abstract
  • تعلم الفرق الزمني أو التعلم من الفارق الزمني (بالإنجليزية: Temporal difference learning)‏ هو قسمٌ من طرق التعلم بالتعزيز حرة النموذج، تتعلم بواسطة من التقدير الحالي . تأخذ هذه الطرق عينات من المحيط، مثل طرق مونت كارلو وتقوم بتحديثات مبنية على التقديرات الحالية، مثل طرق البرمجة الديناميكية. في حين أن طرق مونت كارلو لا تعدل قيمها سوى عند معرفة النتيجة النهائية، تعدل طرق تعلم الفرق الزمني التوقعات لتطابق توقعات لاحقة، أكثر دقة حول المستقبل وذلك قبل معرفة النتيجة النهائية. هذه الهيئة من موضحة في المثال التالي: افترض أنك تريد توقع الجو ليوم السبت، وتملك نموذجا ما يقوم بتوقع الجو يوم السبت، بالأخذ في الحسبان الجو في كل يوم من أيام الأسبوع. في الحالة القياسية، ستنتظر حتى يوم السبت ثم تعدل جميع نماذجك. لكن -على سبيل المثال- حين يحل يوم الجمعة يُفترض أن تكون لديك فكرة جيدة كيف سيكون الجو يوم السبت، ومنه تكون قادرا على تغيير نموذج يوم السبت قبل حلوله. طرق التعلم بالفارق الزمني لها علاقة بنموذج الفارق الزمني الذي تتعلم به الحيوانات. (ar)
  • Temporal Difference Learning (auch TD-Learning) ist eine Methode des bestärkenden Lernens. Beim bestärkenden Lernen erhält ein Agent nach einer Reihe von Aktionen eine Belohnung und passt seine Strategie an, um die Belohnung zu maximieren. Ein Agent mit einem TD-Learning-Algorithmus macht die Anpassung nicht erst, wenn er die Belohnung erhält, sondern nach jeder Aktion auf Basis einer geschätzten erwarteten Belohnung. (de)
  • Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. (fr)
  • Temporal difference (TD) learning refers to a class of model-free reinforcement learning methods which learn by bootstrapping from the current estimate of the value function. These methods sample from the environment, like Monte Carlo methods, and perform updates based on current estimates, like dynamic programming methods. While Monte Carlo methods only adjust their estimates once the final outcome is known, TD methods adjust predictions to match later, more accurate, predictions about the future before the final outcome is known. This is a form of bootstrapping, as illustrated with the following example: "Suppose you wish to predict the weather for Saturday, and you have some model that predicts Saturday's weather, given the weather of each day in the week. In the standard case, you would wait until Saturday and then adjust all your models. However, when it is, for example, Friday, you should have a pretty good idea of what the weather would be on Saturday – and thus be able to change, say, Saturday's model before Saturday arrives." Temporal difference methods are related to the temporal difference model of animal learning. (en)
  • Il temporal difference (TD) learning, ovvero l'apprendimento mediante differenza temporale, indica una classe di metodi di reinforcement learning che basano il proprio apprendimento sul bootstrap dalla stima corrente della funzione obiettivo: questi metodi campionano dall'ambiente, così come il Metodo Monte Carlo, ma eseguono gli aggiornamenti della funzione di valore di stato basandosi sulle stime correnti, come avviene, invece, nella programmazione dinamica. A differenza dei metodi Monte Carlo che modificano le loro stime solo quando il risultato finale è noto, questi metodi di distanza temporale adattano le proprie previsioni in modo dinamico, così da avere previsioni sul futuro più accurate, prima ancora che il risultato finale sia a disposizione. Questa è, appunto, una forma di bootstrap, come si evince dal seguente esempio: "Supponi di voler prevedere il tempo per sabato e di avere un modello che prevede il tempo di sabato, avendo a disposizione il clima di ogni giorno della settimana. Di norma, aspetteresti fino a sabato e solo allora aggiusterai tutti i tuoi modelli. Tuttavia, quando è, ad esempio, venerdì, dovresti già avere una buona idea di come potrebbe essere il tempo sabato - e quindi essere in grado di cambiare, diciamo, il modello di sabato prima dell'arrivo di sabato". I metodi di differenza temporale sono in stretta correlazione al modello di differenza temporale dell'apprendimento animale. (it)
  • 시간차 학습(Temporal difference learning)은 예측 기반 기계 학습의 한 방법이다. 시간차 학습은 주로 강화 학습 문제에 사용되며, "몬테카를로 방법과 동적 계획법의 조합"이라고 불리기도 한다. 이는 시간차 학습이 어떤 정책에 따라 환경을 표집하여 학습을 진행하는 몬테 카를로 방법의 특징과, 과거에 학습한 추정치를 사용하여 현재의 추정치를 구하는 동적 계획법의 특징을 지니고 있기 때문이다. 시간차 학습 알고리즘은 동물들의 시간차 학습 모델과도 관련이 있다. 시간차 학습은 이어지는 예측들이 어떤 식으로 관련되어 있다고 생각한다. 일반적인 예측 기반 지도 학습에서는 오직 실제로 관측된 값을 통해서만 학습이 이루어진다. 즉, 예측을 하고, 결과가 관측되면, 비로소 관측된 결과에 더 잘 부합하도록 예측 메커니즘이 수정된다. 리처드 서튼이 잘 설명하듯, 시간차 학습의 핵심 아이디어는 예측이 관측된 결과 뿐만이 아니라 미래에 대한 다른 예측에 잘 부합하도록 수정된다는 것이다. 이러한 과정은 부트스트랩이라고 불린다. 다음의 예시를 보자. "당신이 토요일의 날씨를 예측하고 싶어한다고 해 보자. 그리고 당신은 주간 날씨 정보가 주어졌을 때 토요일의 날씨를 예측할 수 있는 어떤 모델을 가지고 있다고 하자. 일반적인 알고리즘의 경우에, 당신은 토요일까지 기다렸다가 당신의 모델을 한꺼번에 수정할 것이다. 그러나, 가령 금요일이 되었을 때, 당신은 이미 토요일의 날씨가 어떨지 대강 예측할 수 있을 것이다. 따라서 토요일이 되기 전에 월요일의 모델을 수정할 수 있게 될 것이다." 수학적으로 말하면, 일반적인 알고리즘과 시간차 학습 알고리즘은 모두 어떤 확률 변수 의 기댓값 에 대한 예측의 오차와 관련된 어떤 비용 함수(cost function)를 최적화하려 할 것이다. 그러나, 일반적인 알고리즘은 (는 관측치)라고 가정하는 반면, 시간차 학습은 어떤 모델을 사용한다. 특별히 시간차 학습이 주요하게 사용되는 강화 학습의 경우에는, 총 보상을 나타내는 에 대하여, 는 보상에 대한 으로 주어진다. (ko)
  • Метод часових різниць (англ. Temporal difference learning) належить до безмодельних методів навчання з підкріпленням, які навчаються за допомогою бутстрепу з поточного значення функції цінності. Цей метод робить вибірку із середовища, як методи Монте-Карло, і оновлюється на основі поточної оцінки функції цінностей, як методи динамічного програмування. У той час як методи Монте-Карло змінюють свої оцінки лише після того, як відомий кінцевий результат, методи ЧР коригують прогноз, підлаштовуючись під новіші більш точні прогнози до того, як остаточний результат стане відомим. Це є формою бутстрепу, як показано на такому прикладі: «Припустимо, ви хочете передбачити погоду на суботу, і у вас є модель, яка передбачає погоду в суботу, враховуючи погоду кожного дня тижня. У стандартному випадку потрібно почекати до суботи, а потім налаштувати всі свої моделі. Однак, коли, наприклад, вже настала п'ятниця, то ви повинні мати досить добре уявлення про погоду в суботу — і таким чином мати можливість змінити суботню модель до настання суботи». Метод часових різниць має зв'язок з моделлю часових різниць навчання тварин. (uk)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 1209759 (xsd:integer)
dbo:wikiPageLength
  • 12859 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1119049753 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • Temporal Difference Learning (auch TD-Learning) ist eine Methode des bestärkenden Lernens. Beim bestärkenden Lernen erhält ein Agent nach einer Reihe von Aktionen eine Belohnung und passt seine Strategie an, um die Belohnung zu maximieren. Ein Agent mit einem TD-Learning-Algorithmus macht die Anpassung nicht erst, wenn er die Belohnung erhält, sondern nach jeder Aktion auf Basis einer geschätzten erwarteten Belohnung. (de)
  • Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. (fr)
  • تعلم الفرق الزمني أو التعلم من الفارق الزمني (بالإنجليزية: Temporal difference learning)‏ هو قسمٌ من طرق التعلم بالتعزيز حرة النموذج، تتعلم بواسطة من التقدير الحالي . تأخذ هذه الطرق عينات من المحيط، مثل طرق مونت كارلو وتقوم بتحديثات مبنية على التقديرات الحالية، مثل طرق البرمجة الديناميكية. في حين أن طرق مونت كارلو لا تعدل قيمها سوى عند معرفة النتيجة النهائية، تعدل طرق تعلم الفرق الزمني التوقعات لتطابق توقعات لاحقة، أكثر دقة حول المستقبل وذلك قبل معرفة النتيجة النهائية. هذه الهيئة من موضحة في المثال التالي: طرق التعلم بالفارق الزمني لها علاقة بنموذج الفارق الزمني الذي تتعلم به الحيوانات. (ar)
  • Temporal difference (TD) learning refers to a class of model-free reinforcement learning methods which learn by bootstrapping from the current estimate of the value function. These methods sample from the environment, like Monte Carlo methods, and perform updates based on current estimates, like dynamic programming methods. Temporal difference methods are related to the temporal difference model of animal learning. (en)
  • 시간차 학습(Temporal difference learning)은 예측 기반 기계 학습의 한 방법이다. 시간차 학습은 주로 강화 학습 문제에 사용되며, "몬테카를로 방법과 동적 계획법의 조합"이라고 불리기도 한다. 이는 시간차 학습이 어떤 정책에 따라 환경을 표집하여 학습을 진행하는 몬테 카를로 방법의 특징과, 과거에 학습한 추정치를 사용하여 현재의 추정치를 구하는 동적 계획법의 특징을 지니고 있기 때문이다. 시간차 학습 알고리즘은 동물들의 시간차 학습 모델과도 관련이 있다. 시간차 학습은 이어지는 예측들이 어떤 식으로 관련되어 있다고 생각한다. 일반적인 예측 기반 지도 학습에서는 오직 실제로 관측된 값을 통해서만 학습이 이루어진다. 즉, 예측을 하고, 결과가 관측되면, 비로소 관측된 결과에 더 잘 부합하도록 예측 메커니즘이 수정된다. 리처드 서튼이 잘 설명하듯, 시간차 학습의 핵심 아이디어는 예측이 관측된 결과 뿐만이 아니라 미래에 대한 다른 예측에 잘 부합하도록 수정된다는 것이다. 이러한 과정은 부트스트랩이라고 불린다. 다음의 예시를 보자. (ko)
  • Il temporal difference (TD) learning, ovvero l'apprendimento mediante differenza temporale, indica una classe di metodi di reinforcement learning che basano il proprio apprendimento sul bootstrap dalla stima corrente della funzione obiettivo: questi metodi campionano dall'ambiente, così come il Metodo Monte Carlo, ma eseguono gli aggiornamenti della funzione di valore di stato basandosi sulle stime correnti, come avviene, invece, nella programmazione dinamica. I metodi di differenza temporale sono in stretta correlazione al modello di differenza temporale dell'apprendimento animale. (it)
  • Метод часових різниць (англ. Temporal difference learning) належить до безмодельних методів навчання з підкріпленням, які навчаються за допомогою бутстрепу з поточного значення функції цінності. Цей метод робить вибірку із середовища, як методи Монте-Карло, і оновлюється на основі поточної оцінки функції цінностей, як методи динамічного програмування. Метод часових різниць має зв'язок з моделлю часових різниць навчання тварин. (uk)
rdfs:label
  • تعلم الفرق الزمني (ar)
  • Temporal Difference Learning (de)
  • Temporal difference learning (fr)
  • Temporal difference learning (it)
  • 시간차 학습 (ko)
  • Temporal difference learning (en)
  • Метод часових різниць (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:knownFor of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is dbp:knownFor of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License