An Entity of Type: disease, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

In probability theory and machine learning, the multi-armed bandit problem (sometimes called the K- or N-armed bandit problem) is a problem in which a fixed limited set of resources must be allocated between competing (alternative) choices in a way that maximizes their expected gain, when each choice's properties are only partially known at the time of allocation, and may become better understood as time passes or by allocating resources to the choice. This is a classic reinforcement learning problem that exemplifies the exploration–exploitation tradeoff dilemma. The name comes from imagining a gambler at a row of slot machines (sometimes known as "one-armed bandits"), who has to decide which machines to play, how many times to play each machine and in which order to play them, and whether

Property Value
dbo:abstract
  • El problema de la màquina escurabutxaques es pot esquematitzar de la manera següent: * S'és davant dues màquines escurabutxaques * L'una, , està en funcionament. Retorna per tant 1 euro per fitxa amb una probabilitat coneguda. * L'altra, , està espatllada, i retorna per tant 1 euro per fitxa amb una probabilitat desconeguda. * Es disposa de fitxes. Què fer per maximitzar raonablement el guany ? (ca)
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. En versiones iniciales de este problema, el jugador no tiene información inicial sobre las máquinas. El compromiso esencial que el jugador debe abordar en cada iteración es entonces entre la explotación de la máquina con mayor recompensa esperada y la exploración del resto para obtener más información sobre las recompensas esperadas de las demás tragaperras. Este compromiso entre exploración y explotación también aparece en el contexto de aprendizaje reforzado (reinforced learning). * Datos: Q2882343 (es)
  • In probability theory and machine learning, the multi-armed bandit problem (sometimes called the K- or N-armed bandit problem) is a problem in which a fixed limited set of resources must be allocated between competing (alternative) choices in a way that maximizes their expected gain, when each choice's properties are only partially known at the time of allocation, and may become better understood as time passes or by allocating resources to the choice. This is a classic reinforcement learning problem that exemplifies the exploration–exploitation tradeoff dilemma. The name comes from imagining a gambler at a row of slot machines (sometimes known as "one-armed bandits"), who has to decide which machines to play, how many times to play each machine and in which order to play them, and whether to continue with the current machine or try a different machine. The multi-armed bandit problem also falls into the broad category of stochastic scheduling. In the problem, each machine provides a random reward from a probability distribution specific to that machine, that is not known a-priori. The objective of the gambler is to maximize the sum of rewards earned through a sequence of lever pulls. The crucial tradeoff the gambler faces at each trial is between "exploitation" of the machine that has the highest expected payoff and "exploration" to get more information about the expected payoffs of the other machines. The trade-off between exploration and exploitation is also faced in machine learning. In practice, multi-armed bandits have been used to model problems such as managing research projects in a large organization, like a science foundation or a pharmaceutical company. In early versions of the problem, the gambler begins with no initial knowledge about the machines. Herbert Robbins in 1952, realizing the importance of the problem, constructed convergent population selection strategies in "some aspects of the sequential design of experiments". A theorem, the Gittins index, first published by John C. Gittins, gives an optimal policy for maximizing the expected discounted reward. (en)
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle récompense beaucoup) et exploration (tester une autre machine pour espérer gagner plus). Le problème de bandit manchot peut être vu comme un processus de décision markovien avec un seul état. (fr)
  • 多腕バンディット問題(たわんばんでぃっともんだい、Multi-armed bandit problem)は、確率論と機械学習において、一定の限られた資源のセットを競合する選択肢間で、期待利得を最大化するように配分しなければならない問題。それぞれの選択肢の特性が、配分時には一部しか分かっておらず、時間が経過したり選択肢に資源が配分されることで理解できる可能性がある。これは、探索 exploration と搾取 exploitation のトレードオフのジレンマを例証する古典的な強化学習の問題である。この名前は、スロットマシン(単腕バンディットとも呼ばれる)の列で、どのマシンをプレイするか、各マシンを何回プレイするか、どの順番でプレイするか、現在のマシンを続けるか別のマシンを試すかを決めなければならないギャンブラーを想像することに由来している。多腕バンディット問題も、広義の確率的スケジューリングに分類される。 (ja)
  • У теорії ймовірностей та машинному навчанні задача багаторукого бандита (яку іноді називають задачею K- або N-рукого бандита) — це задача розподілу обмеженої множини ресурсів між конкуруючими альтернативами таким чином, щоб максимізувати очікуваний виграш, коли властивості кожного варіанту відомі лише частково на момент ухвалення рішення, і можуть стати краще зрозумілими з плином часу або шляхом розподілу ресурсів для реалізації варіанту. Це класична задача навчання з підкріпленням, яка є прикладом дилеми балансу між дослідженням та розвідкою. Назва походить від уявного гравця на низці ігрових автоматів (їх часто називають «однорукими бандитами»), який має вирішити, на яких автоматах варто грати, скільки разів варто грати на кожному автоматі та в якому порядку слід грати, і чи продовжувати з поточним автоматом або спробувати інший. Проблема багаторуких бандитів також підпадає під широку категорію . У цій задачі кожен автомат забезпечує випадкову винагороду відповідно до розподілу ймовірностей, який властивий для цього автомату. Мета гравця — максимізувати суму винагород, яку він отримує відповідно у випадку задіяння обраної послідовності важелів. Принципова проблема, з якою стикається гравець на кожному кроці, полягає в тому, що він має зробити вибір, між «експлуатацією» автомата, який має найвищий очікуваний прибуток, і «розвідкою», щоб отримати більше інформації про очікувані виграші інших автоматів. Питання компромісу між розвідкою та експлуатацією також виникає у машинному навчанні. На практиці багаторукі бандити використовувались для моделювання таких задач, як управління дослідницькими проектами у великій організації, як науковий фонд або фармацевтична компанія. У ранніх формулюваннях задачі гравець починає взаємодію без початкових знань про автомати. Герберт Роббінс у 1952 році, усвідомлюючи важливість цієї задачі, побудував збіжні стратегії відбору сукупності в «деяких аспектах послідовного планування експериментів». Теорема про , вперше опублікована , дає оптимальну стратегію максимізації очікуваної винагороди з урахуванням коефіцієнта знецінювання. (uk)
dbo:thumbnail
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 2854828 (xsd:integer)
dbo:wikiPageLength
  • 69336 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1124037510 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • El problema de la màquina escurabutxaques es pot esquematitzar de la manera següent: * S'és davant dues màquines escurabutxaques * L'una, , està en funcionament. Retorna per tant 1 euro per fitxa amb una probabilitat coneguda. * L'altra, , està espatllada, i retorna per tant 1 euro per fitxa amb una probabilitat desconeguda. * Es disposa de fitxes. Què fer per maximitzar raonablement el guany ? (ca)
  • 多腕バンディット問題(たわんばんでぃっともんだい、Multi-armed bandit problem)は、確率論と機械学習において、一定の限られた資源のセットを競合する選択肢間で、期待利得を最大化するように配分しなければならない問題。それぞれの選択肢の特性が、配分時には一部しか分かっておらず、時間が経過したり選択肢に資源が配分されることで理解できる可能性がある。これは、探索 exploration と搾取 exploitation のトレードオフのジレンマを例証する古典的な強化学習の問題である。この名前は、スロットマシン(単腕バンディットとも呼ばれる)の列で、どのマシンをプレイするか、各マシンを何回プレイするか、どの順番でプレイするか、現在のマシンを続けるか別のマシンを試すかを決めなければならないギャンブラーを想像することに由来している。多腕バンディット問題も、広義の確率的スケジューリングに分類される。 (ja)
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. * Datos: Q2882343 (es)
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. (fr)
  • In probability theory and machine learning, the multi-armed bandit problem (sometimes called the K- or N-armed bandit problem) is a problem in which a fixed limited set of resources must be allocated between competing (alternative) choices in a way that maximizes their expected gain, when each choice's properties are only partially known at the time of allocation, and may become better understood as time passes or by allocating resources to the choice. This is a classic reinforcement learning problem that exemplifies the exploration–exploitation tradeoff dilemma. The name comes from imagining a gambler at a row of slot machines (sometimes known as "one-armed bandits"), who has to decide which machines to play, how many times to play each machine and in which order to play them, and whether (en)
  • У теорії ймовірностей та машинному навчанні задача багаторукого бандита (яку іноді називають задачею K- або N-рукого бандита) — це задача розподілу обмеженої множини ресурсів між конкуруючими альтернативами таким чином, щоб максимізувати очікуваний виграш, коли властивості кожного варіанту відомі лише частково на момент ухвалення рішення, і можуть стати краще зрозумілими з плином часу або шляхом розподілу ресурсів для реалізації варіанту. Це класична задача навчання з підкріпленням, яка є прикладом дилеми балансу між дослідженням та розвідкою. Назва походить від уявного гравця на низці ігрових автоматів (їх часто називають «однорукими бандитами»), який має вирішити, на яких автоматах варто грати, скільки разів варто грати на кожному автоматі та в якому порядку слід грати, і чи продовжувати (uk)
rdfs:label
  • El problema de la màquina escurabutxaques (ca)
  • Bandido multibrazo (es)
  • Bandit manchot (mathématiques) (fr)
  • Multi-armed bandit (en)
  • 多腕バンディット問題 (ja)
  • Багаторукий бандит (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:isPrimaryTopicOf
is dbo:knownFor of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License