| dbpprop:abstract
|
- A naive Bayes classifier is a simple probabilistic classifier based on applying Bayes' theorem with strong (naive) independence assumptions. A more descriptive term for the underlying probability model would be "independent feature model". In simple terms, a naive Bayes classifier assumes that the presence (or absence) of a particular feature of a class is unrelated to the presence (or absence) of any other feature. For example, a fruit may be considered to be an apple if it is red, round, and about 4" in diameter. Even though these features depend on the existence of the other features, a naive Bayes classifier considers all of these properties to independently contribute to the probability that this fruit is an apple. Depending on the precise nature of the probability model, naive Bayes classifiers can be trained very efficiently in a supervised learning setting. In many practical applications, parameter estimation for naive Bayes models uses the method of maximum likelihood; in other words, one can work with the naive Bayes model without believing in Bayesian probability or using any Bayesian methods. In spite of their naive design and apparently over-simplified assumptions, naive Bayes classifiers often work much better in many complex real-world situations than one might expect. Recently, careful analysis of the Bayesian classification problem has shown that there are some theoretical reasons for the apparently unreasonable efficacy of naive Bayes classifiers. An advantage of the naive Bayes classifier is that it requires a small amount of training data to estimate the parameters (means and variances of the variables) necessary for classification. Because independent variables are assumed, only the variances of the variables for each class need to be determined and not the entire covariance matrix.
- Ein Bayes-Klassifikator (benannt nach dem englischen Mathematiker Thomas Bayes) ist ein aus dem Bayestheorem hergeleiteter Klassifikator. Er ordnet jedes Objekt der Klasse zu, zu der es mit der größten Wahrscheinlichkeit gehört, oder bei der durch die Einordnung die wenigsten Kosten entstehen. Genau genommen handelt es sich um eine mathematische Funktion, die jedem Punkt eines Merkmalsraums eine Klasse zuordnet. Um den Bayes-Klassifikator zu definieren, wird ein Kostenmaß benötigt, das jeder möglichen Klassifizierung Kosten zuweist. Der Bayes-Klassifikator ist genau derjenige Klassifikator, der die durch alle Klassifizierungen entstehenden Kosten minimiert. Das Kostenmaß wird gelegentlich auch Risikofunktion genannt; man sagt dann, der Bayes-Klassifikator minimiere das Risiko einer Fehlentscheidung und sei über das minimum-risk-Kriterium definiert. Wird ein primitives Kostenmaß verwendet, das ausschließlich bei Fehlentscheidungen Kosten verursacht, so minimiert der Bayes-Klassifikator die Wahrscheinlichkeit einer Fehlentscheidung. Man sagt dann, er sei über das maximum-a-posteriori-Kriterium definiert. Beide Formen setzen voraus, dass die Wahrscheinlichkeit, dass ein Punkt des Merkmalsraums zu einer bestimmten Klasse gehört, bekannt ist, jede Klasse also durch eine Wahrscheinlichkeitsdichte beschrieben wird. In der Realität sind diese Dichtefunktionen aber nicht bekannt; man muss sie abschätzen. Dazu vermutet man hinter jeder Klasse einen Typ von Wahrscheinlichkeitsverteilung - in der Regel eine Normalverteilung - und versucht anhand der vorhandenen Daten, deren Parameter abzuschätzen. Weit häufiger wird der Bayes-Klassifikator jedoch zur Beurteilung anderer Klassifikatoren verwendet: Man entwirft künstlich einige Klassen und deren Wahrscheinlichkeitsdichten, erzeugt mit diesem Modell eine zufällige Stichprobe und lässt den anderen Klassifikator die Objekte dieser Stichprobe in Klassen einteilen. Das Ergebnis vergleicht man mit der Einordnung, die der Bayes-Klassifikator vorgenommen hätte. Da der Bayes-Klassifikator in diesem Fall optimal ist, erhält man eine Abschätzung, wie nahe der andere Klassifikator am Optimum liegt. Gleichzeitig liefert der Bayes-Klassifikator eine untere Schranke für die Fehlerwahrscheinlichkeit aller anderen Klassifikatoren in diesem Szenario; besser als der optimale Bayes-Klassifikator können diese nicht werden.
- Un clasificador Bayesiano "ingenuo" es un clasificador probabilístico que se basa en aplicar el Teorema de Bayes. Este tipo de clasificador es frecuentemente empleado para detectar mensajes de correo basura (spam). En abstracto, el modelo de probabilidad para un clasificador es <math>p(C \vert F_1,\dots,F_n)\,</math> sobre una variable dependiente C, con un pequeño número de resultados (o clases). Esta variable está condicionada por varias variables independientes desde <math>F_1</math> a <math>F_n</math>. El problema es que si el número n de variables independientes es grande (o cuando éstas pueden tomar muchos valores), entonces basar este modelo en tablas de probabilidad se vuelve imposible. Por lo tanto el modelo se reformula para hacerlo más manejable: Usando el teorema de Bayes se escribe: <math>p(C \vert F_1,\dots,F_n) = \frac{p(C) \ p(F_1,\dots,F_n\vert C)}{p(F_1,\dots,F_n)}. \,</math> Lo anterior podría reescribirse en lenguaje común como: <math>Posterior = \frac{Anterior*Probabilidad}{Evidencia}. \,</math> En la práctica sólo importa el numerador, ya que el denominador no depende de <math>C</math> y los valores de <math>F_i</math> son datos, por lo que el denominador es, en la práctica, constante. El numerador es equivalente a una probabilidad compuesta: <math>p(C, F_1, \dots, F_n)\,</math> que puede ser reescrita como sigue, aplicando repetidamente la definición de probabilidad condicional: <math>p(C, F_1, \dots, F_n)\,</math> <math>= p(C) \ p(F_1,\dots,F_n\vert C)</math> <math>= p(C) \ p(F_1\vert C) \ p(F_2,\dots,F_n\vert C, F_1)</math> <math>= p(C) \ p(F_1\vert C) \ p(F_2\vert C, F_1) \ p(F_3,\dots,F_n\vert C, F_1, F_2)</math> <math>= p(C) \ p(F_1\vert C) \ p(F_2\vert C, F_1) \ p(F_3\vert C, F_1, F_2) \ p(F_4,\dots,F_n\vert C, F_1, F_2, F_3)</math> ... y así sucesivamente. Ahora es cuando la asunción "naïve" de independencia condicional entra en juego: se asume que cada <math>F_i</math> es independiente de cualquier otra <math>F_j</math> para <math>j\neq i</math>. Esto significa que <math>p(F_i \vert C, F_j) = p(F_i \vert C)\,</math> por lo que la probabilidad compuesta puede expresarse como <math>p(C, F_1, \dots, F_n) = p(C) \ p(F_1\vert C) \ p(F_2\vert C) \ p(F_3\vert C) \ \cdots\,</math> <math>= p(C) \prod_{i=1}^n p(F_i \vert C). \,</math> Esto significa que haciendo estas asunciones, la distribución condicional sobre la variable clasificaroria <math>C</math> puede expresarse de la siguiente manera: <math>p(C \vert F_1,\dots,F_n) = \frac{1}{Z} p(C) \prod_{i=1}^n p(F_i \vert C)</math> donde <math>Z</math> es un factor que depende sólo de <math>F_1,\dots,F_n</math>, es decir, constante si los valores de <math>F_i</math> son conocidos.
- La classification naïve bayesienne est un type de classification Bayesienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses.
- Un classificatore bayesiano è un sistema di Text Categorization basato sull'applicazione del teorema di Bayes. Il modello di probabilità sottostante il classificatore è basato sull'indipendenza delle feature, ovvero assume che la presenza o l'assenza di una particolare feature in un documento testuale non è correlata dalla presenza o assenza di ogni altra feature.
- 単純ベイズ分類器(たんじゅん-ぶんるいき、英: Naive Bayes classifier)は、強い(単純な)独立性仮定と共にベイズの定理を適用することに基づいた単純な確率的分類器である。その元となる確率モデルは、より正確に言えば「独立特徴モデル; independent feature model」である。 確率モデルの性質に基づき、単純ベイズ分類器は教師あり学習の設定で効率的に訓練可能である。多くの実用例では、単純ベイズ分類器のパラメータ推定には最尤法が使われる。つまり、単純ベイズ分類器を使用するにあたって、ベイズ確率やその他のベイズ的手法を使う必要はない。 設計も仮定も非常に単純であるにも関わらず、単純ベイズ分類器は複雑な実世界の状況において、期待よりもずっとうまく働く。近頃、ベイズ分類問題の注意深い解析によって、単純ベイズ分類器の効率性に理論的理由があることが示された。単純ベイズ分類器の利点は、分類に不可欠なパラメータ(変数群の平均と分散)を見積もるのに、訓練例データが少なくて済む点である。変数群は独立であると仮定されているため、各クラスについての変数の分散だけが必要であり、共分散行列全体は不要である。
- Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywamy je naiwnymi. Bardziej opisowe może być określenie - "model cech niezależnych". Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa. W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można "uczyć" bardzo skutecznie w trybie uczenia z nadzorem. W wielu praktycznych aplikacjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobienstwa a posteriori; inaczej mówiąc, może pracować z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa. Pomimo ich naiwnego projektowania i bardzo uproszczonych założeń, naiwne klasyfikatory Bayesa często pracują dużo lepiej w wielu rzeczywistych sytuacjach niż można było tego oczekiwać.
- Наи́вный ба́йесовский классифика́тор — простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия; другими словами, можно работать с наивной байесовской моделью, не веря в байесовскую вероятность и не используя байесовские методы. Несмотря на наивный вид и, несомненно, очень упрощенные условия, наивные байесовские классификаторы часто работают намного лучше во многих сложных жизненных ситуациях. Достоинством наивного байесовского классификатора является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
|