Statistical classification is a procedure in which individual items are placed into groups based on quantitative information on one or more characteristics inherent in the items (referred to as traits, variables, characters, etc) and based on a training set of previously labeled items.

PropertyValue
dbpprop:abstract
  • Statistical classification is a procedure in which individual items are placed into groups based on quantitative information on one or more characteristics inherent in the items (referred to as traits, variables, characters, etc) and based on a training set of previously labeled items. Formally, the problem can be stated as follows: given training data <math>\{(\mathbf{x_1},y_1),\dots,(\mathbf{x_n}, y_n)\}</math> produce a classifier <math>h:\mathcal{X}\rightarrow\mathcal{Y}</math> that maps any object <math>\mathbf{x} \in \mathcal{X}</math> to its true classification label <math>y \in \mathcal{Y}</math> defined by some unknown mapping <math>g:\mathcal{X}\rightarrow\mathcal{Y}</math> (ground truth). For example, if the problem is filtering spam, then <math>\mathbf{x_i}</math> is some representation of an email and <math>y</math> is either "Spam" or "Non-Spam". Statistical classification algorithms are typically used in pattern recognition systems. Note: in community ecology, the term "classification" is synonymous with what is commonly known as clustering. See that article for more information about purely unsupervised techniques. The second problem is to consider classification as an estimation problem, where the goal is to estimate a function of the form <math>P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right)</math> where the feature vector input is <math>\vec x</math>, and the function f is typically parameterized by some parameters <math>\vec \theta</math>. In the Bayesian approach to this problem, instead of choosing a single parameter vector <math>\vec \theta</math>, the result is integrated over all possible thetas, with the thetas weighted by how likely they are given the training data D: <math>P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta</math> The third problem is related to the second, but the problem is to estimate the class-conditional probabilities <math>P(\vec x|{\rm class})</math> and then use Bayes' rule to produce the class probability as in the second problem. Examples of classification algorithms include: Linear classifiers Fisher's linear discriminant Logistic regression Naive Bayes classifier Perceptron Support vector machines Quadratic classifiers k-nearest neighbor Boosting Decision trees Random forests Neural networks Bayesian networks Hidden Markov models An intriguing problem in pattern recognition yet to be solved is the relationship between the problem to be solved (data to be classified) and the performance of various pattern recognition algorithms (classifiers). Van der Walt and Barnard (see reference section) investigated very specific artificial data sets to determine conditions under which certain classifiers perform better and worse than others. Classifier performance depends greatly on the characteristics of the data to be classified. There is no single classifier that works best on all given problems (a phenomenon that may be explained by the No-free-lunch theorem). Various empirical tests have been performed to compare classifier performance and to find the characteristics of data that determine classifier performance. Determining a suitable classifier for a given problem is however still more an art than a science. The most widely used classifiers are the neural network (multi-layer perceptron), support vector machines, k-nearest neighbours, Gaussian mixture model, Gaussian, naive Bayes, decision tree and RBF classifiers.
  • Klassifikationsverfahren sind Methoden und Kriterien zur Einteilung von Objekten oder Situationen in Klassen, das heißt zur Klassifizierung. Ein solches Verfahren wird auch als Klassifikator bezeichnet. Viele Verfahren lassen sich als Algorithmus implementieren; man spricht dabei auch von maschineller oder automatischer Klassifikation. Klassifikationsverfahren sind immer anwendungsbezogen, so dass viele verschiedene Methoden existieren. Klassifikationsverfahren spielen unter anderem bei der Mustererkennung, in der Künstlichen Intelligenz und der Dokumentationswissenschaft beziehungsweise dem Information Retrieval eine Rolle. Zur Beurteilung eines Klassifikators können verschiedene Kenngrößen ermittelt werden.
  • 統計分類(英: Statistical classification)は、各個体に固有の特性を表す1つ以上の量的情報に基づいて個体をグループ分けする統計的手続きである。このとき、事前にラベル付けされた訓練例(training set)を用いる。統計的識別とも。 形式的に表すと、次のようになる。訓練データ <math>\{(\mathbf{x_1},y_1),\dots,(\mathbf{x_n}, y_n)\}</math> から、オブジェクト <math>\mathbf{x} \in \mathcal{X}</math> から分類ラベル <math>\mathbf{y} \in \mathcal{Y}</math> へマップする分類器(classifier、識別器とも) <math>h:\mathcal{X}\rightarrow\mathcal{Y}</math> を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、<math>\mathbf{x_i}</math> は具体的な電子メールの例であり、<math>y</math> は "Spam" か "Non-Spam" のどちらかである。 統計分類アルゴリズムは主にパターン認識システムなどで使われる。 注: 群集生態学では「分類; classification」という用語は、一般に(機械学習では)データ・クラスタリングと呼ばれているものと同義に扱われる。詳しくは教師なし学習などを参照されたい。
  • Задача классифика́ции — формализованная задача, в которой имеется множество объектов, разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать (см. ниже) произвольный объект из исходного множества. Классифици́ровать объект — значит, указать номер класса, к которому относится данный объект. Классифика́ция объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту. В математической статистике задачи классификации называются также задачами дискриминантного анализа. В машинном обучении задача классификации решается, как правило, с помощью методов искусственных нейронных сетей при постановки эксперимента в виде обучения с учителем. Существует также другие способы постановки эксперимента - обучение без учителя, но они используются для решения другой задачи - кластеризации или таксономии. В этих задачах разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В некоторых прикладных областях, и даже в самой математической статистике, из-за близости задач часто не различают задачи кластеризации от задач классификации. Некоторые алгоритмы для решения задач классификации комбинирует обучение с учителем с обучением без учителя, например, одна из версий нейронных сетей Кохонена — cети векторного квантования, обучаемые с учителем.
dbpprop:hasPhotoCollection
dbpprop:reference
rdf:type
rdfs:comment
  • Statistical classification is a procedure in which individual items are placed into groups based on quantitative information on one or more characteristics inherent in the items (referred to as traits, variables, characters, etc) and based on a training set of previously labeled items.
  • Klassifikationsverfahren sind Methoden und Kriterien zur Einteilung von Objekten oder Situationen in Klassen, das heißt zur Klassifizierung. Ein solches Verfahren wird auch als Klassifikator bezeichnet. Viele Verfahren lassen sich als Algorithmus implementieren; man spricht dabei auch von maschineller oder automatischer Klassifikation. Klassifikationsverfahren sind immer anwendungsbezogen, so dass viele verschiedene Methoden existieren.
  • Задача классифика́ции — формализованная задача, в которой имеется множество объектов, разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой.
rdfs:label
  • Statistical classification
  • Klassifikationsverfahren
  • 統計分類
  • Задача классификации
owl:sameAs
skos:subject
foaf:page
is dbpprop:disambiguates of
is dbpprop:redirect of