In statistics, overfitting occurs when a statistical model describes random error or noise instead of the underlying relationship. Overfitting generally occurs when a model is excessively complex, such as having too many degrees of freedom, in relation to the amount of data available. A model which has been overfit will generally have poor predictive performance, as it can exaggerate minor fluctuations in the data.

PropertyValue
dbpedia-owl:thumbnail
dbpprop:abstract
  • In statistics, overfitting occurs when a statistical model describes random error or noise instead of the underlying relationship. Overfitting generally occurs when a model is excessively complex, such as having too many degrees of freedom, in relation to the amount of data available. A model which has been overfit will generally have poor predictive performance, as it can exaggerate minor fluctuations in the data. The potential for overfitting depends not only on the number of parameters and data but also the conformability of the model structure with the data shape, and the magnitude of model error compared to the expected level of noise or error in the data. Even when the fitted model does not have unusually many degrees of freedom, it is to be expected that the fitted relationship will appear to perform less well on a new data set than on the data set used for fitting. In particular, the value of the coefficient of determination will shrink relative to the original training data. In order to avoid overfitting, it is necessary to use additional techniques, that can indicate when further training is not resulting in better generalization.
  • Überanpassung (engl. overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Overfitting die Spezifizierung eines Modells in der multiplen Regressionsanalyse, das zu viele erklärende Variablen enthält.
  • Le surapprentissage (en anglais « overfitting ») est un problème pouvant survenir dans les méthodes mathématiques et informatiques de classification comme les réseaux de neurones. Il est en général provoqué par un mauvais dimensionnement de la structure utilisée pour classifier. De par sa trop grande capacité à stocker des informations, une structure dans une situation de surapprentissage aura de la peine à généraliser les caractéristiques des données. Elle se comporte alors comme une table contenant tous les échantillons utilisés lors de l'apprentissage et perd ses pouvoirs de prédiction sur de nouveaux échantillons.
  • In statistica, si parla di overfitting (eccessivo adattamento) quando un modello statistico si adatta ai dati osservati usando un numero eccessivo di parametri. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Spesso si sostiene che l'overfitting è una violazione della legge del Rasoio di Occam. Il concetto di overfitting è molto importante anche nell'apprendimento automatico e nel data mining. Di solito un algoritmo di apprendimento viene allenato usando un certo insieme di esempi (il training set appunto), ad esempio situazioni tipo di cui è già noto il risultato che interessa prevedere (output). Si assume che l'algoritmo di apprendimento (il learner) raggiungerà uno stato in cui sarà in grado di predire gli output per tutti gli altri esempi che ancora non ha visionato, cioè si assume che il modello di apprendimento sarà in grado di generalizzare. Tuttavia, soprattutto nei casi in cui l'apprendimento è stato effettuato troppo a lungo o dove c'era uno scarso numero di esempi di allenamento, il modello potrebbe adattarsi a caratteristiche che sono specifiche solo del training set, ma che non hanno riscontro nel resto dei casi; perciò, in presenza di overfitting, le prestazioni (cioè la capacità di adattarsi/prevedere) sui dati di allenamento aumenteranno, mentre le prestazioni sui dati non visionati saranno peggiori. Sia nella statistica che nel machine learning, per evitare l'overfitting, è necessario attuare particolari tecniche, come la cross-validation e l' arresto anticipato, che indichino quando un ulteriore allenamento non porterebbe ad una migliore generalizzazione. Nel treatment learning si evita l'overfitting utilizzando il valore di supporto migliore e minimale.
  • 過剰適合(英: Overfitting)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データに対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎることに由来する。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。過剰適合は一般にオッカムの剃刀に反した状態と認識される。
  • Nadmierne dopasowanie, przeuczenie, przetrenowanie, overfitting – różne, stosowane w statystyce nazwy tego samego zjawiska, zachodzącego gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby na podstawie której był konstruowany. Absurdalne i fałszywe modele mogą świetnie pasować do danych uczących gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosujemy je do danych, z którymi się nie zetknęły podczas uczenia. Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady brzytwy Ockhama (niemnożenia bytów ponad potrzebę). Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność generalizacji i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych. Idea nadmiernego dopasowania jest ważna także w uczeniu maszynowym. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na giełdzie w długim horyzoncie czasowym, badania genetyczne, czy problemy makroekonomiczne generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa trenowana na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks. Zwykle algorytm uczący jest trenowany na pewnym zbiorze przypadków, dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może "wymyśleć" prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy. Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych, które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy istotności statystycznej, które jednak na ogół mają pewne założenia odnośnie rozkładu danych. W psychiatrii odpowiednikiem nadmiernego dopasowania mogą być urojenia paranoiczne: złożone, spójne wewnętrznie, choć absurdalne modele świata, tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami zespołu paranoicznego.
  • В машинном обучении, переобучение (или оверфиттинг, переподгонка) — это явление, когда при построении алгоритма обучения получается такой алгоритм, который слишком хорошо работает на примерах, участвовавших в обучении (т. е. на примерах из обучающей выборки), но достаточно плохо работает на примерах, не участвовавших в обучении (т. е. на примерах из тестовой выборки). Это связано с тем, что при построении такого алгоритма (или как принято говорить в машинном обучении 'в процессе обучения') в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. Способы борьбы с оверфиттингом зависят от метода построения алгоритма классификации. Например, если строится дерево принятия решений, то можно обрезать некоторые его ветки в процессе построения.
  • 在統計學中,過適(英:overfitting)現象是指在調適一個統計模型時,使用過多參數。對比於可取得的資料總量來說,一個荒謬的模型模型只要足夠複雜,是可以完美地適應資料。過適一般可以識為違反奥卡姆剃刀原則。當可選擇的參數的自由度超過資料所包含資訊內容時,這會導致最後(調適後)模型使用任意的參數,這會減少或破壞模型一般化的能力更甚於適應資料。過適的可能性不只取決於參數個數和資料,也跟模型架構與資料的一致性有關。此外對比於資料中預期的雜訊或錯誤數量,跟模型錯誤的數量也有關。 過適現象的觀念對機器學習也是很重要的。通常一個學習演算法是藉由訓練範例來訓練的。亦即預期結果的範例是可知的。而學習者則被認為須達到可以預測出其它範例的正確的結果,因此,應適用於一般化的情況而非只是訓練時所使用的現有資料(根據它的歸納偏向)。然而,學習者卻會去適應訓練資料中太特化但又隨機的特徵,特別是在當學習過程太久或範例太少時。在過適的過程中,當預測訓練範例結果的表現增加時,應用在未知資料的表現則變更差。 在統計和機器學習中,為了避免過適現象,須要使用額外的技巧(如交叉驗證、early stopping、參數的Bayesian priors或model comparison),以指出何時會有更多訓練而沒有導致更好的一般化。人工神經網路的過適過程亦被認知為過度訓練(overtraining)。在treatmeant learning中,使用最小最佳支援值(minimum best support value)來避免過適。 相對於過適是指,使用過多參數,以致太適應資料而非一般情況,另一種常見的現象是使用太少參數,以致於不適應資料,這則稱為乏適(英:underfitting)現象。
dbpprop:hasPhotoCollection
dbpprop:reference
rdfs:comment
  • In statistics, overfitting occurs when a statistical model describes random error or noise instead of the underlying relationship. Overfitting generally occurs when a model is excessively complex, such as having too many degrees of freedom, in relation to the amount of data available. A model which has been overfit will generally have poor predictive performance, as it can exaggerate minor fluctuations in the data.
  • Überanpassung (engl. overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Overfitting die Spezifizierung eines Modells in der multiplen Regressionsanalyse, das zu viele erklärende Variablen enthält.
  • Le surapprentissage (en anglais « overfitting ») est un problème pouvant survenir dans les méthodes mathématiques et informatiques de classification comme les réseaux de neurones. Il est en général provoqué par un mauvais dimensionnement de la structure utilisée pour classifier. De par sa trop grande capacité à stocker des informations, une structure dans une situation de surapprentissage aura de la peine à généraliser les caractéristiques des données.
  • In statistica, si parla di overfitting (eccessivo adattamento) quando un modello statistico si adatta ai dati osservati usando un numero eccessivo di parametri. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Spesso si sostiene che l'overfitting è una violazione della legge del Rasoio di Occam. Il concetto di overfitting è molto importante anche nell'apprendimento automatico e nel data mining.
  • Nadmierne dopasowanie, przeuczenie, przetrenowanie, overfitting – różne, stosowane w statystyce nazwy tego samego zjawiska, zachodzącego gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby na podstawie której był konstruowany. Absurdalne i fałszywe modele mogą świetnie pasować do danych uczących gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosujemy je do danych, z którymi się nie zetknęły podczas uczenia.
  • В машинном обучении, переобучение (или оверфиттинг, переподгонка) — это явление, когда при построении алгоритма обучения получается такой алгоритм, который слишком хорошо работает на примерах, участвовавших в обучении (т. е.
rdfs:label
  • Overfitting
  • Überanpassung
  • Surapprentissage
  • Overfitting
  • 過剰適合
  • Nadmierne dopasowanie
  • Переобучение
  • 過適
owl:sameAs
skos:subject
foaf:depiction
foaf:page
is dbpprop:columnsListProperty of
is dbpprop:redirect of