In statistics, an outlier is an observation that is numerically distant from the rest of the data. Grubbs defined an outlier as: An outlying observation, or outlier, is one that appears to deviate markedly from other members of the sample in which it occurs. Outliers can occur by chance in any distribution, but they are often indicative either of measurement error or that the population has a heavy-tailed distribution.

PropertyValue
dbpedia-owl:thumbnail
dbpprop:abstract
  • In statistics, an outlier is an observation that is numerically distant from the rest of the data. Grubbs defined an outlier as: An outlying observation, or outlier, is one that appears to deviate markedly from other members of the sample in which it occurs. Outliers can occur by chance in any distribution, but they are often indicative either of measurement error or that the population has a heavy-tailed distribution. In the former case one wishes to discard them or use statistics that are robust to outliers, while in the latter case they indicate that the distribution has high kurtosis and that one should be very cautious in using tool or intuitions that assume a normal distribution. A frequent cause of outliers is a mixture of two distributions, which may be two distinct sub-populations, or may indicate 'correct trial' versus 'measurement error'; this is modeled by a mixture model. In most larger samplings of data, some data points will be further away from the sample mean than what is deemed reasonable. This can be due to incidental systematic error or flaws in the theory that generated an assumed family of probability distributions, or it may be that some observations are far from the center of the data. Outlier points can therefore indicate faulty data, erroneous procedures, or areas where a certain theory might not be valid. However, in large samples, a small number of outliers is to be expected (and not due to any anomalous condition). Outliers, being the most extreme observations, will include the sample maximum or sample minimum, or both, depending on whether they are extremely high or low. However, the sample maximum and minimum need not be outliers, if they are not unusually far from other observations. Naive interpretation of statistics derived from data sets that include outliers may be misleading. For example, if one is calculating the average temperature of 10 objects in a room, and most are between 20 and 25 degrees Celsius, but an oven is at 175 °C, the median of the data may be 23 °C but the mean temperature will be between 35.5 and 40 °C. In this case, the median better reflects the temperature of a randomly sampled object than the mean; however, naively interpreting the mean as "a typical sample", equivalent to the median, is incorrect. As illustrated in this case, outliers may be indicative of data points that belong to a different population than the rest of the sample set. Estimators capable of coping with outliers are said to be robust: the median is a robust statistic, while the mean is not.
  • In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht. Die „Erwartung“ wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten aller Messwerte zu liegen kommen, z. B. der Quantilabstand Q75 – Q25. Werte außerhalb dieses Intervalls werden (meist willkürlich) als Ausreißer bezeichnet. Im Boxplot werden besonders hohe Ausreißer gesondert dargestellt. Die robuste Statistik beschäftigt sich mit der Ausreißerproblematik.
  • En las estadísticas, tales como muestras estratificadas, un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida. Tomando como referencia la diferencia entre el primer cuartil (<math>Q_1</math>) y el tercer cuartil <math>Q_3</math>, o valor intercuartil, en un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo).
  • En las estadísticas, tales como muestras estratificadas, un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida. Tomando como referencia la diferencia entre el primer cuartil (<math>Q_1</math>) y el tercer cuartil <math>Q_3</math>, o valor intercuartil, en un diagrama de caja se considera un valor atípico el que se encuentra a 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo).
  • Outlier è un termine utilizzato in statistica per definire, in un insieme di osservazioni, un valore anomalo e aberrante; un valore quindi chiaramente distante dalle altre osservazioni disponibili. Gli outlier sono valori numericamente distanti dal resto dei dati raccolti (ad esempio, in un campionamento). Le statistiche che derivano da campioni contenenti outlier possono essere fuorvianti. Per esempio, se misurassimo la temperatura di dieci oggetti presenti in una stanza, la maggior parte dei quali risultasse avere una temperatura compresa fra 20 e 25 gradi Celsius, allora il forno acceso, avente una temperatura di 350 gradi, sarebbe un dato aberrante. La mediana dei valori sarebbe circa 23, mentre la temperatura media salirebbe a circa 55 gradi: un indice chiaramente non rappresentativo della maggioranza dei valori di temperatura riscontrati nella stanza. In questo caso, la mediana rifletterebbe meglio della media aritmetica le misure della temperatura degli oggetti. Gli outliers possono essere indicativi del fatto che, in un dato campione, alcuni dati appartengono ad una popolazione differente rispetto a quella del resto del campione. Nella maggioranza dei grandi campioni, alcuni dati saranno più lontani dalla media del campione di quanto sarebbe logico aspettarsi. Ciò può essere dovuto ad un errore sistematico che si è verificato nella raccolta dei dati, oppure a una fallacia nella teoria che ha orientato l'assunzione di una data distribuzione campionaria di probabilità, ma potrebbe anche essere semplicemente dovuto al caso, che ha fatto sì che nella raccolta dei dati alcune osservazioni abbiano prodotto dati molto lontani dai valori medi del campione. Inoltre, gli outliers potrebbero essere indicativi di dati errati, procedure erronee o aree sperimentali in cui alcune teorie potrebbero non essere valide. Tuttavia, un piccolo numero di dati aberranti non dovuti a condizioni anomale è dato per scontato nei grandi campioni. Stimatori poco influenzati dai dati aberranti sono detti robusti.
  • Onder uitbijter of uitschieter verstaat men in de statistiek en data-analyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de data die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit data met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid. Stel bijvoorbeeld dat de temperatuur van een kamer gevolgd wordt die rond 20°C zal liggen, en dat er 9 metingen zijn in de buurt van de doeltemperatuur en één "meting" van 200°C. Dan is duidelijk dat deze laatste meting niet juist is, dus een uitbijter, die het totale beeld verstoort. Vanuit statistisch oogpunt kan men stellen dat een uitbijter een waarde is die niet tot de betrokken populatie behoort. Detectie van uitbijters is, naast het opsporen van redundantie en de eliminatie van ruis, een van de belangrijkste taken na het opmeten en verzamelen van data. Voor het detecteren van uitbijters moet onderscheid gemaakt worden tussen univariate (slechts één meetresultaat per meting voor een staal) en multivariate gegevens (vele, soms wel honderden, meetresultaten per meting voor een staal).
  • Obserwacja odstająca / element odstający (ang. outlier) – w statystyce obserwacja, która nie pasuje do modelu. W najprostszym przypadku może to być na przykład obserwacja z wartością którejś zmiennej pięciokrotnie większą od największej z pozostałych wartości tej zmiennej. Obserwacje odstające są na ogół spowodowane błędami w danych, na skutek błędnego pomiaru, pomyłek we wprowadzaniu informacji do bazy danych itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu. Obserwacje odstające powstałe na skutek błędów w danych utrudniają i w skrajnym przypadku uniemożliwiają analizę. Szczególnie mało odporne na nie są metody i współczynniki bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa, klasyczna analiza korespondencji, itp. Jeden element odstający może całkowicie zmienić wartość i znak korelacji, nawet z +0,9 do -0,9. Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych (ang. robust), np. metod rangowych. Przykładowo zamiast zwykłej korelacji można stosować korelację rangową Spearmana, albo tau Kendalla.
dbpprop:author
  • Renze, John
dbpprop:first
  • A.
  • N.
dbpprop:hasPhotoCollection
dbpprop:id
  • O/o110080
dbpprop:last
  • Balakrishnan
  • Childs
dbpprop:reference
dbpprop:title
  • Outlier
dbpprop:wikiPageUsesTemplate
rdfs:comment
  • In statistics, an outlier is an observation that is numerically distant from the rest of the data. Grubbs defined an outlier as: An outlying observation, or outlier, is one that appears to deviate markedly from other members of the sample in which it occurs. Outliers can occur by chance in any distribution, but they are often indicative either of measurement error or that the population has a heavy-tailed distribution.
  • In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht. Die „Erwartung“ wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten aller Messwerte zu liegen kommen, z. B. der Quantilabstand Q75 – Q25. Werte außerhalb dieses Intervalls werden (meist willkürlich) als Ausreißer bezeichnet.
  • En las estadísticas, tales como muestras estratificadas, un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55.
  • Outlier è un termine utilizzato in statistica per definire, in un insieme di osservazioni, un valore anomalo e aberrante; un valore quindi chiaramente distante dalle altre osservazioni disponibili. Gli outlier sono valori numericamente distanti dal resto dei dati raccolti (ad esempio, in un campionamento). Le statistiche che derivano da campioni contenenti outlier possono essere fuorvianti.
  • Onder uitbijter of uitschieter verstaat men in de statistiek en data-analyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de data die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit data met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid.
  • Obserwacja odstająca / element odstający (ang. outlier) – w statystyce obserwacja, która nie pasuje do modelu. W najprostszym przypadku może to być na przykład obserwacja z wartością którejś zmiennej pięciokrotnie większą od największej z pozostałych wartości tej zmiennej. Obserwacje odstające są na ogół spowodowane błędami w danych, na skutek błędnego pomiaru, pomyłek we wprowadzaniu informacji do bazy danych itp.
rdfs:label
  • Outlier
  • Ausreißer
  • Intercolumnio
  • Valor atípico
  • Outlier
  • Uitbijter
  • Obserwacja odstająca
owl:sameAs
skos:subject
foaf:depiction
foaf:page
is dbpprop:redirect of