| dbpprop:abstract
|
- Principal component analysis (PCA) involves a mathematical procedure that transforms a number of possibly correlated variables into a smaller number of uncorrelated variables called principal components. The first principal component accounts for as much of the variability in the data as possible, and each succeeding component accounts for as much of the remaining variability as possible. Depending on the field of application, it is also named the discrete Karhunen–Loève transform (KLT), the Hotelling transform or proper orthogonal decomposition (POD). PCA was invented in 1901 by Karl Pearson. Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space" (PDF). Philosophical Magazine 2 (6): 559–572. http://stat. smmu. edu. cn/history/pearson1901. pdf. Now it is mostly used as a tool in exploratory data analysis and for making predictive models. PCA involves the calculation of the eigenvalue decomposition of a data covariance matrix or singular value decomposition of a data matrix, usually after mean centering the data for each attribute. The results of a PCA are usually discussed in terms of component scores and loadings (Shaw, 2003). PCA is the simplest of the true eigenvector-based multivariate analyses. Often, its operation can be thought of as revealing the internal structure of the data in a way which best explains the variance in the data. If a multivariate dataset is visualised as a set of coordinates in a high-dimensional data space (1 axis per variable), PCA supplies the user with a lower-dimensional picture, a "shadow" of this object when viewed from its (in some sense) most informative viewpoint. PCA is closely related to factor analysis; indeed, some statistical packages deliberately conflate the two techniques. True factor analysis makes different assumptions about the underlying structure and solves eigenvectors of a slightly different matrix.
- Die Hauptkomponentenanalyse ist ein Verfahren der multivariaten Statistik. Sie dient dazu, umfangreiche Datensätze zu strukturieren, zu vereinfachen und zu veranschaulichen, indem eine Vielzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen (die „Hauptkomponenten“) genähert wird. Speziell in der Bildverarbeitung wird die Hauptkomponentenanalyse auch Karhunen-Loève-Transformation genannt. Sie ist von der Faktorenanalyse zu unterscheiden, mit der sie formale Ähnlichkeit hat und in der sie als Näherungsmethode zur Faktorenextraktion verwendet werden kann. (Der Unterschied der beiden Verfahren wird hier erläutert. ) Es gibt verschiedene Verallgemeinerungen der PCA, z. B. die Principal Curves, die Principal Surfaces oder die Kernel-PCA. Geschichte Die Hauptkomponentenanalyse wurde von Karl Pearson 1901 eingeführt und in den 1930er Jahren von Harold Hotelling weiterentwickelt. Wie andere statistische Analysemethoden erlangte sie weite Verbreitung erst mit der zunehmenden Verfügbarkeit von Computern im dritten Viertel des 20. Jahrhunderts. Die ersten Anwendungen entstammten der Biologie. Konzeption der Hauptkomponentenanalyse Der zugrundeliegende Datensatz hat typischerweise die Struktur einer Matrix: An <math>n Versuchspersonen oder Gegenständen wurden jeweils <math>p Merkmale gemessen. Ein solcher Datensatz kann als Menge von <math>n Punkten im <math>p-dimensionalen Raum <math>\R^p veranschaulicht werden. Ziel der Hauptkomponentenanalyse ist es, diese Datenpunkte so in einen <math>q-dimensionalen Unterraum <math>\R^q (<math>q < p) zu projizieren, dass dabei möglichst wenig Information verloren geht. Mathematisch wird eine Hauptachsentransformation durchgeführt: Man minimiert die Korrelation mehrdimensionaler Merkmale durch Überführung in einen Vektorraum mit neuer Basis. Die Hauptachsentransformation lässt sich durch eine orthogonale Matrix angeben, die aus den Eigenvektoren der Kovarianzmatrix gebildet wird. Die Hauptkomponentenanalyse ist damit problemabhängig, weil für jeden Datensatz eine eigene Transformationsmatrix berechnet werden muss. Die Rotation des Koordinatensystems wird so ausgeführt, dass die Kovarianzmatrix diagonalisiert wird, d. h. die Daten werden dekorreliert (die Korrelationen sind die Nicht-diagonal-Einträge der Kovarianzmatrix). Für normalverteilte Datensätze bedeutet dies, dass die einzelnen Komponenten jedes Datensatzes nach der PCA voneinander statistisch unabhängig sind, da die Normalverteilung durch das nullte (Normierung), erste (Mittelwert) und zweite Moment (Kovarianzen) vollständig charakterisiert wird. Sind die Datensätze nicht normalverteilt, dann werden die Daten auch nach der PCA – obwohl nun dekorreliert – noch immer statistisch abhängig sein. Die PCA ist also nur für normalverteilte Datensätze eine „optimale“ Methode. Da die Hauptkomponentenanalyse nicht ganz einfach ist, folgt zunächst ein Anwendungsbeispiel, welches unten weiter ausgeführt wird. Anwendungsbeispiel Betrachtet werden Artillerieschiffe des Zweiten Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, Leistung der Maschinen, Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit), Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor „Größe“ sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch die Leistung der Maschinen und die Höchstgeschwindigkeit bestimmt wird. Man könnte ihn zu einem Faktor „Geschwindigkeit“ zusammenfassen. Andere Beispiele für Anwendungen der Hauptkomponentenanalyse sind: Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren. Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert. Anwendung findet die Hauptkomponentenanalyse auch in der Bildverarbeitung – insbesondere bei der Fernerkundung. Dabei kann man Satellitenbilder analysieren und Rückschlüsse daraus ziehen. Ein weiteres Gebiet ist die Künstliche Intelligenz, zusammen mit den Neuronalen Netzen. Dort dient die PCA zur Merkmalstrennung im Rahmen der automatischen Klassifizierung bzw. in der Mustererkennung. Verfahren Es soll zunächst vorausgeschickt werden, dass die Varianz von Daten ein Maß für ihren Informationsgehalt ist. Die Daten liegen als Punktwolke in einem <math>p-dimensionalen kartesischen Koordinatensystem vor. Es wird nun ein neues Koordinatensystem in die Punktwolke gelegt und dieses neue Koordinatensystem wird rotiert: Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten usw. Für die <math>p-dimensionalen Daten gibt es also grundsätzlich <math>p viele Achsen, die aufeinander senkrecht stehen, sie sind orthogonal. Die Gesamtvarianz der Daten ist die Summe dieser „Achsenvarianzen“. Wird nun durch die ersten <math>r' (<math>r' < p) Achsen der größte Prozentsatz der Gesamtvarianz abgedeckt, erscheinen die Faktoren, die durch die neuen Achsen repräsentiert werden, ausreichend für den Informationsgehalt der Daten. Häufig können die Faktoren inhaltlich nicht interpretiert werden. In der Statistik spricht man davon, dass ihnen keine verständliche Hypothese zugeschrieben werden kann. Statistisches Modell Man betrachtet <math>p Zufallsvariablen <math>X_j, die bezüglich ihrer Erwartungswerte zentriert sind; d. h. , ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem <math>(p \times 1)-Zufallsvektor <math>\underline x zusammengefasst. <math>\underline x hat als Erwartungswertvektor einen Nullvektor und die <math>(p \times p)-Kovarianzmatrix <math>\underline \Sigma, wobei <math>\underline \Sigma symmetrisch und positiv definit ist. Die Eigenwerte <math>\lambda_j, <math>j 1, \dots, p, der Matrix <math>\underline\Sigma sind absteigend der Größe nach geordnet. Sie werden als Diagonalelemente in der Diagonalmatrix <math>\underline \Lambda aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix <math>\underline \Gamma Es gilt dann <math>\underline \Lambda \underline \Gamma^T \underline \Sigma \underline \Gamma . Der Zufallsvektor <math>\underline x wird linear transformiert zu <math>\underline x \mapsto \underline y \underline \Gamma^T \underline x Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor \underline x \begin{pmatrix} X_1\\ X_2\\ X_3 \end{pmatrix} Die Matrix der Eigenwerte ist \underline \Lambda \begin{pmatrix} \lambda_A& 0 &0 \\ 0 &\lambda_B& 0 \\ 0&0&\lambda_C \end{pmatrix}, wobei <math>\lambda_A > \lambda_B > \lambda_C ist. Die <math>(3 \times 1)-Eigenvektoren <math>\underline \gamma_j lassen sich in der Matrix <math>\underline \Gamma zusammenfassen: \underline \Gamma \begin{pmatrix} \underline \gamma_A&\underline \gamma_B &\underline \gamma_C \end{pmatrix} \begin{pmatrix} \gamma_{1A}&\gamma_{1B}&\gamma_{1C}\\ \gamma_{2A}&\gamma_{2B}&\gamma_{2C} \\ \gamma_{3A}&\gamma_{3B}&\gamma_{3C} \end{pmatrix} Die Multiplikation \underline x \rightarrow \underline y \underline \Gamma^T \underline x ergibt die Gleichungen Y_A\gamma_{1A}X_1+\gamma_{2A}X_2+\gamma_{3A}X_3 Y_B\gamma_{1B}X_1+\gamma_{2B}X_2+\gamma_{3B}X_3 Y_C\gamma_{1C}X_1+\gamma_{2C}X_2+\gamma_{3C}X_3 Die Varianz von <math>Y_A ist \operatorname{var} Y_A \lambda_A . Also hat die Hauptkomponente <math>Y_A den größten Anteil an der Gesamtvarianz der Daten, <math>Y_B den zweitgrößten Anteil usw. Die Elemente <math>\gamma_{jk}, <math>j1,2,3; <math>kA,B,C, könnte man als Beitrag der Variablen <math>X_j am Faktor <math>k bezeichnen. Die Matrix <math>\underline \Gamma bezeichnet man in diesem Zusammenhang als Ladungsmatrix, sie gibt an, „wie hoch eine Variable <math>X auf einen Faktor <math>Y lädt“. Schätzung der Modellparameter Liegen konkret erhobene Daten mit <math>p Merkmalen vor (d. h. jeder Datenpunkt ist ein <math>p-dimensionaler Vektor), wird aus den Merkmalswerten die Stichproben-Korrelationsmatrix errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren für die Hauptkomponentenanalyse. Da die Kovarianzmatrix eine symmetrische <math>p\times p-Matrix ist, sind für ihre Berechnung insgesamt <math>(p^2+p)/2 Parameter zu schätzen. Dies ist nur dann sinnvoll, wenn die Anzahl <math>N der Datenpunkte im Datensatz deutlich größer ist, d. h. wenn <math>N\gg (p^2+p)/2 Anderenfalls ist die Bestimmung der Kovarianzmatrix stark fehlerbehaftet, und diese Methode sollte nicht angewandt werden. Beispiel mit drei Variablen Das o. g. Anwendungsbeispiel wird jetzt in Zahlen verdeutlicht: Wir betrachten die Variablen Länge, Breite, Knoten. Die Streudiagramme geben einen Eindruck über die gemeinsame Verteilung der Variablen wieder. Mit diesen drei Variablen wurde mit dem statistischen Programmpaket SPSS eine Hauptkomponentenanalyse durchgeführt. Die Ladungsmatrix <math>\Gamma ist Der Faktor <math>y_A setzt sich also zusammen aus Y_A 0{,}862 \cdot \mbox{Laenge} + 0{,}977 \cdot \mbox{Breite} - 0{,}679 \cdot \mbox{Knoten} Vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich. Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten: Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64 % der gesamten Varianz der Daten abgedeckt. Der dritte Faktor trägt nichts Nennenswertes zum Informationsgehalt bei. Beispiel mit acht Variablen Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix, hier „Komponentenmatrix“ genannt, zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste Hauptkomponente laden. Diese Komponente könnte man als „Größe“ bezeichnen. Die zweite Komponente wird zum größten Teil durch PS und Knoten erklärt. Die könnte „Geschwindigkeit“ genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius. Die beiden ersten Faktoren decken bereits ca. 84 % der Information der Schiffsdaten ab, der dritte Faktor erfasst noch einmal ca. 10 %. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich. Anwendung in der Clusteranalyse und Dimensionsreduktion Die Hauptkomponentenanalyse (PCA) wird auch häufig in der Clusteranalyse und zur Reduzierung der Dimension des Parameterraums verwendet, insbesondere dann, wenn man noch keinerlei Vorstellung (Modell) von der Struktur der Daten hat. Dabei macht man sich zunutze, dass die PCA das (orthogonale) Koordinatensystem so dreht, dass die Kovarianzmatrix diagonalisiert wird. Außerdem sortiert die PCA die Reihenfolge der Koordinatenachsen (die Hauptkomponenten) so um, dass die erste Hauptkomponente den größten Anteil der Gesamtstreuung im Datensatz enthält, die zweite Hauptkomponente den zweitgrößten Anteil, usw. Wie an den Beispielen im vorigen Abschnitt illustriert wurde, kann man meist die hinteren Hauptkomponenten (also diejenigen, welche nur einen geringen Anteil an der Gesamtstreuung enthalten) ersatzlos streichen, ohne dass dadurch ein nennenswerter Informationsverlust entsteht. Die Grundannahme für die Verwendung der PCA zur Clusteranalyse und Dimensionsreduktion lautet: Die Richtungen mit der größten Streuung (Varianz) beinhalten die meiste Information. In diesem Zusammenhang ist sehr wichtig, dass diese Grundannahme lediglich eine Arbeitshypothese ist, welche nicht immer zutreffen muss. Um diesen Sachverhalt zu veranschaulichen, folgen zwei Beispiele: Signal Variance: Die Grafik rechts mit dem Titel „PCA Signal Variance“ zeigt ein Beispiel, bei dem die Annahme zutrifft. Der Datensatz besteht aus zwei Clustern (rot und grün), die klar voneinander getrennt sind. Die Streuung der Datenpunkte innerhalb jedes Clusters ist sehr klein verglichen mit dem „Abstand“ der beiden Cluster. Entsprechend wird die erste Hauptkomponente x_1 sein. Außerdem ist klar ersichtlich, dass die erste Hauptkomponente x_1 völlig ausreichend ist, um die beiden Cluster voneinander zu trennen, während die zweite Hauptkomponente x_2 dazu keinerlei nützliche Information enthält. Die Anzahl der Dimensionen kann also von 2 auf 1 reduziert werden (durch Vernachlässigung von x_2) ohne dass man dabei wesentliche Informationen über die beiden Cluster verlieren würde. Die Gesamtvarianz des Datensatzes wird also vom Signal dominiert (zwei getrennte Cluster). Noise Variance: Die Grafik rechts mit dem Titel „PCA Noise Variance“ zeigt ein Beispiel, bei dem die Annahme nicht zutrifft und die PCA nicht zur Dimensionsreduktion verwendet werden kann. Die Streuung innerhalb der beiden Cluster ist nun deutlich größer und trägt den Hauptanteil an der Gesamtstreuung. Unter der Annahme dass diese Streuung innerhalb der Cluster durch Rauschen verursacht wird, nennt man diesen Fall noise variance. Die erste Hauptkomponente wird x_2 sein, welche keinerlei Information über die Trennbarkeit beider Cluster beinhaltet. Diese beiden Beispiele zeigen, wie man die PCA zur Reduzierung der Dimension und zur Clusteranalyse einsetzen kann bzw. dass dies nicht immer möglich ist. Ob die Grundannahme, dass die Richtungen der größten Streuung auch wirklich die interessantesten sind, nun zutrifft oder nicht, hängt vom jeweils gegebenen Datensatz ab und lässt sich oft nicht überprüfen – gerade dann, wenn die Anzahl der Dimensionen sehr hoch ist und sich die Daten demzufolge nicht mehr vollständig visualisieren lassen. Bei der Verwendung der PCA sind also Vorsicht und eine kritische Prüfung der Ergebnisse gefragt. Anwendung in der Bildverarbeitung Literatur Originalarbeiten Pearson, K: On lines and planes of closest fit to a system of points in space, The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, series 6, 2, 559–572 (1901). Lehrbücher Dunteman, GH: Principal Component Analysis, Sage Publications, 1989. Fahrmeir, L; Hamerle, A; Tutz, G (Hrsg): Multivariate statistische Verfahren, New York 1996. Hartung, J; Elpelt, B: Multivariate Statistik, München, Wien 1999. Hastie, T. ; Tibshirani, R. ; Friedman, J. : The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2001 Kessler, W: Multivariate Datenanalyse, Weinheim 2007 (Eine sehr gute allgemeinverständliche Einführung in die PCA mit Beispiel-CD). Krzanowski, WJ: Principles of Multivariate Analysis, Oxford University Press, rev. ed. 2000. Mardia, KV, Kent, JT, und Bibby, JM: Multivariate Analysis, New York 1979. Siehe auch Clusteranalyse Diskriminanzanalyse Projection Pursuit Grand Tour (Statistik) Weblinks http://www. cs. otago. ac. nz/cosc453/student_tutorials/principal_components. pdf (PDF-Datei; 117 kB) YALE (Yet Another Learning Environment): neben vielen Verfahren zur Klassifikation und Clusteranalyse beinhaltet die freie Software YALE auch Operatoren zur Hauptkomponentenanalyse (PCA, GHA, ICA, Kernel-PCA)
- Analýza hlavních komponent (Principal Component Analysis) je v teorii signálu transformace sloužící k dekorelaci dat. Často se používá ke snížení dimenze dat s co nejmenší ztrátou informace. PCA je možno najít také jako Karhunen-Loèveho transformaci nebo Hotellingovu transformaci. Z následujícího vzorce je vidět, že PCA je jen přepsáním vstupu do jiné souřadné soustavy: <math>Y = X P</math> kde X je centrovaná matice n x d se vstupními d-rozměrnými daty v n řádcích, Y obdobná matice výstupních dat, P je d x d matice vlastních vektorů kovarianční matice <math>C_X</math> splňující vztah <math>C_X = P \Lambda P^T</math>, kde <math>\Lambda</math> je diagonální matice obsahující na diagonále vlastní čísla <math>C_X</math> a matice vlastních vektorů <math>P</math> je ortonormální, tj. <math>P^T P = I_d</math>, kde <math>I_d</math> je jednotková matice dimenze <math>d</math>. Vlastní vektory (sloupce matice P) tvoří onu novou souřadnou soustavu. Centrování matice X dosáhneme odečtením příslušného výběrového průměru od každého sloupce.
- En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos. Intuitivamente la técnica sirve para determinar el número de factores subyacentes explicativos tras un conjunto de datos que expliquen la variabilidad de dichos datos. Técnicamente, el PCA busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. PCA se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. PCA comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.
- Pääkomponenttianalyysi (engl. Principal components analysis, PCA) on dimension redusointitekniikka. Pääkomponenttianalyysin tavoitteena on löytää monidimensioisesta datasta ne komponentit, joiden avulla sen keskeisimmät piirteet voidaan esittää ilman, että merkittävää informaatiota menee hukkaan. Pääkomponenttianalyysi on eräs keskeisimpiä menetelmiä hahmontunnistuksessa ja signaalinkäsittelyssä. Samankaltaisia menetelmiä ovat esimerkiksi faktorianalyysi, Karhunen–Loève-muunnos, Hotelling-muunnos ja singulaariarvohajotelma (SVD).
- L'analyse en composantes principales (ACP) est une méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre <math>n</math> variables aléatoires. L'ACP est aussi connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling. Lorsqu'on veut compresser un ensemble de <math>N</math> variables aléatoires, les <math>n</math> premiers axes de l'ACP sont un meilleur choix, du point de vue de l'inertie expliquée (cf plus loin).
- L'analisi in componenti principali (detta pure trasformata di Karhunen-Loève, KLT o trasformata di Hotelling) è una tecnica per la semplificazione dei dati utilizzata in ambito della statistica multivariata. Insieme all'analisi delle corrispondenze e all'analisi delle corrispondenze multiple, appartiene all'analisi fattoriale. Lo scopo primario di questa tecnica è la riduzione di un numero più o meno elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in alcune variabili latenti.
- 主成分分析(しゅせいぶんぶんせき、principal component analysis)は、経済学の分野などが発祥の統計手法。複数の変数間の共分散(相関)を少数の合成変数で説明する手法。 共分散行列の固有値問題の解として得ることができる。 例 市町村の人口・学校数・商業施設数・進学率・第一次産業の就業率・水道の普及率などには通常高い相関がある。この相関を1つの変数が作った偽相関と仮定し、数学的に算出する。それを第一主成分と呼ぶ。第一主成分は数学的な計算結果に過ぎない。これの意味を分析者が解釈し、たとえば「都市化指数」などと想定し、都市化の指標とする。その残差に対して同じ計算を適用して、主成分は第二、第三、と作れるがその変数間の関係を説明する主成分負荷量が小さくなっていくので、解釈困難になっていく場合が多い。 心理学やマーケティングで使われる因子分析が主成分分析と同一の手法であるとの誤解が生じるのは統計ソフトにおいて類似のルーチンを用いるためである。詳しくは因子分析の項目を参照のこと。
- Hoofdcomponentenanalyse is een multivariate analysemethode in de statistiek om een grote hoeveelheid gegevens te beschrijven met een kleiner aantal relevante grootheden, de hoofdcomponenten of principale componenten. Men spreekt van datareductie, hoewel strikt genomen de gegevens niet gereduceerd zijn, maar alleen de beschrijving ervan. Als hoofdcomponenten berekent de methode de eigenvectoren van de covariantiematrix van de gegevens en kiest daaruit de belangrijkste. Deze eigenvectoren zijn de hoofdassen van de ellipsoïde die door de covariantiematrix wordt beschreven en die min of meer de "puntenwolk" van de data voorstelt. Uitgangspunt van de hoofdcomponentenanalyse is de covariantiematrix C van de gegevens. Deze matrix heeft niet-negatieve eigenwaarden. De hoofdcomponenten zijn de orthogonale eigenvectoren van deze matrix. Deze eigenwaarden kunnen bepaald worden met behulp van standaardtechnieken uit de matrixrekening. De hoofdcomponenten worden gerangschikt naar belangrijkheid volgens de bijbehorende eigenwaarden. Er is sprake van datareductie wanneer slechts een deel van de hoofdcomponenten nodig is om de variatie in de data voldoende te verklaren. Hoofdcomponentenanalyse is bruikbaar als eerste stap bij een factoranalyse om het maximale aantal en de aard van de factoren te bepalen. Verwante methoden zijn Correspondentieanalyse (CA) of Reciprocal Averaging (RA) en de canonische vormen van PCA en CA: Redundancy Analysis (RDA) en Canonische Correspondentieanalyse (CCA)
- Analiza głównych składowych (ang. Principal Component Analysis, PCA) – jedna ze statystycznych metod analizy czynnikowej. Zbiór danych składający się z N obserwacji, z których każda obejmuje K zmiennych, można interpretować jako chmurę N punktów w przestrzeni K-wymiarowej. Celem PCA jest taki obrót układu współrzędnych, aby maksymalizować w pierwszej kolejności wariancję pierwszej współrzędnej, następnie wariancję drugiej współrzędnej, itd.. Tak przekształcone wartości współrzędnych nazywane są ładunkami wygenerowanych czynników (składowych głównych). W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki. PCA jest często używana do zmniejszania rozmiaru zbioru danych statystycznych, poprzez odrzucenie ostatnich czynników. Można też poszukać merytorycznej interpretacji czynników, zależnej od rodzaju danych, co pozwala lepiej zrozumieć naturę danych, choć bywa trudne przy większej liczbie badanych zmiennych. W przetwarzaniu sygnałów PCA jest używana np. do kompresji sygnału. PCA może być oparte albo na macierzy korelacji, albo macierzy kowariancji utworzonej ze zbioru wejściowego. Algorytm w obydwu wersjach jest poza tym identyczny, jednak różne są uzyskane wyniki. W przypadku użycia macierzy kowariancji, zmienne w zbiorze wejściowym o największej wariancji mają największy wpływ na wynik, co może być wskazane, jeśli zmienne reprezentują porównywalne wielkości, np. procentowe zmiany kursów różnych akcji. Użycie macierzy korelacji natomiast odpowiada wstępnej normalizacji zbioru wejściowego tak, aby każda zmienna miała na wejściu identyczną wariancję, co może być wskazane, jeśli wartości zmiennych nie są porównywalne.
- Метод главных компонент (англ. Principal components analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва или преобразованием Хотеллинга. Другие способы уменьшения размерности данных — это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, поиск наилучшей проекции, нейросетевые методы «узкого горла», самоорганизующиеся карты Кохонена и др.
- PCA står för principal component analysis och är en metod för att reducera antalet dimensioner i data, för att lättare hitta samband eller för visualisering. PCA väljer ut ett nytt koordinatsystem av lägre dimension och behåller så mycket variansen på datan som möjligt, samtidigt som komponenterna är vinkelräta och datan kommer inte att ha någon kovarians i det nya koordinatsystemet. Låt <math>x</math> vara en <math>n</math>-dimensionell vektor med attribut, till exempel från ett bildigenkänningsproblem. <math>x</math> skulle kunna bestå av tre färgvärden för en pixel. Samla <math>N>n</math> exempel på <math>x</math>, till exempel från alla pixlar i en given bild. Utför korrelationsanalys, dvs beräkna kovariansmatrisen <math>C</math> av datan. PCA är nu att hitta en linjär transform av data så att kovariansmatrisen blir diagonal, dvs i vilka riktningar data varierar mest. De riktningarna kallas principalkomponenter eller principalaxlar. Detta görs genom att linjärisera kovariansmatrisen.
- 在统计学中,主成分分析(principal components analysis (PCA))是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
|