Mehrdimensionale Normalverteilung

Dichte der bivariaten Normalverteilung im dreidimensionalen Raum

Die mehrdimensionale oder multivariate Normalverteilung ist ein Typ multivariater Wahrscheinlichkeitsverteilungen und stellt eine Verallgemeinerung der (eindimensionalen) Normalverteilung auf mehrere Dimensionen dar.[1] Eine zweidimensionale Normalverteilung wird auch bivariate Normalverteilung genannt.

Bestimmt wird eine multivariate Normalverteilung durch zwei Verteilungsparameter – den Vektor der Erwartungswerte der eindimensionalen Komponenten \mu und durch die Kovarianzmatrix \Sigma , welche den Parametern \mu und \sigma ^{2} der eindimensionalen Normalverteilungen entsprechen.

Multivariat normalverteilte Zufallsvariablen treten als Grenzwerte bestimmter Summen unabhängiger mehrdimensionaler Zufallsvariablen auf. Dies ist die Verallgemeinerung des zentralen Grenzwertsatz zum mehrdimensionalen zentralen Grenzwertsatz.

Weil sie entsprechend dort auftreten, wo mehrdimensionale zufällige Größen als Überlagerung vieler voneinander unabhängiger Einzeleffekte angesehen werden können, haben sie für die Praxis eine große Bedeutung.

Aufgrund der sogenannten Reproduktionseigenschaft der multivariaten Normalverteilung lässt sich die Verteilung von Summen (und Linearkombinationen) multivariat normalverteiler Zufallsvariabler konkret angeben, was auf dem Gebiet der multivariaten Statistik eine Rolle spielt.

Die multivariate Normalverteilung: allgemeiner Fall

10000 Stichproben einer zweidimensionalen Normalverteilung mit \sigma _{1}=1, \sigma _{2}=2 und ρ = 0.7

Eine p-dimensionale reelle Zufallsvariable X ist normalverteilt mit Erwartungswertvektor \mu und (positiv definiter) Kovarianzmatrix \Sigma , wenn sie eine Dichtefunktion der Form

{\displaystyle f_{X}(x)={\frac {1}{\sqrt {(2\pi )^{p}\det(\Sigma )}}}\exp \left(-{\frac {1}{2}}({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)}

besitzt. Man schreibt

X\sim {\mathcal  N}_{p}(\mu ,\Sigma ).

Für die zugehörige Verteilungsfunktion F gibt es keine geschlossene Formel. Die entsprechenden Integrale müssen numerisch berechnet werden.

Der Wert im Exponentialteil der Dichtefunktion ({\mathbf x}-{\boldsymbol\mu})^\mathrm{T}{\boldsymbol\Sigma}^{-1}({\mathbf x}-{\boldsymbol\mu}) entspricht der Mahalanobis-Distanz, welche die Distanz vom Testpunkt {{\mathbf  x}} zum Mittelwert {\boldsymbol\mu} darstellt. Im Vergleich mit der Dichtefunktion der eindimensionalen Normalverteilung spielt bei der multivariaten Normalverteilung \Sigma die Rolle von \sigma ^{2}.

Die multivariate Normalverteilung hat die folgenden Eigenschaften:

Y=\Sigma ^{{-{\frac  12}}}(X-\mu )
standardisiert den Zufallsvektor X\,: es ist {\displaystyle Y\sim {\mathcal {N}}_{p}(0,E)\,} (mit Einheitsmatrix E).
{X}={\binom  {{X}_{1}}{{X}_{2}}}\sim {\mathcal  N}\left({\binom  {{\mu }_{1}}{{\mu }_{2}}},{\begin{pmatrix}{\Sigma }_{{11}}&{\Sigma }_{{12}}\\{\Sigma }_{{21}}&{\Sigma }_{{22}}\end{pmatrix}}\right)
gilt
X_{1}\mid X_{2}\sim {\mathcal  N}\left(\mu _{1}+\Sigma _{{12}}\Sigma _{{22}}^{{-1}}(X_{2}-\mu _{2}),\Sigma _{{11}}-\Sigma _{{12}}\Sigma _{{22}}^{{-1}}\Sigma _{{21}}\right),
insbesondere hängt der Erwartungswert linear vom Wert von X_{2} ab und die Varianz ist unabhängig vom Wert von X_{2}.

Die Randverteilung der multivariaten Normalverteilung

Bivariate Normalverteilung mit Randverteilungen

Sei X\sim {\mathcal  {N}}_{n}(\mu ,\Sigma ) multivariat normalverteilt. Für eine beliebige Partition X=:(X_{1},X_{2}) mit X_{1}\in {\mathbb  {R}}^{k} und X_{2}\in {\mathbb  {R}}^{{n-k}}, k<n, gilt, dass die Randverteilungen {\mathrm  {P}}_{{X_{1}}} und {\mathrm  {P}}_{{X_{2}}} (multivariate) Normalverteilungen sind.

Die Umkehrung gilt allerdings nicht, wie folgendes Beispiel zeigt:

Sei {\displaystyle X_{1}\sim {\mathcal {N}}_{k}(0,E_{k})} und sei X_{2} definiert durch

X_{2}:=\left\{{\begin{array}{rl}X_{{1}}&{\text{ mit Wahrscheinlichkeit }}p_{{1}}\\-X_{{1}}&{\text{ mit Wahrscheinlichkeit }}p_{{2}},\end{array}}\right.

wobei p_{1}+p_{2}=1. Dann ist ebenso {\displaystyle X_{2}\sim {\mathcal {N}}_{k}(0,E_{k})} und

{\displaystyle \operatorname {Cov} \left(X_{1},X_{2}\right)=\left({\begin{array}{cc}E_{k}&\left(p_{1}-p_{2}\right)E_{k}\\\left(p_{1}-p_{2}\right)E_{k}&E_{k}\end{array}}\right).}

Demnach ist die Kovarianz (und damit die Korrelation) von X_{1} und X_{2} gleich {\displaystyle 0} genau dann, wenn p_{1}=p_{2}={\frac  {1}{2}}. Aber X_{1} und X_{2} sind nach Definition nicht unabhängig, da X_{2} immer gleich \pm X_{1} ist. Daher ist insbesondere X:=(X_{1},X_{2}) nicht multivariat normalverteilt.

Die p-dimensionale Standardnormalverteilung

Dichte der zweidimensionalen Standardnormalverteilung

Das Wahrscheinlichkeitsmaß auf \mathbb {R} ^{p}, das durch die Dichtefunktion

f_{X}:\mathbb{R} ^{p}\to \mathbb{R} ,\,(x_{1},\ldots ,x_{p})\mapsto {\frac  1{{\sqrt  {(2\pi )^{p}}}}}\exp \left(-{\frac  12}\sum _{{i=1}}^{p}x_{i}^{2}\right)

definiert wird, heißt Standardnormalverteilung der Dimension p. Die p-dimensionale Standardnormalverteilung ist abgesehen von Translationen (d.h. Erwartungswert \mu \neq 0) die einzige multivariate Verteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist.

Momente und Kumulanten

Wie im univariaten Fall, sind alle Momente der multivariate Normalverteilung durch die ersten beiden Momente definiert. Alle Kumulanten außer den ersten beiden sind 0. Die ersten beiden Kumulanten sind dabei der Mittelwert \mu und die Kovarianz \Sigma . In Bezug auf das multivariate Momentenproblem hat die Normalverteilung die Eigenschaft, dass sie durch ihre Momente eindeutig definiert ist. Das heißt, wenn alle Momente einer multivariaten Wahrscheinlichkeitsverteilung existieren und den Momenten einer multivariaten Normalverteilung entsprechen, ist die Verteilung die eindeutige multivariate Normalverteilung mit diesen Momenten.

Dichte der zweidimensionalen Normalverteilung

Die Dichtefunktion der zweidimensionalen Normalverteilung mit Mittelwert = (0,0), \sigma _{1}^{2}=\sigma _{2}^{2}=1 und Korrelationskoeffizient \varrho ist

f_{X}(x_{1},x_{2})={\frac  1{2\pi {\sqrt  {1-\varrho ^{2}}}}}\exp \left(-{\frac  1{2(1-\varrho ^{2})}}(x_{1}^{2}-2\varrho \,x_{1}x_{2}+x_{2}^{2})\right).
Jeweils 10.000 Stichproben zweidimensionaler Normalverteilungen mit ρ = -0.8, 0, 0.8 (alle Varianzen sind 1).

Im allgemeineren zweidimensionalen Fall mit Mittelwert = (0,0) und beliebigen Varianzen ist die Dichtefunktion

f_{X}(x_{1},x_{2})={\frac  {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt  {1-\varrho ^{2}}}}}\,\exp \left(-{\frac  {1}{2(1-\varrho ^{2})}}\left[{\frac  {x_{1}^{2}}{\sigma _{1}^{2}}}+{\frac  {x_{2}^{2}}{\sigma _{2}^{2}}}-{\frac  {2\varrho x_{1}x_{2}}{\sigma _{1}\sigma _{2}}}\right]\right),

und den allgemeinsten Fall mit Mittelwert = (\mu _{1},\mu _{2}) bekommt man durch Translation (ersetze x_{1} durch x_{1}-\mu _{1} und x_{2} durch x_{2}-\mu _{2}).

Beispiel für eine multivariate Normalverteilung

Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:

X_{1}: Höhe eines Baumes [m]; X_{2}: Ertrag [100 kg]; X_{3}: Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

X_{1}\sim {\mathcal  {N}}(4;1);X_{2}\sim {\mathcal  {N}}(20;100);X_{3}\sim {\mathcal  {N}}(20;225);.

Die meisten Bäume sind also um 4 ± 1m groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt {\mathsf  {Cov}}(X_{1},X_{2})=9 und der Korrelationskoeffizient \varrho _{{12}}=0{,}9.

Ebenso ist {\mathsf  {Cov}}(X_{1},X_{3})=12{,}75 mit dem Korrelationskoeffizienten \varrho _{{13}}=0{,}85, und {\mathsf  {Cov}}(X_{2},X_{3})=120 mit dem Korrelationskoeffizienten \varrho _{{23}}=0{,}8.

Fasst man die drei Zufallsvariablen im Zufallsvektor X:=(X_{1},X_{2},X_{3}) zusammen, ist X multivariat normalverteilt. Dies gilt allerdings nicht im Allgemeinen (vgl. Die Randverteilung der multivariaten Normalverteilung). Im vorliegenden Fall gilt dann für die gemeinsame Verteilung von X

{\displaystyle {\boldsymbol {\mu }}={\begin{pmatrix}4\\20\\20\end{pmatrix}}}

und

\Sigma ={\begin{pmatrix}1&9&12{,}75\\9&100&120\\12{,}75&120&225\end{pmatrix}}.

Die entsprechende Korrelationsmatrix ist

R={\begin{pmatrix}1&0{,}9&0{,}85\\0{,}9&1&0{,}8\\0{,}85&0{,}8&1\end{pmatrix}}.

Stichproben bei multivariaten Verteilungen

In der Realität werden in aller Regel die Verteilungsparameter einer multivariaten Verteilung nicht bekannt sein. Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang T. Jede Realisation {\displaystyle t\in \{1,\ldots ,T\}} des Zufallsvektors {\displaystyle {\boldsymbol {x}}} könnte man als Punkt in einem K-dimensionalen Hyperraum auffassen. Man erhält so die {\displaystyle (T\times K)}-Datenmatrix {\displaystyle {\boldsymbol {X}}} als

{\displaystyle {\boldsymbol {X}}={\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1k}&\cdots &x_{1K}\\x_{21}&x_{22}&\cdots &x_{2k}&\cdots &x_{2K}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{t1}&x_{t2}&\cdots &x_{tk}&\cdots &x_{tK}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{T1}&x_{T2}&\cdots &x_{Tk}&\cdots &x_{TK}\end{pmatrix}}_{(T\times K)}={\begin{pmatrix}\ {\boldsymbol {x}}_{1}^{T}\\\ {\boldsymbol {x}}_{2}^{T}\\\vdots \\\ {\boldsymbol {x}}_{t}^{T}\\\vdots \\\\{\boldsymbol {x}}_{T}^{T}\end{pmatrix}}_{(T\times K)}={\begin{pmatrix}{\boldsymbol {x}}_{(1)}{\boldsymbol {x}}_{(2)}&\cdots &{\boldsymbol {x}}_{(k)}&\cdots &{\boldsymbol {x}}_{(K)}\end{pmatrix}}_{(T\times K)}}, wobei {\displaystyle {\boldsymbol {x}}_{(1)}=1\!\!1_{T}={\begin{pmatrix}1\\1\\\vdots \\1\\\vdots \\1\end{pmatrix}}_{(T\times 1)}}

die in jeder Zeile die Koordinaten eines Punktes enthält.

Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der K arithmetischen Mitteln der Spalten von {\displaystyle {\boldsymbol {X}}}

{\displaystyle {\widehat {E({\boldsymbol {x}})}}={\boldsymbol {\bar {x}}}={\begin{pmatrix}{\bar {x}}_{1}\\{\bar {x}}_{2}\\\vdots \\{\bar {x}}_{k}\\\vdots \\{\bar {x}}_{K}\end{pmatrix}}}

mit den Komponenten

{\displaystyle {\bar {x}}_{k}={\frac {1}{T}}\sum _{i=1}^{T}x_{tk}.}

Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix {\displaystyle {\boldsymbol {X}}^{*}} als nützlich. Sie berechnet sich als

{\displaystyle {\boldsymbol {X}}^{*}={\boldsymbol {X}}-{\boldsymbol {x}}_{(1)}=1\!\!1_{T}\cdot {\boldsymbol {\bar {x}}}^{T},}

mit den Elementen {\displaystyle x_{tk}^{*}}, wobei {\displaystyle {\boldsymbol {x}}_{(1)}=1\!\!1_{T}} den Einsvektor, einen Spaltenvektor der Länge T mit lauter Einsen, darstellt. Es wird also bei allen Einträgen das arithmetische Mittel der zugehörigen Spalte subtrahiert.

Die {\displaystyle (K\times K)}-Kovarianzmatrix hat die geschätzten Komponenten

{\displaystyle s_{jk}={\widehat {\operatorname {Cov} }}({\boldsymbol {X}}_{J},{\boldsymbol {X}}_{K})={\frac {1}{T-1}}\sum _{t=1}^{T}x_{tj}^{*}x_{tk}^{*}.}

Sie ergibt sich als

{\displaystyle {\widehat {\boldsymbol {\Sigma }}}={\boldsymbol {S}}={\frac {1}{T-1}}{\boldsymbol {X}}^{*T}{\boldsymbol {X}}^{*}.}

Die Korrelationsmatrix {\displaystyle {\boldsymbol {R}}} wird geschätzt durch die paarweisen Korrelationskoeffizienten

{\displaystyle r_{jk}={\frac {\sum \limits _{t=1}^{T}x_{tj}^{*}x_{tk}^{*}}{{\sqrt {\sum \limits _{t=1}^{T}{x_{tj}^{*}}^{2}}}{\sqrt {\sum \limits _{t=1}^{T}{x_{tk}^{*}}^{2}}}}},}

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu Stichproben

Es wurden 10 Apfelbäume zufällig ausgewählt und jeweils 3 Eigenschaften gemessen: X_{1}: Höhe eines Baumes [m]; X_{2}: Ertrag [100 kg]; X_{3}: Zahl der Blätter [1000 Stück]. Diese 10 Beobachtungen werden in der Datenmatrix X zusammengefasst:

X={\begin{pmatrix}3{,}3&24&27\\4{,}9&41&55\\5{,}9&46&52\\5{,}2&49&54\\3{,}6&29&34\\4{,}2&33&51\\5{,}0&42&43\\5{,}1&35&54\\6{,}8&60&70\\5{,}0&41&50\end{pmatrix}}.

Die Mittelwerte berechnen sich, wie beispielhaft an {\bar  x}_{1} gezeigt, als

{\bar  x}_{1}={\frac  {1}{10}}(3{,}3+4{,}9+\ldots +5{,}0)=4{,}9.

Sie ergeben den Mittelwertvektor

{\displaystyle {\boldsymbol {\bar {x}}}={\begin{pmatrix}4{,}9\\40\\49\end{pmatrix}}.}

Für die zentrierte Datenmatrix X^* erhält man die zentrierten Beobachtungen, indem von den Spalten der entsprechende Mittelwert abzogen wird:

{\begin{array}{lll}3{,}3-4{,}9=-1{,}6&24-40=-16&27-49=-22\\4{,}9-4{,}9=0&41-40=1&55-49=6\\\vdots \end{array}},

also

X^{*}={\begin{pmatrix}-1{,}6&-16&-22\\0{,}0&1&6\\1{,}0&6&3\\0{,}3&9&5\\-1{,}3&-11&-15\\-0{,}7&-7&2\\0{,}1&2&-6\\0{,}2&-5&5\\1{,}9&20&21\\0{,}1&1&1\end{pmatrix}}.

Man berechnet für die Kovarianzmatrix die Kovarianzen, wie im Beispiel,

s_{12}=\widehat{\operatorname{Cov}}(X_1,X_2)=\frac 19(-1{,}6 \cdot (-16)+0\cdot 1+\ldots+0{,}1\cdot 1) =\frac{90{,}80}{9}\approx 10{,}09

und entsprechend die Varianzen

s_{{22}}={\hat  V}(X_{2})={\frac  {1}{9}}((-16)^{2}+1^{2}+...+1^{2})={\frac  {974}{9}}\approx 108{,}22,

so dass sich die Kovarianzmatrix

S={\begin{pmatrix}1{,}06&10{,}09&10{,}91\\10{,}09&108{,}22&106{,}22\\10{,}91&106{,}22&142{,}89\end{pmatrix}}

ergibt.

Entsprechend erhält man für die Korrelationsmatrix zum Beispiel

r_{{12}}={\frac  {10{,}09}{{\sqrt  {1{,}06\cdot 108{,}22}}}}\approx 0{,}9439

bzw. insgesamt

R={\begin{pmatrix}1&0{,}9439&0{,}8884\\0{,}9439&1&0{,}8542\\0{,}8884&0{,}8542&1\end{pmatrix}}.

Erzeugung mehrdimensionaler, normalverteilter Zufallszahlen

Eine oft verwendete Methode zur Erzeugung eines Zufallsvektors X einer N-dimensionalen Normalverteilung mit Mittelwertvektor \mu und (symmetrischer und positiv definiter) Kovarianzmatrix \Sigma kann wie folgt angegeben werden:

  1. Bestimme eine Matrix A, so dass AA^{T}=\Sigma . Dazu kann die Cholesky-Zerlegung von \Sigma oder eine Quadratwurzel von \Sigma verwendet werden.
  2. Sei Z=(Z_{1},\ldots ,Z_{N})^{T} ein Vektor, dessen N Komponenten stochastisch unabhängige, standardnormalverteilte Zufallszahlen sind. Diese können beispielsweise mit Hilfe der Box-Muller-Methode generiert werden.
  3. Mit der affinen Transformation X=\mu +AZ ergibt sich die gewünschte IMG class="text" style="width: 2.07ex; height: 2.17ex; vertical-align: -0.33ex;" alt="N" src="/svg/f5e3890c981ae85503089652feb48b191b57aae3.svg">-dimensionale Normalverteilung.

Streuregionen der mehrdimensionalen Normalverteilung

Siehe auch: Streukreisradius

Für eindimensionale normalverteilte Zufallsvariablen liegen ungefähr 68,27 % der Realisierungen im Intervall {\displaystyle \mu \pm \sigma }, für mehrdimensionale normalverteilte Zufallsvariablen sind die Regionen konstanter Wahrscheinlichkeit durch Ellipsen (die Standardabweichungsellipsen) gegeben, welche um den Mittelwert zentriert sind. Die Hauptachsen der Ellipse sind durch die Eigenvektoren der Kovarianzmatrix \Sigma gegeben, die Länge der Halbachsen ist die Quadratwurzel des zur jeweiligen Hauptachse gehörenden Eigenwertes \sigma _{i}. Eine Realisierung der Zufallsvariablen in der Region anzutreffen, welche durch die (mehrdimensionale) Standardabweichungsellipse begrenzt wird, ist für eine mehrdimensional normalverteilte Zufallsvariable weniger wahrscheinlich.

Darstellung der Standardabweichungsellipse einer zweidimensionalen Normalverteilung, sowie der beiden Marginalverteilungen.

Nach einer Hauptachsentransformation können die Achsen mit ihren jeweiligen \sigma _{i} normiert werden. Dann lässt sich die Wahrscheinlichkeit als Funktion von dem Radius r berechnen, mit der ein Messwert innerhalb dieses Radius liegt. Mit

{\displaystyle r'^{2}=\sum _{i=1}^{p}(x_{i}-\mu _{i})^{2}/\sigma _{i}^{2}}

ist der Anteil

{\displaystyle \pi (r)={\frac {\int _{0}^{r}f_{X}(r')r'^{p-1}dr'}{\int _{0}^{\infty }f_{X}(r')r'^{p-1}dr'}}=P\left({\frac {p}{2}},{\frac {r^{2}}{2}}\right)}

der Messwerte höchstens im Abstand r vom Mittelwert einer p-dimensionalen Normalverteilung. Dabei ist P die regularisierte unvollständige Gammafunktion der oberen Grenze.

\pi in %   {\displaystyle r=\sigma }   {\displaystyle r=2\sigma }   {\displaystyle r=3\sigma }  
p=1 68,27 95,45 99,73
p=2 39,35 86,47 98,89
p=3 19,87 73,85 97,07

Entsprechend kann mit der Umkehrfunktion der Streuradius r angegeben werden, in der ein vorgegebener Anteil an Messwerten liegt:

{\displaystyle r={\sqrt {2P^{-1}\left({\frac {p}{2}},\pi \right)}}}
r in \sigma   {\displaystyle \pi =50\%}   {\displaystyle \pi =90\%}   {\displaystyle \pi =99\%}  
p=1 0,675 1,645 2,576
p=2 1,177 2,146 3,035
p=3 1,538 2,500 3,368

Anmerkungen

  1. Mehrdimensionale und multivariate Normalverteilung werden in diesem Artikel synonym verwendet. Bei Hartung/Elpelt: Multivariate Statistik haben sie aber (in Kapitel 1, Abschnitt 5) unterschiedliche Bedeutungen: hier ist die multivariate Normalverteilung eine Matrix-Verteilung.
Trenner
Basierend auf einem Artikel in: Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 04.03. 2020