Datenmatrix
In der Statistik ist die Datenmatrix, auch Versuchsplanmatrix, Designmatrix (von englisch research design: deutsch Versuchsplan), Modellmatrix, Beobachtungsmatrix, oder Regressormatrix genannt eine Matrix, die Daten über mehrere Merkmale mehrerer Personen oder Objekte (statistische Einheiten) enthält. Sie ist Grundlage des klassischen Modells der linearen Mehrfachregression.
Der Begriff Versuchsplan- 
bzw. Designmatrix (bezeichnet mit ) 
kommt aus dem Teilgebiet der statistischen 
Versuchsplanung, die sich mit dem statistisch optimalen Entwurf von 
Experimenten beschäftigt. Wenn die Werte der 
 
geplant sind (vom Forscher festgelegt), enthält die 
-Matrix 
im Wesentlichen den Versuchsplan und wird daher manchmal als Versuchsplanmatrix 
bezeichnet. 
Definition
Geht man davon aus, dass  
Untersuchungseinheiten 
vorliegen, an denen 
 
Variablen beobachtet wurden, dann ist der an der 
ten 
Untersuchungseinheit beobachtete Wert der 
ten 
Variable 
. 
Die Datenmatrix ist definiert als die 
-Matrix: 
.
Die te 
Zeile der Datenmatrix 
 
ist der – mit den am 
ten 
Objekt beobachteten Variablenwerten – gebildete Zeilenvektor 
. 
Man kann das 
te 
Objekt geometrisch als Punkt 
darstellen, indem man die Elemente als Koordinaten eines Punktes 
in einem 
-dimensionalen 
Merkmalsraum deutet, der von 
 
rechtwinkelig angeordneten Merkmalsachsen aufgespannt wird. Wenn man auf diese 
Art alle Zeilenvektoren 
von 
 
als Punkte darstellt, ergibt sich eine die Objekte (Untersuchungseinheiten) 
repräsentierende Verteilung von Punkten im Merkmalsraum. 
Ebenso kann man die Datenmatrix als Zusammenfassung der Spaltenvektoren  
deuten. Jeder Spaltenvektor ist einer Variablen 
 
zugeordnet und beinhaltet die an den Untersuchungseinheiten beobachteten Werte 
dieser Variablen. Mit diesen Werten können die Variablen in einem 
rechtwinkeligen Koordinatensystem, in dem die Achsen die 
 
Untersuchungseinheiten repräsentieren, als Punkte dargestellt werden. Im von den 
 
Achsen aufgespannten Objektraum lassen sich die Beziehungen zwischen den 
Variablen veranschaulichen. 
Alternative Darstellungen
Die Datenmatrix  
kann als eine partitionierte 
Matrix bzgl. seiner 
 
Spalten ausgedrückt werden als: 
. 
Die Spalten der Datenmatrix  
inklusive des Einsvektors 
 
sind alle 
-dimensionale 
Vektoren und daher Punkte im Datenraum. Da für gewöhnlich angenommen wird, dass 
 
von Rang 
 
ist, sind die Vektoren linear 
unabhängig. Die Menge aller möglichen Linearkombinationen 
der Spalten von 
 
bilden eine Teilmenge des Datenraums. 


© biancahoegel.de
Datum der letzten Änderung: Jena, den: 04.03. 2020