Effektstärke
Effektstärke (auch Effektgröße) bezeichnet das mit Hilfe statistischer Kenngrößen quantifizierbare Ausmaß eines empirischen Effekts und wird zur Verdeutlichung der praktischen Relevanz der Ergebnisse statistischer Tests herangezogen. Zur Messung der Effektstärke werden unterschiedliche Effektmaße verwendet.
Definition
Es sind unterschiedliche Maße der Effektstärke in Gebrauch. Nach Cohen[1] sollte für eine Maßzahl der Effektstärke gelten:
- Sie ist eine dimensionslose Zahl,
- sie hängt nicht von der Maßeinheit der Ursprungsdaten ab,
- sie ist, im Gegensatz zu Teststatistiken, unabhängig von der Stichprobengröße und
- ihr Wert sollte nahe bei Null liegen, wenn die Nullhypothese des zugehörigen Tests nicht abgelehnt wurde.
Beispiel
Verglichen wird die Intelligenzleistung von Kindern, die nach einer neuen Methode unterrichtet wurden, mit Kindern, die nach der herkömmlichen Methode unterrichtet wurden. Wenn eine sehr große Anzahl von Kindern pro Stichprobe erfasst wurde, können schon Unterschiede von beispielsweise 0,1 IQ-Punkten zwischen den Gruppen signifikant werden. Ein Unterschied von 0,1 IQ-Punkten bedeutet aber trotz eines signifikanten Testergebnisses kaum eine Verbesserung.
Rein anhand der Signifikanz (p-Wert) des Ergebnisses könnte die Schlussfolgerung sein, dass die neue Methode eine bessere Intelligenzleistung bewirkt, und die alte Lehrmethode würde unter womöglich hohem Kostenaufwand abgeschafft werden, obwohl der tatsächlich erzielte Effekt – eine Steigerung um 0,1 Punkte – diesen Aufwand kaum rechtfertigt.
Verwendung in der Forschung
Effektstärke bezeichnet bei Experimenten (insbesondere in der Medizin, den Sozialwissenschaften und der Psychologie) das Ausmaß der Wirkung eines experimentellen Faktors. Bei Regressionsmodellen dient sie als Indikator für den Einfluss einer Variablen auf die erklärte Variable. Effektgrößen werden bei Metaanalysen berechnet, um die Ergebnisse von verschiedenen Studien in einem einheitlichen Maß – der Effektgröße – miteinander vergleichen zu können.
Die Effektgröße kann einerseits nach einer Untersuchung berechnet werden, um Unterschiede zwischen Gruppen in einem standardisierten Maß vergleichen zu können. Allerdings kann es auch sinnvoll sein, eine Mindesteffektgröße vor der Durchführung einer Untersuchung bzw. eines Tests festzulegen. Nehmen wir an, es wurde ein Experiment mit einem Faktor mit nur sehr kleiner Wirkung auf den untersuchten Parameter durchgeführt. Ein anschließender statistischer Test, der auf einem sehr großen Stichprobenumfang basiert, wird dennoch sehr wahrscheinlich signifikant. Die sich daraus ergebende Ablehnung der Nullhypothese könnte zu der Annahme verleiten, dass der untersuchte Faktor praktische Bedeutung besitzt. Dass das jedoch nicht der Fall ist, wird durch die kleine Effektstärke angezeigt.
Effektstärke und statistische Signifikanz
In der praktischen Anwendung statistischer Tests wird ein kleiner p-Wert häufig mit einer hohen Effektstärke assoziiert. Zwar ist es tatsächlich der Fall, dass unter
Beibehaltung der anderen Parameter einer Testsituation (Stichprobengröße, gewähltes Signifikanzniveau, erforderliche Trennschärfe) ein kleinerer
p-Wert mit einer größeren Effektstärke assoziiert ist. Dieses
ist allerdings nur die Irrtumswahrscheinlichkeit und sein konkreter Wert hängt vom jeweiligen statistischen Test (bzw. der zugrundeliegenden Verteilungen) und dem Stichprobenumfang ab (größere Stichproben erzeugen
systematisch kleinere p-Werte), sodass er etwa für Vergleiche zwischen Ergebnissen unterschiedlicher Tests oder unterschiedlich großer Stichproben nicht aussagekräftig ist. Von einem Maß für die Effektstärke erwartet
man aber, dass es sich sinnvoll für solche Vergleiche heranziehen lässt.
Es ist – z. B. bei der Durchführung einer Meta-Analyse – möglich, aus einer berichteten Irrtumswahrscheinlichkeit eine zugeordnete Effektstärke zu bestimmen, wenn die Stichprobengröße bekannt ist. Ein statistischer Test besteht
im Wesentlichen daraus, anhand einer speziellen (sinnvollerweise nicht-zentralen) Stichprobenverteilung für die verwendete Teststatistik
(z. B. beim F-Test
für eine Varianzanalyse oder
beim t-Test)
zu überprüfen, ob der empirisch gefundene Wert der Statistik plausibel (oder unplausibel) ist, wenn man annimmt, eine spezielle
zu überprüfende Nullhypothese sei korrekt. Aus der gegebenen Irrtumswahrscheinlichkeit
,
der Information über die Stichprobengröße
und anderen erforderlichen Parametern der gewählten Verteilung lässt sich dann die Effektstärke des Testergebnisses berechnen. In ähnlicher Weise kann ein berichtetes eingehaltenes Signifikanzniveau dazu verwendet werden,
eine Abschätzung zu geben, wie groß die Effektstärke mindestens gewesen sein muss, damit für eine gegebene Stichprobengröße das berichtete Signifikanzniveau eingehalten werden konnte.
In der Fisherschen Testtheorie kann der p-Wert eine Effektgröße darstellen, da ein kleiner p-Wert als hohe Wahrscheinlichkeit für das Zutreffen der Forschungshypothese interpretiert wird. Bedingt durch die Standardisierung der Teststatistiken kann jedoch durch Vergrößern der Stichprobe jeder Effekt signifikant „gemacht“ werden. Unter Neyman-Pearson ist allerdings der Tatsache Rechnung zu tragen, dass ein Annehmen der Forschungshypothese immer mit einem Ablehnen der Nullhypothese einhergeht. Ein Ergebnis, das unter der Nullhypothese hochsignifikant wird, kann unter der Forschungshypothese noch viel unwahrscheinlicher sein, da sich die Trennschärfe extrem reduziert. Als Effektgröße ist der p-Wert somit nicht geeignet, da der Effekt in der Forschungshypothese zu klein sein kann, um praktische Bedeutung zu haben.
Maßzahlen für die Effektstärke
Bravais-Pearson-Korrelationskoeffizient
Der Bravais-Pearson-Korrelationskoeffizient
ist eine der meistgenutzten und ältesten Maßzahlen
für Effektstärken bei Regressionsmodellen. Sie erfüllt in natürlicher Weise die Anforderungen, die Cohen an eine Effektstärke stellte.
Nach Cohen[1] indiziert
einen kleinen Effekt,
einen mittleren und
einen starken Effekt.
Alternativ kann das Bestimmtheitsmaß
benutzt werden.
Cohens d
Cohens d[1] ist die Effektgröße für Mittelwertunterschiede zwischen zwei Gruppen mit gleichen Gruppengrößen
sowie gleichen Gruppenvarianzen
und hilft bei der Beurteilung der
praktischen Relevanz eines signifikanten Mittelwertunterschieds (siehe auch t-Test):
Als Schätzer für gleiche Gruppengrößen und unterschiedliche Varianzen wurde von Cohen
angegeben, wobei
den jeweiligen Mittelwert aus den beiden Stichproben und
die geschätzten Varianzen
aus den beiden Stichproben nach der Gleichung
bezeichnen.
Nach Cohen[1] bedeutet ein
zwischen 0,2 und 0,5 einen kleinen Effekt, zwischen 0,5 und 0,8 einen mittleren und ein
größer als 0,8 einen starken Effekt.[2]
Ungleiche Gruppengrößen und Gruppenvarianzen
Andere Autoren als Cohen schätzen die Standardabweichung
mit Hilfe der gepoolten Varianz[3] als
mit
Umrechnung in r
Wird die Zugehörigkeit zu der einen Stichprobe mit Null und zu der anderen mit Eins kodiert, so kann ein Korrelationskoeffizient
berechnet werden. Er ergibt sich aus Cohens
als
.
Im Gegensatz zu Cohens ist der Korrelationskoeffizient
nach oben durch Eins beschränkt. Cohen[1] schlug vor, von einem schwachen Effekt ab einem r=0,10, einem mittleren Effekt ab einem r=0,30 und einem starken Effekt ab r=0,50 zu sprechen.
Je nach inhaltlichem Kontext wurde diese Einteilung mittlerweile revidiert. Für die Psychologie konnte beispielsweise empirisch aufgezeigt werden, dass r=0,05 einem sehr kleinen, r=0,10 einem kleinen, r=0,20 einem
mittleren, r=0,30 einem großen und r≥0,40 einem sehr großen Effekt entspricht.[4]
Glass’ Δ
Gene V. Glass schlug 1976 vor, nur die Standardabweichung der zweiten Gruppe zu benutzen
Die zweite Gruppe wird hier als Kontrollgruppe betrachtet. Wenn Vergleiche mit mehreren Experimentalgruppen durchgeführt werden, dann ist es besser
aus der Kontrollgruppe zu schätzen, damit die Effektstärke nicht von den geschätzten Varianzen der Experimentalgruppen abhängt.
Unter der Annahme von ungleichen Varianzen in beiden Gruppen ist jedoch die gepoolte Varianz der bessere Schätzer.
Hedges g
Larry Hedges schlug 1981 eine weitere Modifikation vor.[5] Es handelt sich dabei um den gleichen Ansatz wie bei Cohen’s d, mit einer Korrektur der gepoolten Standardabweichung. Leider ist die Terminologie oft ungenau. Ursprünglich
wurde diese korrigierte Effektstärke auch d genannt.[6] Hedges g wird auch Cohens
genannt.[7]
Cohens d und Hedges g sind weitgehend vergleichbar, allerdings gilt Hedges Modifikation als fehleranfälliger.[8] Insbesondere liefert Hedges g für kleine
Stichproben keine erwartungstreuen Schätzer, kann aber korrigiert werden.[9] Hedges g kann nützlich sein, wenn die Stichprobengrößen unterschiedlich sind.[10]
Hedges g wird wie folgt berechnet:
und
ergibt einen verzerrten Schätzer der Effektstärke. Einen unverzerrten Schätzer g* erhält man durch folgende Korrektur:[11]
und
ergibt einen unverzerrten Schätzer, der zur Berechnung der Konfidenzintervalle der Effekt-Stärken von Stichprobenunterschieden besser geeignet ist als Cohens d, welcher die Effekt-Stärke in der Grundgesamtheit schätzt.
bezeichnet hierbei die Gamma-Funktion.
Cohens f2
Cohens ist ein Maß für die Effektstärke
im Rahmen der Varianzanalyse beziehungsweise des F-Tests und der Regressionsanalyse.
Regressionsanalyse
Die Effektstärke berechnet sich
mit den Bestimmtheitsmaßen
mit allen Variablen des
Regressionsmodells und
ohne die zu testende Variable.
Ist nur der gemeinsame Effekt aller Variablen von Interesse, reduziert sich die obige Formel zu
Nach Cohen[1] indiziert
einen kleinen Effekt,
einen mittleren und
einen starken Effekt.
F-Test bzw. Varianzanalyse
Die Effektstärke berechnet sich für
Gruppen als
mit dem Schätzer für die Standardabweichung innerhalb von Gruppen.
Nach Cohen[1] indiziert
einen kleinen Effekt,
einen mittleren und
einen starken Effekt.
Partielles Eta-Quadrat
Die Effektstärke kann auch über das partielle Eta-Quadrat angegeben werden. Die Berechnung ergibt sich folgendermaßen:
mit als
Quadratsumme des jeweiligen zu bestimmenden Effektes und
als
Residuenquadratsumme.[12] Multipliziert man das partielle Eta-Quadrat
mit 100 kann es zur Interpretation der Varianzaufklärung eingesetzt werden. Das Maß gibt dann an, wie viel Varianz der abhängigen Variablen
prozentual durch die unabhängige Variable erklärt wird. Das Programm SPSS von IBM berechnet bei Varianzanalysen standardmäßig partielles Eta-Quadrat. In älteren Programmversionen wurde dies fälschlicherweise als Eta-Quadrat
bezeichnet. Bei einer einfaktoriellen Varianzanalyse besteht zwischen Eta-Quadrat und partiellem Eta-Quadrat kein Unterschied. Sobald eine mehrfaktorielle Varianzanalyse berechnet wird, muss das partielle Eta-Quadrat berechnet werden.
Eta-Quadrat als Effektstärkemaß überschätzt aber den Anteil der erklärten Varianz. Rasch u. a. und Bortz empfehlen stattdessen die Verwendung
des Populationseffektschätzers Omega-Quadrat
, welcher durch Cohens
folgendermaßen berechnet wird:[12][13]
Cramers Phi, Cramers V und Cohens w
Ein Maß für die Effektstärke kann nicht nur auf der Grundlage von Mittelwert- oder Varianzunterschieden, sondern auch in Bezug auf Wahrscheinlichkeiten berechnet werden. Siehe dazu,[14] Seite 4. In diesem Fall wird aus den Zahlen einer Kreuztabelle, die Wahrscheinlichkeiten statt absoluter Häufigkeiten enthält,
berechnet und daraus die Wurzel gezogen.
Das Ergebnis ist Cohens
(manchmal auch
klein-Omega[15]):
Dabei ist die Anzahl der Kategorien der Spaltenvariable,
die Anzahl der Kategorien der Zeilenvariable,
die beobachtete Wahrscheinlichkeit in der Zelle i.j und
die erwartete Wahrscheinlichkeit in der Zelle i.j. Erwartete Zellenwahrscheinlichkeiten werden berechnet, indem die jeweils entsprechenden Randwahrscheinlichkeiten miteinander multipliziert werden. Zur Berechnung von
siehe
auch[16] und zu Cohens
[17] und,[14] S. 6. Da bei Kreuztabellen, die nicht absolute
Häufigkeiten, sondern Wahrscheinlichkeiten enthalten, an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer 1 steht, kann statt
auch
berechnet werden, was numerisch identisch ist:
Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die Wahrscheinlichkeiten enthalten,
berechnet wird, wobei
die Anzahl der Zeilen,
die Anzahl der Spalten und
die kleinere der beiden Zahlen ist.[1]
Für Cohens gelten konventionell der Wert 0,1 als
klein, 0,3 als mittel und 0,5 als groß.[17]
Kleine, mittlere und große Effektstärken
Die vorher angegebenen Werte für kleinere, mittlere oder große Effektstärken hängen stark vom Sachgebiet ab. Cohen hat die Werte im Rahmen seiner Analysen und dem sozialwissenschaftlichen Usus gewählt.
“This is an elaborate way to arrive at the same sample size that has been used in past social science studies of large, medium, and small size (respectively). The method uses a standardized effect size as the goal. Think about
it: for a "medium" effect size, you'll choose the same n regardless of the accuracy or reliability of your instrument, or the narrowness or diversity of your subjects. Clearly, important considerations are being ignored
here. "Medium" is definitely not the message!”
„Dies ist ein komplizierter Weg, um zu den gleichen Stichprobenumfängen zu gelangen, die in der Vergangenheit in großen, mittleren und kleinen sozialwissenschaftlichen Studien benutzt worden sind. Diese Methode hat
eine standardisierte Effektstärke zum Ziel. Denken wir darüber nach: Für eine "mittlere" Effektstärke wählen wir den gleichen Stichprobenumfang unabhängig von der Genauigkeit oder der Verlässlichkeit des Instrumentes,
die Ähnlichkeit oder die Unterschiede der Untersuchungsobjekte. Natürlich werden hier wichtige Aspekte der Untersuchung ignoriert. "Mittel" ist kaum die Botschaft!“
Sie werden daher von vielen Forschern nur als Richtwerte akzeptiert, beziehungsweise kritisch hinterfragt. Eine empirische Untersuchung bezüglich der Häufigkeiten der Effektstärken in der
Differentiellen Psychologie hat ergeben, dass Cohens Einteilung der
Pearson-Korrelationen (klein = 0,10; mittel = 0,30; groß = 0,50)[19] die Befundlage in
diesem Forschungsbereich unzureichend abbilden. So konnten nur in weniger als 3 % der herangezogenen Studienergebnisse (insgesamt 708 Korrelationen) eine Effektstärke von mindestens
beobachtet werden. Basierend auf dieser
Untersuchung wird vielmehr empfohlen, in diesem Bereich
als kleine,
als mittlere und
als große Effektstärke zu interpretieren.[20]
Literatur
- Wynne W. Chin: The Partial Least Squares Approach to Structural Equation Modeling. In: George A. Marcoulides (Hrsg.): Modern Methods for Business Research. Lawrence Erlbaum Associates, Mahwah 1998, S. 295–336.
- Jacob Cohen: A power primer. In: Psychological Bulletin. Band 112, 1992, S. 155–159.
- Oswald Huber: Das psychologische Experiment. Bern u. a 2000.
- Brigitte Maier-Riehle, Christian Zwingmann: Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. In: Rehabilitation. Band 39, 2000, S. 189–199.
- Rainer Schnell, Paul B. Hill, Elke Esser: Methoden der empirischen Sozialforschung. München / Wien 1999.
- Jürgen Bortz, Nicola Döring: Forschungsmethoden und Evaluation. 2. Auflage. Springer, Berlin u. a. 1996, ISBN 3-540-59375-6.
Weblinks
-
Einfache Erklärung und Anleitung zur Interpretation der wichtigsten Effektstärken (mit Rechner) -
Berechnung verschiedener Effektstärken, darunter Cohens d, r, d
aus abhängigen t-Test und Umrechnung der verschiedenen Effektstärken
Einzelnachweise
- ↑ Hochspringen nach: a b c d e f g h J. Cohen: Statistical Power Analysis for the Behavioral Sciences. 2. Auflage. Lawrence Erlbaum Associates, Hillsdale 1988, ISBN 0-8058-0283-5.
- ↑ W. Lenhard:
Berechnung der Effektstärken d (Cohen, 2001), dkorr
(nach Klauer, 2001), d aus t-Tests, r, Eta-Quadrat und Umrechnung verschiedener Maße: Psychometrica. In: psychometrica.de. Abgerufen am 26. Januar 2026.
- ↑ J. Hartung, G. Knapp, B. K. Sinha: Statistical Meta-Analysis with Application. Wiley, New Jersey 2008, ISBN 978-0-470-29089-7.
- ↑ D. C. Funder, & D. J. Ozer,: Evaluating Effect Size in Psychological Research: Sense and Nonsense. In:
Advances in Methods and Practices in Psychological Science. Band 2, 2019, S. 156–168.
doi:10.1177/2515245919847202
- ↑ L. V. Hedges: Distribution theory for Glass’s estimator of effect size and related estimators. In: Journal of Educational Statistics. 6, (2) 1981, S. 107–128.
doi:10.3102/10769986006002107
- ↑
Comparison of groups with different sample size
(Cohen’s d, Hedges’ g) – Erklärung und Berechnung von Hedges g.
- ↑ Markus Bühner, Matthias Ziegler: Statistik für Psychologen und Sozialwissenschaftler. Pearson Deutschland, 2009, S. 175.
- ↑ Henriette Reinecke: Klinische Relevanz der therapeutischen Reduktion von chronischen nicht tumorbedingten Schmerzen. Logos Verlag, Berlin 2010, S. 49.
- ↑ Markus Bühner, Matthias Ziegler: Statistik für Psychologen und Sozialwissenschaftler. Pearson Deutschland, 2009, S. 175.
- ↑ Paul D. Ellis: The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge University Press, 2010, S. 10.
- ↑ Jürgen Margraf: Kosten und Nutzen der Psychotherapie. Eine kritische Literaturauswertung. 2009, S. 15.
- ↑ Hochspringen nach: a b B. Rasch, M. Friese, W. Hofmann, E. Naumann: Quantitative Methoden 2. Einführung in die Statistik für Psychologen und Sozialwissenschaftler. Springer, Heidelberg 2010, S. 78/79.
- ↑ J. Bortz: Statistik für Sozial- und Humanwissenschaftler. Springer, Heidelberg 2005, S. 280/281.
- ↑ Hochspringen nach: a b Dirk Wentura: Ein kleiner Leitfaden zur Teststärke-Analyse.
Saarbrücken: Fachrichtung Psychologie der Universität des Saarlandes 2004,
(online)
- ↑ Markus Bühner, Matthias Ziegler: Statistik für Psychologen und Sozialwissenschaftler. Pearson Deutschland GmbH, 2009,
ISBN 978-3-8273-7274-1 (
google.de
[abgerufen am am 26. Januar 2026]).
- ↑ Hans Benninghau: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten. 22). Teubner, Stuttgart 1989, S. 100 ff.
- ↑ Hochspringen nach: a b Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. Springer, Heidelberg 2005, S. 167–168.
- ↑ R. V. Lenth:
Java applets for power and sample size.
Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa, 2006, abgerufen am 26. Dezember 2008.
- ↑ Jacob Cohen:
A power primer.
(PDF) Abgerufen am am 26. Januar 2026 (englisch).
- ↑ G. E. Gignac, E. T. Szodorai: Effect size guidelines for individual differences researchers. In: Personality and Individual Differences. Band 102, 2016, S. 74–78.
doi:10.1016/j.paid.2016.06.069


© biancahoegel.de
Datum der letzten Änderung: Jena, den: 26.01. 2026