Statistik

„Die Statistik ist wie eine Laterne im Hafen. Sie dient dem betrunkenen Seemann mehr zum Halt als zur Erleuchtung.“

Hermann Josef Abs

Angewande Statistik

Statistik „ist die Lehre von Methoden zum Umgang mit quantitativen Informationen“ (Daten). Sie ist eine Möglichkeit, „eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen“. Unter Statistik versteht man die Zusammenfassung bestimmter Methoden zur Analyse empirischer Daten. Ein alter Ausdruck für Statistik war Sammelforschung. Die Statistik wird als Hilfswissenschaft von allen empirischen Disziplinen und Naturwissenschaften verwendet, wie zum Beispiel der Medizin (Medizinische Statistik), der Psychologie (Psychometrie), der Politologie, der Soziologie, der Wirtschaftswissenschaft (Ökonometrie), der Biologie (Biometrie), der Chemie (Chemometrie) und der Physik (Statistische Physik). Die Statistik stellt somit die theoretische Grundlage aller empirischen Forschung dar. Da die Menge an Daten in allen Disziplinen rasant zunimmt gewinnt auch die Statistik und die aus ihr abgeleitete Analyse dieser Daten an Bedeutung. Andererseits ist die Statistik ein Teilgebiet der reinen Mathematik. Das Ziel der reinen mathematischen Statistik ist das Beweisen allgemeingültiger Aussagen mit den Methoden der reinen Mathematik. Sie bedient sich dabei aus Erkenntnissen der mathematischen Grundlagendisziplinen Analysis und linearer Algebra.

Etymologie

Das Wort Statistik stammt von lateinisch statisticum „den Staat betreffend“ und italienisch statista Staatsmann oder Politiker, was wiederum aus dem griechischen στατίζω (einordnen) kommt. Die deutsche Statistik, eingeführt von Gottfried Achenwall 1749, bezeichnete ursprünglich die „Lehre von den Daten über den Staat“. Im 19. Jahrhundert hatte der Schotte John Sinclair das Wort erstmals in seiner heutigen Bedeutung des allgemeinen Sammelns und Auswertens von Daten benutzt.

Einführung

Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet, andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen.

Die Statistik wird in die folgenden drei Teilbereiche eingeteilt:

Die deskriptive Statistik (auch beschreibende Statistik oder empirische Statistik): Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen. Bei einigen Institutionen ist wie bei der amtlichen Statistik oder beim sozio-oekonomischen Panel (SOEP) die Erstellung solcher Statistiken die Hauptaufgabe.
Die induktive Statistik (auch mathematische Statistik, schließende Statistik oder Inferenzstatistik): In der induktiven Statistik leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
Die explorative Statistik (auch hypothesen-generierende Statistik, analytische Statistik oder Data-Mining): Dies ist methodisch eine Zwischenform der beiden vorgenannten Teilbereiche, bekommt als Anwendungsform jedoch zunehmend eine eigenständige Bedeutung. Mittels deskriptiver Verfahren und induktiver Testmethoden sucht sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen und will sie zugleich in ihrer Stärke und Ergebnissicherheit bewerten. Die so gefundenen Ergebnisse lassen sich als Hypothesen verstehen, die erst, nachdem darauf aufbauende, induktive Testverfahren mit entsprechenden (prospektiven) Versuchsplanungen sie bestätigten, als statistisch gesichert gelten können.

Der Unterschied zwischen deskriptiver und explorativer Statistik wird auch an den Fragestellungen deutlich:

Deskriptive Statistik: Wie kann man eine Verteilung eines Merkmals beschreiben?
Explorative Statistik: Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?

Geschichte

Die moderne Statistik entstand aus verschiedenen historischen (datenanalytischen) Entwicklungen, die im Laufe des 19. und 20. Jahrhunderts zu der heutigen Statistik zusammengewachsen sind. Insbesondere die Teilung der Statistik in eine deskriptive und eine schließende Statistik spiegelt diese historische Entwicklung wider.

Amtliche Statistik

Die Anfänge der amtlichen Statistik reichen bis weit vor Christi Geburt zurück. Die ersten amtlichen Statistiken waren Volkszählungen (vermutlich erstmals in Ägypten zirka 2700 v. Chr., während der Xia-Dynastie zirka 2000 v. Chr., in der Stadt Mari in Mesopotamien zirka 1700 v. Chr.). Im alten Griechenland gab es zumindest in Athen Bürgerregister, Register zur Bevölkerungsbewegung, Einfuhrlisten zollpflichtiger Waren (wie Importe von Getreide) und Vermögenskataster. Bei römischen Volkszählungen wurden die Bürger und ihr Vermögen erfasst.

In Deutschland fand die erste Volkszählung 1449 in Nürnberg statt. Die Stadtverwaltung wollte die Bevölkerung und Vorräte erfassen, um zu entscheiden, ob man Flüchtlinge aus dem Markgrafenkrieg noch in die Stadt lassen konnte oder nicht. Den Anfang mit umfangreichen (amtlichen) statistischen Erhebungen machte der französische Staatsmann Jean-Baptiste Colbert 1665 mit der Einrichtung einer Handelsstatistik.

In Preußen wurden seit 1683 auf Anordnung des Kurfürsten Friedrich Wilhelm Bevölkerungsstatistiken (Geburten, Eheschließungen und Todesfälle) erstellt und im Lauf der Zeit erweitert: 1719 der Hausbestand und Kommunalfinanzen, 1778 der Viehbestand, Aussaat, Getreidepreise, Flachs- und Tabakanbau, Fabriken, Hütten- und Bergwerke, Schifffahrt und Handel. Andere deutsche Staaten und Städte zogen nach, so Bayern im Jahre 1771 mit der Dachsbergschen Volksbeschreibung. Seit der Errichtung des Statistischen Amtes des Deutschen Reiches 1872 wird in Deutschland eine gesamte amtliche Statistik geführt. Auch in Österreich wurde 1753 durch Maria Theresia eine erste Volkszählung durchgeführt.

Im Gegensatz zu heutigen Ergebnissen der amtlichen Statistik wurden die erstellten Statistiken nicht veröffentlicht und galten als Staatsgeheimnisse.

Universitätsstatistik

Unabhängig von der amtlichen Statistik hat sich die sogenannte Universitätsstatistik, ein inzwischen kaum mehr geläufiger Begriff für die beschreibende Staats- und Länderkunde, entwickelt. Das Sammelwerk des Italieners Francesco Sansovino (1562) ist eine erste Auflistung der Regierungsformen von zwanzig Staaten. Ähnliche Werke entstanden unter anderem von dem Italiener Giovanni Botero (1589), dem Franzosen d'Avitys (1616) und dem Niederländer de Laet (1624–1640). Der Hauptvertreter der Universitätsstatistik in Deutschland war der Statistiker Achenwall.

Die amtliche Statistik diente der Verwaltung und der Unterstützung von Regierungs- oder Verwaltungsentscheidungen. Die Universitätsstatistik sollte mehr eine allgemeine Informationsquelle für Staatsmänner sein und enthielt anfangs nur textuelle Beschreibungen. Dazu gehörten Regierungsform, Gesetzesbestimmungen und Einzeltatsachen, eben „Staatsmerkwürdigkeiten“ im Sinne von des Merkens würdig. Erst später kamen tabellarische Aufstellungen hinzu, wie bei Anton Friedrich Büsching. Die Universitätsstatistiker haben jedoch selbst keine Erhebungen durchgeführt, sondern durch den Zugang zu den amtlichen Statistiken diese bearbeitet und veröffentlicht.

Politische Arithmetik

Erst die politischen Arithmetiker begannen, nach Gesetzmäßigkeiten in den Daten zu forschen. Dies hatte ihren Ursprung in den populärer werdenden Tontinen, einer Art Rentenversicherung. Der Engländer Graunt analysierte 1660 Geburts- und Sterbelisten und wollte allgemeine Gesetzmäßigkeiten über das Geschlechterverhältnis, das Verhältnis von Sterbe- und Geburtsfällen, Sterbehäufigkeiten finden. Der englische Statistiker und Ökonom William Petty übertrug diese Art von Analyse auf Wirtschaftsdaten. Der Hauptvertreter der politischen Arithmetiker in Deutschland ist der Statistiker Johann Peter Süßmilch mit seinem Werk Die Göttliche Ordnung in den Verhältnissen des menschlichen Geschlechts, aus der Geburt, dem Tode und der Fortpflanzung desselben erwiesen von 1741.

Diese Art von Statistiken hatte auch Einfluss auf philosophische Fragen, beispielsweise zur Existenz des freien Willens des Individuums. Quetelet stellte fest, dass die Zahl der Eheschließungen in belgischen Städten geringere Abweichungen vom Durchschnitt zeigt als die Zahl der Todesfälle. Und das, obwohl der Zeitpunkt der Eheschließung dem freien Willen unterliegt und der Todeszeitpunkt (in der Regel) nicht.

Wahrscheinlichkeitsrechnung

Aus Betrachtungen von Glücksspielen entstand die moderne Wahrscheinlichkeitsrechnung. Als Geburtsstunde der Wahrscheinlichkeitsrechnung gilt der Briefwechsel zwischen Pascal und Fermat im Jahr 1654. Das Fundament der modernen Wahrscheinlichkeitsrechnung wurde mit dem Erscheinen von Kolmogorows Lehrbuch Grundbegriffe der Wahrscheinlichkeitsrechnung im Jahr 1933 abgeschlossen.

Informationsgehalt und -bewertung

Statistiken stellen eine Repräsentation gesammelter Daten dar. Je nach Art und Weise der Datengewinnung entspricht der Gehalt der Informationen einem brauchbaren Ergebnis. Bei Verlassen der reellen und objektiven Prozesse können aber auch falsche Schlüsse aus Statistiken gezogen werden. So lässt sich ermitteln, wie groß der Anteil von Schwarzfahrern in Zügen oder die Durchschnittseinkommen der Bevölkerung an einem bestimmten Ort sein könnten. Allein aus statistisch verknüpfbaren Daten sollten aber keine Zusammenhänge gebildet werden.

Im Umgang mit Statistiken gilt es stets, den gesamten Datengehalt auf Relevanz, auf Beziehung der Teilinformationen zueinander und zum Umfeld zu prüfen. Auch bei geeigneter Interpretation der Daten können falsche Belege gefunden werden, wenn die eine oder andere Beziehung weggelassen oder ins falsche Umfeld gesetzt wird. Es wird daher von Statistiken gefordert, dass sie „objektiv“ (unabhängig vom Standpunkt des Statistikerstellers), „reliabel“ (verlässlich), „valide“ (überkontextuell gültig), „signifikant“ (bedeutend) und „relevant“ (wichtig) sind.

Schulen und Denkrichtungen

In Lehrbüchern wird mitunter der Eindruck vermittelt, es gebe nur das eine, sich ständig weiterentwickelnde Statistikmodell. In der Deskriptiven Statistik gibt es wenig Kontroversen, in der Induktiven Statistik gibt es jedoch verschiedene Denkschulen, die ein Problem unterschiedlich analysieren, bewerten und numerisch berechnen. Wenig bekannte Ansätze sind

Dominiert wird die induktive Statistik durch

die klassische Inferenz, entwickelt durch Ronald Aylmer Fisher, Egon Pearson und Jerzy Neyman,
die Bayes-Inferenz, entwickelt durch Harold Jeffreys, Dennis Victor Lindley und Leonard Jimmie Savage, sowie

Anwendung

Ursprünglich wurde die Statistik entwickelt für die amtliche Statistik und auch für die Analyse von Glücksspielen. Bei vielen Fachwissenschaften bestand der Bedarf nach „objektiver“ Überprüfung und Entscheidung von Theorien, wozu die Mathematik und Regeln der Statistik geeignet sind. So haben sich aus der Anwendung von statistischen Methoden in den Fachwissenschaften eigene Teilgebiete entwickelt.

Amtliche Statistik ist die Gesamtheit der von offiziellen Institutionen, insbesondere den Statistischen Ämtern, erstellten Statistiken.
Betriebsstatistik bezeichnet einerseits die Beschreibung und Überprüfung innerbetrieblicher Abläufe mit Hilfe statistischer Methoden und andererseits externe Statistiken über eine Gesamtheit von Betrieben.
Bevölkerungsstatistik ist die Lehre von der systematischen Erfassung, Darstellung und Interpretation der demografischen Situation und Entwicklung mit Hilfe statistischer Methoden.
Biostatistik (auch: Biometrie) beschäftigt sich mit Fragestellungen, die sich in der medizinischen Forschung und anderen sich mit Lebewesen befassenden Forschungsbereichen ergeben.
Epidemiologie ist jene wissenschaftliche Disziplin, die sich mit den Ursachen und Folgen sowie der Verbreitung von gesundheitsbezogenen Zuständen und Ereignissen in Populationen beschäftigt.
Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, das die ökonomische Theorie sowie mathematische Methoden und statistische Daten zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und ökonomische Phänomene quantitativ zu analysieren.
Operations Research ist ein Teilgebiet der angewandten Mathematik, das sich mit der Optimierung bestimmter Prozesse oder Verfahren, auch mit statistischen Methoden, beschäftigt.
Six Sigma ist eine Methode aus dem Qualitätsmanagement, deren Kernelement die Beschreibung, Messung, Analyse, Verbesserung und Überwachung von Geschäftsvorgängen mit statistischen Mitteln ist.
Statistische Mechanik (hierzu auch: Statistische Thermodynamik) war ursprünglich ein Anwendungsgebiet der Mechanik. Der Zustand eines physikalischen Systems wird nicht mehr durch den genauen zeitlichen Verlauf von Ort und Impuls der einzelnen Teilchen charakterisiert, sondern durch die Wahrscheinlichkeit, derartige mikroskopische Zustände vorzufinden und steht somit für die (theoretische und experimentelle) Analyse zahlreicher, fundamentaler Eigenschaften von Systemen vieler Teilchen (Atome, Moleküle).
Statistische Physik beschäftigt sich mit der Beschreibung von Naturphänomenen, bei denen zwar eine große Anzahl an Teilsystemen (oder Teilchen) beteiligt ist, aber nur Aussagen über die Gesamtheit interessieren oder grundsätzlich nur eine unvollständige Information über das Detailverhalten der Teilsysteme vorhanden ist. Sie ist eine physikalische Disziplin, deren mathematische Basis Sätze aus der Wahrscheinlichkeitstheorie und der asymptotischen Statistik und einige wenige physikalische Hypothesen bilden.
Umweltstatistik beschäftigt sich mit dem Sammeln von Umweltdaten und der Analyse von Ökosysteme, deren Belastungen und Reaktionen, mit Hilfe statistischer Methoden.
Wirtschaftsstatistik ist die Lehre von der systematischen Erfassung, Darstellung und Interpretation ökonomischer Tatbestände mit Hilfe statistischer Methoden.

Software

gretl, eine Open-Source-Statistiksoftware

Die Entwicklung der Computer seit der zweiten Hälfte des 20. Jahrhunderts hat einen großen Einfluss auf die Statistik. Frühe statistische Modelle waren fast immer lineare Modelle. Die immer größere Rechenkapazität und die Entwicklung geeigneter numerischer Algorithmen verursachte ein gesteigertes Interesse an nicht-linearen Modellen, wie neuronalen Netzwerken und führte zur Entwicklung komplexer statistischer Modelle, beispielsweise Generalisierte Lineare Modelle oder Mehrebenenmodelle.

Durch die individuelle Verfügbarkeit von Statistik-Software kann man auch Daten selbst darstellen und eine Vielzahl von Berechnungen durchführen. Dies reicht von der Berechnung von Lageparametern (wie Mittelwerte, Median, Modus) und Streuungsmaßen (wie Standardabweichung, Varianz, Spannweite) bis zu komplexen statistischen Modellen. Auch ist in der Regel die Darstellung von Daten in einer Vielzahl von Diagrammen, wie Box-Plot-Diagrammen, Stamm-Blatt-Diagrammen möglich. Für spezialisierte Grafiken kann man auf Visualisierungsprogramme zurückgreifen.

Der Zuwachs an Rechenleistung hat ebenfalls zu einer zunehmenden Popularität computerintensiver Methoden auf der Basis von Resampling-Techniken (Permutationstests, Bootstrapping) geführt. Auch die bayessche Statistik ist, durch Gibbs-Sampling, möglich geworden.

Basierend auf einem Artikel in:

Wikipedia.de