Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Franz Ferschl, *20.6.1929 in Freistadt (Oberosterreich). Ab 1948 Studium der Mathematik und Physik an der Universitat Wien. Dort 1952 Lehramtspriifung fUr das Lehramt an Gymnasien, 1956 Promotion zum Dr. phil. 1955-1965 Statistiker in der Bundeskammer der gewerblichen Wirtschaft in Wien. 1964 Habilitation fUr Statistik an der Rechts- und Staatswissenschaftlichen Fakultat der Universitat Wien. 1965 bis 1972 ordentlicher Professor fUr Statistik an der Universitiit Bonn, 1972 bis 1975 an der Universitat Wien, seit 1975 an der Universitat Miinchen im Institut fUr Statistik und Wissenschaftstheorie.
Franz Fersch!
Deskriptive Statistik
3., korrigierte Auflage
Physica-Vedag· Wiirzburg-Wien
1985
ISBN 3 7908 0336 7
CIP-Kurztitelaufnahme der Deutschen Bibliothek
Ferschl, Franz: Deskriptive Statistik / Franz Ferschl. - 3., korrigierte Aufl. - Wiirzburg : Physica-Verlag, 1985
ISBN-13: 978-3-7908-0336-5 e-ISBN-13: 978-3-642-61676-1 DOl: 10.1007/978-3-642-61676-1
Das Buch oder Teile davon diirfen weder photomechanisch, elektronisch noch in irgendeiner anderen Form ohne schriftliche Genehmigung des Verlages wiedergegeben werden.
© Physica-Veriag, Wiirzburg 1978, 1980, 1985
Composersatz und Offsetdruck "Journalfranz" Arnulf Liebing GmbH + Co., Wiirzburg
Vorwort
Grundlage dieses Buches sind zwei Statistik-Skripten, die ich seit 1965 im Einftihrungsunterricht an den Universitaten Bonn und Wien verwendet habe. An beiden Orten erstreckte sich die Einftihrung in die Statistik fur Wirtschafts- und Sozialwissenschaftler auf zwei Semester; die Vorlesung des ersten Semesters war dabei hauptsachlich der deskriptiven Statistik gewidmet. Viele spezielle Einzelheiten sind somit im praktischen Unterrichterprobt; einige Besonderheiten der Reihenfolge, die dem Kenner auffallen werden (Indexrechnung vor den mehrdimensionalen Merkmalen, die Reihenfolge: qualitativ, quantitativ, ordinal beim Studium des Zusammenhangs in Kapitel 5.) wurden dabei, der Unterrichtspraxis folgend, bewu~t beibehalten.
Neben dem eleinentaren Kanon der deskriptiven Statistik finden hier einige Themen besondere Beriicksichtigung, die vor allem Wirtschafts- und Sozialwissenschaftler interessieren kannen: Theorie der Mittelwerte, Messung der Konzentration, Indexrechnung und Standardisierung, M~e der nominalen und ordinalen Assoziation sowie das mehrmals wiederkehrende Thema der Streuungszerlegung. Die verwendete Mathematik ist fast durchwegs ganz elementar; die Matrizenrechnung etwa wird nur im Abschnitt tiber die multiple Regression eingesetzt. Ausdruck des elementaren Charakters sollten auch die ausflihrlichen Rechenschemata und die zahlreichen vollst~ndig durchgerechneten Beispiele sein, welche die theoretischen tlberlegungen begleiten. Man kann nattirlich fragen, ob so etwas zu tun im Zeit alter der "statistical packages", die heute schon zu Taschencomputern angeboten werden, noch sinnvoll ist. Nun, diese Programme enthalten im wesentlichen genau das, was hier im Detail dem direkten Verstandnis nahegebracht werden soll. Besonderes Augenmerk wurde auch auf die Bereitstellung von geeigneten tlbungsaufgaben gelegt. Originelle, ohne gro~en Aufwand rechenbare Aufgaben zu finden, ist gerade in der deskrlptiven Statistik - im Gegensatz etwa zur Wahrscheinlichkeitsrechnung - nicht ganz leicht. Neben Aufgaben, die in Statistik-Klau7 suren und Tutorenkursen erprobt wurden, die also in relativ kurzer Zeit "von Hand" durchgerechnet werden kannen, habe ich - vor allem im 5. Kapitel -auch Beispiele aufgenommen, die eine gra~ere Realitatsnahe mit etwas gra~erem Rechenaufwand erkaufen. Schlie~lich fmdet man auch Erganzungen des Stoffes in theoretische Aufgaben gekieidet, die von einem interessierten Leser leicht gemeistert werden kannen. Nicht zuletzt sollte dieser Typ von Aufgaben zeigen, d~ auch in der deskriptiven Statistik eine Reihe von weiterflihrenden und zugleich interessanten Fragestellungen zu fmden sind.
Es erscheint mir angemessen, die Prasentation eines Lehrbuches der deskriptiven Statistik mit einigen Reflexionen tiber die Bedeutung dieses Tells der Statistik einzubegleiten. tlberblickt man die statistische Literatur der letz-
6 Vorwort
ten Jahrzehnte, so bemerkt man, daE die Beschiiftigung mit der deskriptiven Statistik als selbstiindfger statistischer Methode zuniichst dtastisch zuriickgegangen war. In der Pionierzeil der modemen Statistik sowohl im angelsachsischen Bereich als auch auf dem europiiischen Kontinent fehlte zuniichst eine klare Trennung zwischen der Beschreibung und Analyse von Fakten einerseits und der statistischen Inferenz andererseits. Mit der rasanten Entwicklung der mathematischen Statistik, die eine Hille von wahrscheinlichkeitsbezogenen Modellen zur LOsung mannigfacher Probleme hervorbrachte, wurde die bewu~te Pflege der Deskription etwas ins Abseits gedriingt. Nur in den Bereichen der Bevolkerungs- und Wirtschaftsstatistik, die es direkt mit sehr gro~en Aggregaten zu tun haben, war naturgem~ die Frage nach der "geeigneten MaEzahl" zur Beschreibuag eines Phiinomens im Vordergrund geblieben. Musterbeispiele sind die Konzentrationsmessung und die Indexrechnung. Ansonsten wurden Daten immer mehr als Stichproben und Ma~zahlen hauptsachlich nach ihren Verteilungseigenschaften bei der Schiitzung unbekannter Parameter von stochastischen Modellverteilungen beurteilt. Ein Anliegen des vorliegenden Buches ist es zu zeigen, daE die deskriptive Statistik mehr beinhaltet als blo~e Datenverarbeitung fUr die Zwecke der statistischen Inferenz. Neuerdings scheint sich bier eine Tendenzwende anzubahnen. Zum Zeugen seien zwei rezente Publikationen aufgerufen. Tukey [1977] ist eine sehr ausftihrliche und·eingehende Darstellung der deskriptiven Statistik, die hier als "Exploratory Data Analysis" apostropbiert wird. Dort finden wir auf Seite If.:
The processes of criminal justice are clearly divided between the search for the evidence ... and the evaluation of the evidence's strength - a matter of juries and judges. In data analysis a similar distinction is helpful. Exploratory data analysis is detective in character. Confirmatory data analysis is judicial or quaSi-judicial in character ... Unless the detective finds the clues, judge or jury has nothing to consider. Unless exploratory data analysis uncovers indications, usually quantitative ones, there is likely to be nothir'g for confirmatory data analysis to consider.
Die Arbeit Guttman [1977] setzt sich kritisch mit gewissen Fehlanwendundungr.n der inferenzstatistischen Methode auseinander und betont dabei die Bedeutung, ja den Vorrang der (deskriptiven) Datenanalyse (S. 82):
In recent years eminent mathematical statisticians ... have underlined limitations of statistical inference; there is increasing emphasis on the need for focusing on data analysis instead.
Und zur selbstiindigen Bedeutung der Daten selbst: ... Nor do such investigators show that they are aware of the fact that their data analytic problem would remain even if there were no sampling error ...
Vorwort 7
In dem vorliegenden Buch wird also "exploratory data analysis" betrieben; die Daten werden als fur sich stehend betrachtet und nicht in erster Linie als Stichproben aus einer Grundgesamtheit (auch dann, wenn sie tatsachlich als Stichproben gewonnen wurden). Das zieht allerdings bei der Wahl von Bezeichnungen manche Schwierigkeit nach sich. Ein typisches Beispiel hieftir bietet die empirische Varianz, die mit 0 2 bezeichnet wurde. Fast durchwegs wird in der Datenanalyse hierftir das Symbol S2 gebraucht und der Nenner n - 1 zur Division der Quadratsumme der Abweichungen verwendet. Nattirlich ist die Zahl n - 1 nicht aus einer sachlichen Interpretation des Streuungsphiinomens zu rechtfertigen, sondem nur aus .Eigenschaften eines SchOtzers fur die Varianz einer hinter den Daten liegenden Modellverteilung. Jedoch: Welcher Schatzer? Welche Eigenschaften? Welche Verteilung? Diese Fragen zeigen, d~ ein Argumentieren mit Stichprobeneigenschaften - zumindest in diesem Fall- fur die deskriptive Statistik niehts einbringt. Deskriptiv am sinnvollsten erscheint die Division durch n. Wtirde man dieses Ergebnis aber mit S2 bezeichnen, entstiinde erst recht eine arge Bezeichnungskollision mit dem gewohnten Gebrauch dieses Symbols. Anders die Lage beim KorrelationskoefflZienten. Er wurde mit r bezeichnet, einem Symbol, das haufig ftir eine Stichprobenfunktion verwendet wird. Da bei Verwendung von p der Rechenausdruck ftir den - empirischen - KorrelationskoefflZienten mit dem Parameter einer speziellen Modellverteilung, niimlich der bivariaten Normalverteilung,.leicht verwechselt wird, wurde in diesem Fall das Stichprobensymbol tibemommen und p ftir Spearmans KoefflZient verwendet. 1m Grunde wird durch diese Schwierigkeiten nur deutlich, daE hinter scheinbar harmlosen Bezeichnungskonventionen theoretische Entscheidungen stehen, aber neuen theoretischen Konzepten leider oft nicht mit einem - an sich notwendigen - kompletten neuen Satz von Symbolen entsprochen werden kann.
Dieses Lehrbuch hat vor aHem drei ,,geistige Vater", deren Einflu~ zum Teil schon die Abfassung der ibm zugrundeliegenden Skripten begleitete1 ).
Es sind diesP!anzagl [1972], Calot [1973] und Benninghaus [1974]. Das Btichlein vonP!anzagl ist insofem bahnbrechend, als es zeigt, d~ nach wie vor oIiginelle Methoden und scharfsinnige Argumente auch in scheinbar einfachsten Gebieten der Datenanalyse ihren Platz haben. Das umfangreiche Werk von Calot hat mich ermutigt, auch bei einfacheren Fragen der Datenorganisation eine ausfiihrliche Darstellung beizubehalten. Beide Werke haben besonders das Kapitel 4 tiber Indexrechnung und Standardisierung stark beeinfl~t. Benninghaus kommt das Verdienst zu, das Opus der Autoren Goodman und Kruskal tiber nominale und ordinale Assoziationsm~e fur den
1) Dies betrifft in erster Linie frtihere Auflagen der zitierten Biicher von ptanzagl und von Calot.
8 Vorwort
deutschsprachigen Einflihrungsunterricht aufbereitet zu haben. Gegeniiber der Skripten-Urfassung wurde dann auch Kapitel 5 am starksten umgearbeitet und erweitert. Einen Ansto~ dazu gab Benninghaus [1974].
Die Aufgabensammlung dieses Buches hatte ohne ein am Institut fur Statistik der Universitat Wien entstandenes Manuskript ,,100 Aufgaben zur deskriptiven Statistik" nicht in der vorliegenden Form gegeben werden konnen. Herr Werner Till, Wien hatte einen wesentlichen Beitrag zum Zustandekommen dieses Manuskripts geleistet. Herrn Dr. Klaus Steiner, Bonn, verdanke ich einige zentrale Beispiele dieser Sammlung. Die Grundlagen ftir das Sachverzeichnis steuerte Herr Dr. Klaus Haagen bei; Frau RosiMaisberger hat bei der Oberpriifung der Druckfahnen wertvolle Hilfe geleistet. Schlie~lich mochte ich auch Frau Adelheid Schuller danken, die sich urn die zeitgerechte Fertigstellung des Manuskripts gro~e Verdienste erworben hat.
Miinchen, im Herbst 1977
Vorwort zur 2. Auflage
Bis auf einige kleine, aber nicht unwesentIiche Verbesserungen konnte der Text der ersten Auflage unverandert iibernommen werden. Fiir mehrere wertvolle Anderungsvorschlage bin ich insbesondere Herrn Prof. Dr. Leo Kniisel, Miinchen, zu gro~em Dank verpflichtet. Fiir weitere Anregungen mochte ich auch den Herren Dr. Klaus Haagen, Miinchen, und Dr. Fritz Poustka, Mannheim, recht herzlich danken.
Miinchen, im Friihjahr 1980
Vorwort zur 3. Auflage
Der Text der ersten beiden Auflagen wurde im wesentlichen unverandert iibernommen. Immerhin wurden bei einer emeuten Durchsicht eine gro~ere Zahl von Druckfehlern und kleineren Unstimmigkeiten entdeckt und nunmehr ausgemerzt. Fiir die genaue Durcharbeitung des Textes der zweiten AufIage danke ich besonders Dipl.Stat. Angelika Rosch und Dipl.Stat. Harald Schmidbauer.
Miinchen, im Herbst 1985
Inhaltsverzeichnis
1. Einfiihrung. Grundbegriffe . . . . . . . . . . 1.1 Die Rolle der Statistik im Konzert der Wissenschaften 1.2 Deskriptive und induktive Statistik . . . . . . 1.3 Die statistische Verteilung . . . . . . . . . 1.3.1 Grundgesamtheit, Merkmal, Merkmalsauspriigungen 1.3.2 Die Klassiflkation von Merkmalen . . . . . . 1.3.3 Mehrdimensionale Merkmale. . . . . . . . 1.3.4 Hinweise auf einige weitere, oft gebrauchte Begriffe und Be
zeichnungen . . . . . . . . . . . . . . . .
2. Datenorganisation; die Darstellung eindimensionaler Verteilungen. 2.1 Die Tabellendarstellung von Verteilungen . . . . . . . . 2.1.1 Die allgemeine Form der Verteilungstabelle bei einer endlichen
zaW von Merkmalsauspriigungen . . . . . . . . . . . 2.1.2 Die allgemeine Form der Verteilungstabelle bei quantitativ-ste-
tigem Merkmal; Klassenbildung . . . . . . . . . 2.2 Die geometrische (graphische) Darstellung von Verteilungen 2.2.1 Hiiufigkeitsdiagramme . . . . . . . . . . . . 2.2.2 Die Darstellung kumulierter Hiiufigkeiten; Summenkurven 2.2.3 Hiiufigkeitsverteilungen mit ungleichen Klassenbreiten, der Ver-
gleich von Verteilungen . 2.3 Aufgaben zu Kapitel 2
3. Verteilungsmaizahlen . 3.1 Lagemaj3zahlen (Lageparameter, Lokalisationsparameter) 3.1.1 Das arithmetische Mittel 3.1.2 Das geometrische Mittel 3.1.3 Das harmonische Mittel. 3.1.4 Das quadratische Mittel. Potenzmittel 3.1.5 Der Median (Zentralwert). . . . 3.1.6 p-Quantile und daraus abgel!litete Lagemaie . 3.1.7 Der Modalwert (Modus) einer Verteilung. . 3.1.8 Aufgaben und Ergiinzungen zu Abschnitt 3.1 3.2 Streuungsmaj3zahlen . . . . . . . . . 3.2.1 Allgemeine Oberlegungen zum Phiinomen der Streuung 3.2.2 Streuungsmaie, die von Quantilen abhiingen'. . , . 3.2.3 Streuungsmaie, welche die Abstiinde aller Merkmalsauspriigun
gen voneinander beriicksichtigen. . . . , . . . . . .
13 13 14 16 16 19 22
23
27 27
27
29 33 33 36
39 44
46 48 48 58 61 63 65 71 74 75 83 83 87
88
10 Inhaltsverzeichnis
3.2.4 Streuungsm~e, we1che die Abstande der Merkmalsauspragun-gen von einem Lagem~ 1>enutzen . . . 89
3.2.5 Die Varianz. . . . . . . . . . . 92 3.2.6 Dispersionsm~e. Der Variationskoefflzient 102 3.2.7 Die Entropie . . . . . . . . . . 104 3.2.8 Aufgaben und Ergiinzungen zum Abschnitt 3.2 . 105 3.3 Hohere VerteilungsmafJzahlen. Momente 108 3.3.1 Einleitung: Grililde fur die Betrachtung hOherer Verteilungs-
m~zahlen. . . . . . . . . . . . . . 108 3.3.2 Schiefem~zahlen . . . . . . . . . . . 109 3.3.3 M~ der Kurtosis (Wo1bungs- oder Steilheitsm~e) 112 3.3.4 Zur Beurteilung von Formm~zahlen . . . 113 3.3.5 Momente einer Verteilung. . . . . . . 114 3.3.6 Aufgaben und Ergiinzungen zu Abschnitt 3.3 120 3.4 Die Messung der Konzentration . . . . . 122 3.4.1 Das Konzentrationsphanomen . . . . . 122 3.4.2 Konstruktion der Lorenzkurve und eines zugehOrigen Konzen-
trationsm~es fur Einze1daten. . . . . . . . . . .; 124 3.4.3 Lorenzkurve und Konzentrationsm~ von Lorenz/Miinzner fUr
gruppierte Daten. . . . . . . . . . 130 3.4.4 Aufgaben und Erganzungen zu Abschnitt 3.4 134
4. Allgemeine Theorie der Mai- und Indexzahlen 141 4.1 Die Konstruktion von MaJ3zahlen. . . 141 4.1.1 M~zahlen und aquivalente Sachverhalte 141 4.1.2 Eine KlassifIkation von M~zahlen 142 4.2 MeJ3zahlenreihen (einfache Indizes) . . 147 4.2.1 Defmitionen und Bezeichnungen. . . 147 4.2.2 Umbasierung von Me6zahl{Index-)Reihen 148 4.2.3 Verkettung von Me6zahl{Index-)Reihen . 148 4.2.4 Gleichzeitige Betrachtung mehrerer MeBzahlreihen. 150 4.3 Theorie der Preis- und Mengenindexzahlen. . . . 152 4.3.1 Entwicklung der Fragestellung des Preisindex an Hand eines
Beispie1s. . . . . . . . . . . . . 153 4.3.2 Preisindizes. . . . . . . . . . . . . . . .. 156 4.3.3 Indizes zur Messung von Mengenanderungen. . . . .. 158 4.3.4 Der Zusammenhang zwischen Preis-, Mengen- und Umsatzindi-
zes . . . . . . . . . . . 160 4.3.5 Spezialprobleme der Indexrechnung 162 4.3.5.1 Erweiterung des Indexschemas 162 4.3.5.2 Substitution einer Ware. . . . 165
Inhaltsverzeichnis 11
4.3.5.3 Teil- oder Subindizes . . . . . . 168 4.3.5.4 Der Durchschnittswertindex . . . . 171 4.3.5.5 Der 6konomische oder "Befriedigungsindex" 173 4.4 Standardisierung . . . . . . . . . 174 4.4.1 Die Aufgabenstellung der Standardisierung 174 4.4.2 Das formale Modell der Standardisieiung . 177 4.4.3 Kaufkraftparitiiten . . . . . . . 184 4.5 Aufgaben und Ergiinzungen zu Kapitel4 190
s. Mehrdimensionale Merkmale. . . . . 195 5.1 Einleitende Bemerkungen . . . . . 195 5.2 Die Tabellendarstellung bei zweidimensionalenMerkmalen 196 5.2.1 Allgemeine Bezeichnungen; Grundbegriffe 196 5.2.2 Randverteilungen. . . . . . . . . . 200 5.2.3 Bedingte Verteilungen; Unabhiingigkeit 201 5.2.4 Aufgaben und Ergiinzungen zu Abschnitt 5.2 205 5.3 Qualitative Merkmale: Assoziationsmaj3e [iir Kontingenztafeln 206 5.3.1 Allgemeine Gesichtspunkte fUr die Konstruktion von Assozia-
tionsmaJ.)en . . . . . . . . . . . . . . 206 5.3.2 MaJ.)e der priidiktiven Assoziation . . . . . . 208 5.3.3 AssoziationsmaJ.)e, die auf der Gr6~e X2 aufbauen . 212 5.3.4 Vierfeldertafeln . . . . . . . . . . . . 218 5.3.5 Aufgaben und Ergiinzungen zu Abschnitt 5.3 222 5.4 Quantitative Merkmale: Ko"elations- und Regressionsrechnung. 225 5.4.1 Der KorrelationskoeffIzient . . . . . . 226 5.4.2 Die Regressionsgerade . . . . . . . . 233 5.4.3 Die Streuungszerlegung. BestimmtheitsmaJ.)e . 246 5.4.4 Aufgaben und Erganzungen zu Abschnitt 5.4 254 5.5 Quantitative Merkmale: Multiple Regression und Ko"elation.
Partielle Ko"elation . . . . . . . . . . . . .. 262 5.5.1 Regressionsebenen . . . . . . . . . . . . .. 263 5.5.2 Multiple Regression und Korrelation. Darstellung im Matrizen-
kalkiil . . . . . . . . . . . 269 5.5.3 Partielle Korrelation; Scheinkorrelation . . 272 5.5.4 Nichtlineare Regression. . . . . . . . 276 5.5.5 Aufgaben und Ergiinzungen zu Abschnitt 5.5 280 5.6 Rangmerkmale: Ordinale Maj3e des Zusammenhangs . 283 5.6.1 Der Spearman'sche RangkorrelationskoeffIzient. .. 284 5.6.2 MaJ.)zahien, die auf der Betrachtung konkordanter und diskor-
danter Paare aufbauen . . . . . . . . 287 5.6.3 Aufgaben und Ergiinzungen zu Abschnitt 5.6 . . . . .. 294