Multivariate Statistik - .Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen

  • View
    216

  • Download
    0

Embed Size (px)

Text of Multivariate Statistik - .Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen

  • Multivariate Statistik

    Inhalt:

    1. Grundlagen

    2. Multivariate Verteilungen

    3. Regressionsanalyse

    4. Varianzanalyse

    5. Allgemeine Verfahren zum Testen von Hypothesen

    6. Hauptkomponentenanalyse

    7. Faktoranalyse

    8. Konfirmatorische Faktoranalyse

    9. Kontingenztafeln und Korrespondenzanalyse

    10. Diskriminanzanalyse

    Literatur:

    Härdle, W. und Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer Verlag

    Jobson, J.D. (1991). Applied Multivariate Data Analysis. Springer Verlag (zwei Bände)

    Multivariate Statistik@LS-Kneip 0–1

  • Einführung

    Multivariate Datenanalyse

    • Daten in der Form einer Datenmatrix

    • Statistische Verfahren zur – Explorativen Datenanalyse (”DataMining”)

    – Modellierung und statistische Inferenz (konfirmatorische Datenanalyse)

    Ziele:

    • Beschreibung, Zusammenfassung und Darstellung der in ei- nem Datensatz enthaltenen Informationen

    • Entdeckung von (verborgenen) Strukturen in den Daten

    • Identifikation von untypischen Beobachtungen (Ausreißern)

    • Aufbau eines statistischen Modells, das die entdeckten Struk- turen erklären kann

    • Überprüfung eines Modells durch Kontrolle von zufallsbe- dingten Ungenauigkeiten

    • Überprüfung von Hypothesen

    • Prognose, Klassifizierung

    • Varianzanalyse: Verfahren zur statistischen Inferenz

    Multivariate Statistik@LS-Kneip 0–2

  • Beispiel: Eine Firma betreibt ihre Produkte in verschiedenen Ländern. Von Interesse für die Firmenleitung hinsichtlich gewis- ser Marketing Strategien ist zu erfahren, ob sich bestimmte Pro- dukte vergleichbaren Typs in manchen Ländern besser umsetzen lassen als in anderen.

    Daten für zufällig herausgegriffene Monate:

    Produkt I Produkt II

    A 42 45 42 41 38 39 37 41

    Land B 36 36 35 35 39 40 36 36

    C 33 32 32 33 36 34 36 33

    Multivariate Statistik@LS-Kneip 0–3

  • Beispiel 0.1 (Car Data) Im „car data“–Datensatz (Chambers et al.; 1983) wurden 13 ver- schiedene Variablen von 74 unterschiedlichen Autotypen erhoben. Die Abkürzungen im Datensatz sind wie folgt:

    X1: P Price

    X2: M Mileage (in miles per gallone)

    X3: R78 Repair record 1978 (rated on a 5-point scale; 5 best, 1 worst)

    X4: R77 Repair record 1977 (scale as before)

    X5: H Headroom (in inches)

    X6: R Rear seat clearance (distance from front seat back to rear seat, in inches)

    X7: Tr Trunk space (in cubic feet)

    X8: W Weight (in pound)

    X9: L Length (in inches)

    X10: T Turning diameter (clearance required to make a U-turn, in feet)

    X11: D Displacement (in cubic inches)

    X12: G Gear ratio for high gear

    X13: C Company headquarter (1 for U.S., 2 for Ja- pan, 3 for Europe)

    Multivariate Statistik@LS-Kneip 0–4

  • Model P M R78 R77 H R Tr

    1 AMC-Concord 4099.00 22.00 3 2 2.50 27.50 11.00

    2 AMC-Pacer 4749.00 17.00 3 1 3.00 25.50 11.00

    3 AMC-Spirit 3799.00 22.00 . . 3.00 18.50 12.00

    4 Audi-5000 9690.00 17.00 5 2 3.00 27.00 15.00

    5 Audi-Fox 6295.00 23.00 3 3 2.50 28.00 11.00

    6 BMW-320i 9735.00 25.00 4 4 2.50 26.00 12.00

    7 Buick-Century 4816.00 20.00 3 3 4.50 29.00 16.00

    8 Buick-Electra 7827.00 15.00 4 4 4.00 31.50 20.00

    9 Buick-Le-Sabre 5788.00 18.00 3 4 4.00 30.50 21.00

    10 Buick-Opel 4453.00 26.00 . . 3.00 24.00 10.00

    11 Buick-Regal 5189.00 20.00 3 3 2.00 28.50 16.00

    12 Buick-Riviera 10372.00 16.00 3 4 3.50 30.00 17.00

    13 Buick-Skylark 4082.00 19.00 3 3 3.50 27.00 13.00

    14 Cad.-Deville 11385.00 14.00 3 3 4.00 31.50 20.00

    15 Cad.-Eldorado 14500.00 14.00 2 2 3.50 30.00 16.00

    16 Cad.-Seville 15906.00 21.00 3 3 3.00 30.00 13.00

    17 Chev.-Chevette 3299.00 29.00 3 3 2.50 26.00 9.00

    18 Chev.-Impala 5705.00 16.00 4 4 4.00 29.50 20.00

    19 Chev.-Malibu 4504.00 22.00 3 3 3.50 28.50 17.00

    20 Chev.-Monte-C. 5104.00 22.00 2 3 2.00 28.50 16.00

    21 Chev.-Monza 3667.00 24.00 2 2 2.00 25.00 7.00

    22 Chev.-Nova 3955.00 19.00 3 3 3.50 27.00 13.00

    23 Datsun-200−SX 6229.00 23.00 4 3 1.50 21.00 6.00 24 Datsun-210 4589.00 35.00 5 5 2.00 23.50 8.00

    25 Datsun-510 5079.00 24.00 4 4 2.50 22.00 8.00

    26 Datsun-810 8129.00 21.00 4 4 2.50 27.00 8.00

    27 Dodge-Colt 3984.00 30.00 5 4 2.00 24.00 8.00

    28 Dodge-Diplomat 5010.00 18.00 2 2 4.00 29.00 17.00

    29 Dodge-Magnum 5886.00 16.00 2 2 3.50 26.00 16.00

    30 Dodge-St.-Regis 6342.00 17.00 2 2 4.50 28.00 21.00

    Multivariate Statistik@LS-Kneip 0–5

  • Beispiel 0.2 (U.S. Companies Data) Im „U.S. Companies Data“– Datensatz wurden 6 verschiedene Variablen für 79 amerikanische Unternehmen aus den Top 500 Unternehmen erhoben. Die verwendeten Abkürzungen sind die folgenden:

    X1: A Assets

    X2: S Sales

    X3: MV Market Value

    X4: P Profits

    X5: CF Cash Flow

    X6: E Employees

    Multivariate Statistik@LS-Kneip 0–6

  • Company A S MV P CF E Sector

    1 19788.00 9084.00 10636.00 1092.90 2576.80 79.40 Communic.

    2 5074.00 2557.00 1892.00 239.90 578.30 21.90 Communic.

    3 13621.00 4848.00 4572.00 485.00 898.90 23.40 Energy

    4 1117.00 1038.00 478.00 59.70 91.70 3.80 Energy

    5 1633.00 701.00 679.00 74.30 135.90 2.80 Energy

    6 5651.00 1254.00 2002.00 310.70 407.90 6.20 Energy

    7 5835.00 4053.00 1601.00 −93.80 173.80 10.80 Energy 8 3494.00 1653.00 1442.00 160.90 320.30 6.40 Energy

    9 1654.00 451.00 779.00 84.80 130.40 1.60 Energy

    10 1679.00 1354.00 687.00 93.80 154.60 4.60 Energy

    11 1257.00 355.00 181.00 167.50 304.00 0.60 Energy

    12 1743.00 597.00 717.00 121.60 172.40 3.50 Energy

    13 1440.00 1617.00 639.00 81.70 126.40 3.50 Energy

    14 14045.00 15636.00 2754.00 418.00 1462.00 27.30 Energy

    15 3010.00 749.00 1120.00 146.30 209.20 3.40 Energy

    16 3086.00 1739.00 1507.00 202.70 335.20 4.90 Energy

    17 1995.00 2662.00 341.00 34.70 100.70 2.30 Energy

    18 3614.00 367.00 90.00 14.10 24.60 1.10 Finance

    19 2788.00 271.00 304.00 23.50 28.90 2.10 Finance

    20 327.00 542.00 959.00 54.10 72.50 2.80 Finance

    21 5401.00 550.00 376.00 25.60 37.50 4.10 Finance

    22 44736.00 16197.00 4653.00 −732.50 −651.90 48.50 Finance 23 401.00 176.00 1084.00 55.60 57.00 0.70 Finance

    24 4789.00 453.00 367.00 40.20 51.40 3.00 Finance

    25 2548.00 264.00 181.00 22.20 26.20 2.10 Finance

    26 5249.00 527.00 346.00 37.80 56.20 4.10 Finance

    27 3720.00 356.00 211.00 26.60 34.80 2.40 Finance

    28 33406.00 3222.00 1413.00 201.70 246.70 15.80 Finance

    29 12505.00 1302.00 702.00 108.40 131.40 9.00 Finance

    30 8998.00 882.00 988.00 93.00 119.00 7.40 Finance

    Multivariate Statistik@LS-Kneip 0–7

  • Beispiel 0.3 (French Food Data) Der Datensatz beschreibt die durchschnittlichen Ausgaben für Nah- rungsmittel von verschiedenen Familientypen in Frankreich (MA=Handwerker , EM=Angestellte, CA=Manager) mit unter- schiedlich vielen Kindern (2,3,4 oder 5 Kinder). Die Daten stam- men von Lebart, Morineau and Fénelon (1982).

    Brot Gemüse Früchte Fleisch Geflügel Milch Wein

    1 MA2 332.00 428.00 354.00 1437.00 526.00 247.00 427.00

    2 EM2 293.00 559.00 388.00 1527.00 567.00 239.00 258.00

    3 CA2 372.00 767.00 562.00 1948.00 927.00 235.00 433.00

    4 MA3 406.00 563.00 341.00 1507.00 544.00 324.00 407.00

    5 EM3 386.00 608.00 396.00 1501.00 558.00 319.00 363.00

    6 CA3 438.00 843.00 689.00 2345.00 1148.00 243.00 341.00

    7 MA4 534.00 660.00 367.00 1620.00 638.00 414.00 407.00

    8 EM4 460.00 699.00 484.00 1856.00 762.00 400.00 416.00

    9 CA4 385.00 789.00 621.00 2366.00 1149.00 304.00 282.00

    10 MA5 655.00 776.00 423.00 1848.00 759.00 495.00 486.00

    11 EM5 584.00 995.00 548.00 2056.00 893.00 518.00 319.00

    12 CA5 515.00 1097.00 887.00 2630.00 1167.00 561.00 284.00

    x̄ 446.7 737.8 505.0 1886.7 803.2 358.2 368.6

    Var(Xi) 102.6 172.2 158.1 378.9 238.9 112.1 68.7

    Multivariate Statistik@LS-Kneip 0–8

  • 1 Grundlagen

    1.1 Charakterisierung von eindimensionalen Ver- teilungen

    Wichtige Grundbegriffe

    Man betrachte eine eindimensionale Zufallsvariable X. z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-

    kanischen Aktienmarkt, Körpergröße japanischer Frauen, ...

    Verteilungsfunktion F von X: F (x) = P (X ≤ x) für jedes x ∈ R

    • diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte x1, x2, x3, . . . an P (X = xi) = fi, i = 1, 2, . . . ,

    F (x) = ∑

    xi≤x fi

    • stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so daß F (x) =

    x∫ −∞

    f(z)dz

    Multivariate Statistik@LS-Kneip 1–1

  • Stetige Zufallsvariable n=50

    0 0 .2

    0 .4

    H is

    to g ra

    m m

    n=500

    0 0 .2

    0 .4

    H is

    to g ra

    m m

    n=5000

    0 0 .2

    0 .4

    H is

    to g ra

    m m

    Model

    0 0 .2

    0 .4

    D ic

    h te

    Multivariate Statistik@LS-Kneip 1–2

  • Wahrs heinli hkeitsdi hte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wa hsendF(�1) = 0; F(+1) = 1: Dichtefunktion

    -3 -2 -1 0 1 2 3

    x

    0 .2

    0 .4

    0 .6

    0 .8