Vergleich von künstlichen Neuronalen Netzen und ... · multivariaten statistischen Verfahren in...

Holger Schulze

Vergleich von knstlichen Neuronalen Netzen und

multivariaten statistischen Verfahren in der

Primrforschung: Ein empirischer Vergleich

Masterarbeit im wissenschaftlichen Studiengang Agrarwissenschaften

an der Georg-August-Universitt Gttingen,

Fakultt fr Agrarwissenschaften

Studienrichtung: Wirtschafts- und Sozialwissenschaften des Landbaus

1. Prfer: Prof. Dr. Achim Spiller

2. Prfer: Prof. Dr. Stephan von Cramon-Taubadel

Abgabetermin: 04.04.2005

angefertigt im: Institut fr Agrarkonomie

Inhaltsverzeichnis

I

Inhaltsverzeichnis:

Abbildungsverzeichnis............................................................................................... III

Tabellenverzeichnis..................................................................................................... V

Symbolverzeichnis ....................................................................................................VII

Abkrzungsverzeichnis .............................................................................................. IX

1 Einleitung ............................................................................................................. 1

2 Verwendung von statistischen Verfahren in der Primrforschung ...................... 3

2.1 Der Ablauf des Marktforschungsprozesses.................................................. 3

2.2 Analyseverfahren in der Primrforschung ................................................... 6

3 Methodische Grundlegung................................................................................. 11

3.1 Multivariate statistische Verfahren ............................................................ 11

3.1.1 berblick ber multivariate statistische Verfahren................................ 11

3.1.2 Regressionsanalyse ................................................................................ 12

3.1.3 Clusteranalyse ........................................................................................ 22

3.2 Knstliche Neuronale Netze ...................................................................... 34

3.2.1 berblick ber Neuronale Netze............................................................ 34

3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze........................... 35

3.2.3 Multi-Layer-Perceptrons ........................................................................ 42

3.2.4 Self-Organizing-Maps............................................................................ 48

3.3 Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten

Verfahren ................................................................................................... 52

4 Empirische Anwendung und Vergleich der Verfahren...................................... 58

4.1 Zum Stand der Forschung .......................................................................... 58

4.2 Bewertungskriterien fr die Gte der Verfahren ....................................... 62

4.3 Auswahl der Fallstudien und Vorgehensweise .......................................... 65

4.4 Fallstudie 1: Meinungsforschung zum Stallbau in Diemarden .................. 68

4.4.1 Empirische Basis und Problemstellung der Untersuchung .................... 68

4.4.2 Ergebnisse der multivariaten Analyseverfahren .................................... 70

Inhaltsverzeichnis

II

4.4.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 81

4.4.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................... 85

4.5 Fallstudie 2: Markenprferenz bei chinesischen Konsumenten................. 88

4.5.1 Empirische Basis und Problemstellung der Untersuchung .................... 88

4.5.2 Ergebnisse der multivariaten Analyseverfahren .................................... 90

4.5.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 99

4.5.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................. 104

5 Zusammenfassung der Ergebnisse und Verfahrensvergleich .......................... 108

6 Schlussbemerkungen........................................................................................ 118

Literaturverzeichnis.................................................................................................. 120

Anhang ..................................................................................................................... 131

A. Methoden der Datenanalyse ........................................................................ 131

B. Berechnungen der Fallstudie 1 .................................................................... 131

C. Berechnungen der Fallstudie 2 .................................................................... 139

D. Vergleich der Verfahren.............................................................................. 145

E. Fragebogen der Fallstudie 1 ........................................................................ 148

F. Fragebogen der Fallstudie 2......................................................................... 157

Abbildungsverzeichnis

III

Abbildungsverzeichnis:

Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses.............................. 3

Abbildung 2: Grundmethoden der Datengewinnung ................................................. 4

Abbildung 3: Methoden der Primrdatenerhebung.................................................... 5

Abbildung 4: Analyseverfahren in der Primrforschung........................................... 7

Abbildung 5: Verwendung von KNN im Data Mining-Prozess ................................ 9

Abbildung 6: Vergleich von KNN und multivariaten Verfahren............................. 10

Abbildung 7: Grundlegende strukturen-prfende Verfahren................................... 11

Abbildung 8: Die Ablaufschritte der Regressionsanalyse ....................................... 13

Abbildung 9: Die Ablaufschritte der Clusteranalyse ............................................... 22

Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen............................... 24

Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren ...................... 25

Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl.................................. 27

Abbildung 13: Schematische Darstellung einer Nervenzelle .................................... 36

Abbildung 14: Das menschliche Nervensystem als SOR-Modell ............................. 37

Abbildung 15: Allgemeines Modell eines knstlichen Neurons................................ 37

Abbildung 16: Kurvenverlauf ausgewhlter Aktivierungsfunktionen....................... 38

Abbildung 17: Darstellung der Schichten eines Neuronalen Netzes ......................... 39

Abbildung 18: Einige schematische Netzwerktopologien ......................................... 40

Abbildung 19: Ausgewhlte knstliche neuronale Netzwerktypen ........................... 41

Abbildung 20: Ablaufschritte der Multi-Layer-Perceptrons...................................... 43

Abbildung 21: Test- und Validationsfehler im Lernverlauf ...................................... 45

Abbildung 22: Topologie einer Self-Organizing-Map............................................... 49

Abbildung 23: Ablaufschritte bei den Self-Organizing-Maps................................... 50

Abbildung 24: Eigenschaften Neuronaler Netze und statistische

Problemsituationen............................................................................. 52

Abbildung 25: Dimension der Komplexitt............................................................... 54

Abbildung 26: Blackbox-Ansatz................................................................................ 56

Abbildung 27: Kriterien zur Beurteilung der Leistungsfhigkeit der Verfahren....... 63

Abbildung 28: Clementine Oberflche mit Daten-Stream......................................... 67

Abbildung 29: Regressionsmodell auf Grundlage der Faktorenanalyse

(In-Sample) ........................................................................................ 74

Abbildung 30: Modifiziertes Regressionsmodell (In-Sample) .................................. 75

Abbildungsverzeichnis

IV

Abbildung 31: Regressionsmodell auf Basis der Rckwrts-Methode...................... 79

Abbildung 32: MLP-Modell auf Grundlage der Faktorenanalyse

(Validationsdaten) .............................................................................. 82

Abbildung 33: Modifiziertes MLP Model (Validationsdaten) .................................. 83

Abbildung 34: Elbow-Kriterium zur Bestimmung der Clusteranzahl ....................... 93

Abbildung 35: Beschreibung der Cluster durch die Statements der Faktoren........... 96

Abbildung 36: Entwicklung der Fehlerquadratsumme bei den SOM...................... 100

Abbildung 37: Beschreibung der Cluster durch die Statements der

Faktoren (SOM) ............................................................................... 103

Abbildung 38: SOM, K-Means und Ward im Vergleich ......................................... 104

Abbildung 39: Validitt der Clusterlsungen im Verfahrensvergleich.................... 105

Abbildung 40: Einordnung der Analyseverfahren nach anwender-, daten- und

methodenorientierten Anforderungen .............................................. 116

Abbildung 41: Methoden der Datenanalyse............................................................. 131

Abbildung 42: Hufigkeitsverteilung der Residualwerte......................................... 133

Abbildung 43: P-P-Normalverteilungsdiagramm der standardisierten

Residualwerte................................................................................... 133

Abbildung 44: Streudiagramm - Residualwerte gegen Vorhersagewerte................ 134

Abbildung 45: Hufigkeitsverteilung der Residualwerte (Modell 2) ...................... 137

Abbildung 46: P-P-Normalverteilungsdiagramm der standardisierten

Residualwerte (Modell 2)................................................................. 137

Abbildung 47: Streudiagramm - Residualwerte gegen Vorhersagewerte

(Modell 2) ........................................................................................ 138

Abbildung 48: Screeplot der Faktorenanalyse ......................................................... 139

Abbildung 49: Komponentendiagramm im rotierten Raum .................................... 139

Abbildung 50: 3D-Streudiagramm der Clusterlsung (K-Means)........................... 145

Abbildung 51: 3D-Streudiagramm der Clusterlsung (SOM)................................. 146

Abbildung 52: Hufigkeit der eingesetzten Verfahren in der betrieblichen Praxis . 146

Abbildung 53: Bedeutung der Auswahlkriterien geeigneter Verfahren .................. 147

Tabellenverzeichnis

V

Tabellenverzeichnis:

Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells ....................... 15

Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren .. 35

Tabelle 3: Ausgewhlte Literatur zum Verfahrensvergleich in der

Sekundrforschung (Teil 1)..................................................................... 59


Sekundrforschung (Teil 2)..................................................................... 60


Primrforschung...................................................................................... 61

Tabelle 6: bersicht ber die Fallstudien und die verwendeten Modelle................ 66

Tabelle 7: Faktorladungen der einzelnen Statements............................................... 72

Tabelle 8: Prognosegte des multiplen Regressionsmodells ................................... 78

Tabelle 9: Prognosegte des multiplen Regressionsmodells auf Basis der

Rckwrts-Methode ................................................................................ 81

Tabelle 10: Prognosequalitt des Neuronalen Netzwerkes (MLP) ............................ 84

Tabelle 11: Prognosequalitt im Verfahrensvergleich............................................... 85

Tabelle 12: Faktorladungen der einzelnen Statements............................................... 91

Tabelle 13: Kreuztabelle - K-Means versus Ward-Methode ..................................... 94

Tabelle 14: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............... 94

Tabelle 15: Charakterisierung der Cluster durch die T-Werte der aktiven Faktoren. 95

Tabelle 16: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............. 101

Tabelle 17: Charakterisierung der Cluster durch die T-Werte der Faktoren ........... 102

Tabelle 18: Kreuztabelle - SOM versus K-Means ................................................... 106

Tabelle 19: Bewertung von multivariaten Verfahren und KNN.............................. 115

Tabelle 20: ANOVA der Regressionsanalyse.......................................................... 131

Tabelle 21: Regressionskoeffizienten und Multikollinearittsdiagnose .................. 132

Tabelle 22: ANOVA der Regressionsanalyse (Modell 2)........................................ 134

Tabelle 23: Regressionskoeffizienten und Multikollinearittsdiagnose (Modell 2) 135

Tabelle 24: Korrelationsmatrix der exogenen Variablen aus der

Regressionsanalyse (Modell 2) ............................................................. 136

Tabelle 25: Korrelationsmatrix der exogenen Variablen der Regressionsanalyse... 138

Tabelle 26: Datenbasis zum Elbow-Kriterium......................................................... 140

Tabelle 27: Mittelwertvergleich bei der Ward Methode.......................................... 140

Tabellenverzeichnis

VI

Tabelle 28: Mittelwertvergleich bei der K-Means Methode.................................... 141

Tabelle 29: ANOVA-Tabelle bei der K-Means Clusterung .................................... 141

Tabelle 30: Kreuztabelle der Ergebnisse der replizierten und der anfnglichen ..... 141

Tabelle 31: Ergebnisse der Clusteranalyse (Ausgangslsung) ................................ 142

Tabelle 32: Ergebnisse der replizierten Clusteranalyse ........................................... 142

Tabelle 33: Vergleich der Dimensionen der SOM................................................... 143

Tabelle 34: Mittelwertvergleich bei den SOM......................................................... 143

Tabelle 35: ANOVA der aktiven Faktoren .............................................................. 143

Tabelle 36: ANOVA-Tabelle bei den SOM............................................................. 144

Tabelle 37: Kreuztabelle der Ergebnisse der replizierten und der

anfnglichen SOM ................................................................................ 144

Tabelle 38: Ergebnisse der SOM (Ausgangslsung) ............................................... 144

Tabelle 39: Ergebnisse der replizierten SOM .......................................................... 145

Symbolverzeichnis

VII

Symbolverzeichnis:

a Anzahl der Neuronen in der Ausgabeschicht

0b Konstante der Regressionsfunktion

jb Regressionskoeffizient (j= 1,2,,J)

2D quadrierte Euklidische Distanz

E durchschnittlicher Gesamtfehler

ke Abweichung des Schtzwertes vom Beobachtungswert

e(x) Eingangsfunktion

J Zahl der unabhngigen Variablen

K Zahl der Beobachtungen

k Zahl der Ausprgungen

M Zahl der bereinstimmungen

N Gesamtzahl der berechneten Beobachtungen (i = 1,,N).

ip relativer Anteil der einzelnen Ausprgungen an der

Gesamtzahl der Flle

R Korrelationskoeffizient

S(J) Standardabweichung der Variablen J in der

Erhebungsgesamtheit

bjs Standardfehler von jb

ts Streuung der empirischen (beobachteten) Ausgabewerte

ys Streuung der berechneten (vorhergesagte) Ausgabewerte

it empirische (beobachtete) Ausgabewerte

empt Empirischer t-Wert fr den j-ten Regressor

t Mittelwert der empirischen (beobachteten) Ausgabewerte

u Strgre

Anteil der tatschlich beobachteten bereinstimmungen

Symbolverzeichnis

VIII

E Anteil der erwarteten bereinstimmung

V Zahl der Vergleiche

V (J) Varianz der Variablen J in der Erhebungsgesamtheit

V(J,G) Varianz der Variablen J in Gruppe G

jw Verbindungsgewichte

jX Wert der unabhngigen Variablen (j= 1,2,,J)

jx Eingangsinformationen

ij i jx (x ) Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j

X(J,G) Mittelwert der Variablen J ber die Objekte in Gruppe G

X(J) Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit

Y Wert der j-ten Beobachtung fr die abhngige Variable

iy berechnete (vorhergesagte) Ausgabewerte

ky Wert der abhngigen Variablen (k=1,2,,K)

$ky ermittelter Schtzwert von Y fr kx

y Mittelwert der berechneten (vorhergesagte) Ausgabewerte

0 Konstantes Glied der Regressionsfunktion

j Regressionskoeffizient (j= 1,2,,J)

Abkrzungsverzeichnis

IX

Abkrzungsverzeichnis:

ANN Artificial Neural Networks

ANOVA Analysis of Variance

BLUE Best Linear Unbiased Estimator

CLU Clusteranalyse

DA Diskriminanzanalyse

DW Durbin-Watson-Statistik

EB Entscheidungsbaum

KDD Knowledge Discovery in Database

KI Knstliche Intelligenz

KNN Knstliche Neuronale Netze

KQ Kleinstquadrat

LOGR Logistische Regressionsanalyse

MAE Mean Absolute Error

MAPE Mean Absolute Percent Error

MLP Multi-Layer-Perceptrons

MRA Multiple Regressionsanalyse

MS Mean Squares

MSE Mean Square Error

NDA Neuronale Diskriminanzanalyse

OLS Ordinary Least Squares

RCLU Replizierte Clusteranalyse

RBF Radiale Basisfunktionen

RMSE Root Mean Square Error

SEA Sensitivittsanalyse

SNNS Stuttgarter Neuronale Netze Simulator

SOM Self-Organizing-Maps

SOR Stimulus-Organismus-Response

SPSS Statistical Package for the Social Sciences

SS Sum of Squares

VIF Variance Inflation Factors

http://www-ra.informatik.uni-tuebingen.de/SNNS/

1 Einleitung

1

1 Einleitung Die heutige Unternehmensfhrung bentigt fr die Entwicklung eines erfolgreichen

Marketingkonzeptes umfassende und aktuelle Informationen. Das Ziel der

Primrforschung ist, diese Informationen zu erheben und anschlieend die

Komplexitt und Dynamik auf die relevanten Daten zu verdichten. Nur so kann den

Entscheidungstrgern, die einem immer strkeren Wettbewerbsdruck unterliegen,

eine schnellere individuelle Anpassung an die Marktbedingungen ermglicht werden.

Dem Marktforscher obliegt somit die Aufgabe, eine mglichst effiziente Ausnutzung

der zur Verfgung stehenden Daten zu erreichen. Dafr steht ihm ein breites

Spektrum an Analyseverfahren zur Auswahl. Whrend es sich bei den klassischen

uni-, bi- und multivariaten Verfahren um bereits erprobte Verfahren handelt, weisen

die knstlichen Neuronalen Netze, im Einsatz fr die Primrforschung, einen

innovativen Charakter auf. Sie sind ursprnglich als mathematisches Abbild

neurobiologischen Lernens (knstliche Intelligenz) entstanden und haben sich nach

vielen Weiterentwicklungen in verschiedenartigen Wissenschaftsdisziplinen

etabliert. Im Gegensatz zu den meisten herkmmlichen multivariaten Verfahren

ermglichen sie es unter anderem, nicht lineare Zusammenhnge darzustellen und

eine sehr hohe Anzahl an Variablen zu verarbeiten.

Folglich ist es Ziel der Arbeit, zu untersuchen, ob durch den Einsatz von knstlichen

Neuronalen Netzen in der Primrforschung eine Verbesserung der Informa-

tionsgewinnung im Vergleich zu den bisher eingesetzten multivariaten Verfahren

mglich ist.

Zur Beantwortung dieser Frage gliedert sich die vorliegende Masterarbeit in fnf

Teile. Nach der Einleitung stellt Kapitel 2 die Einordnung der Primrforschung in

den Marktforschungsprozess dar. Anschlieend erfolgt ein berblick ber die in der

Primrforschung einsetzbaren Analyseverfahren. Im dritten Abschnitt werden die

methodischen Grundlagen der zu vergleichenden Datenanalyseverfahren aufgezeigt.

Da die Literatur zum Teil, auer bei der Regressionsanalyse, keine genauen und

einheitlichen Ablaufschritte sowie Gtekriterien zur Verwendung dieser Verfahren

(Clusteranalyse, Multi-Layer-Perceptrons und Self-Organizing-Maps) aufweisen,

1 Einleitung

2

liegt der Schwerpunkt dieses Kapitels darin, diese anwenderbezogenen Ablufe

darzulegen. Abgeschlossen wird dieser Abschnitt mit einem theoretischen berblick

ber die Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten

Verfahren. Zu Beginn des empirischen Teils wird durch eine Vorstellung

ausgewhlter Studien ein berblick zum Stand der Forschung gegeben. Auf Basis

der in Kapitel 4.2 vorgestellten Bewertungskriterien wird anschlieend exemplarisch

durch zwei Fallstudien der Vergleich zwischen den multivariaten Verfahren und den

knstlichen Neuronalen Netzen durchgefhrt. In den abschlieenden Kapiteln 5 und

6 und werden die wesentlichen Ergebnisse der Arbeit zusammengefasst, ein Ausblick

auf weitere, auf diese Arbeit aufbauende wissenschaftliche Untersuchungs-

mglichkeiten gegeben und Handlungsempfehlungen ausgesprochen.

2 Verwendung von statistischen Verfahren in der Primrforschung

3


2.1 Der Ablauf des Marktforschungsprozesses

Fr die Festlegung der Marketingstrategien sowie die Entwicklung eines

Marketingplans bentigt die Unternehmensfhrung vielfltige Informationen aus der

Umfeld-, Markt-, und Unternehmensanalyse. Die methodische Fundierung fr diesen

Marketing-Entscheidungsprozess liefert die Marktforschung. Sie umfasst die

Erhebung, Auswertung und Interpretation von entscheidungsrelevanten

Informationen im Rahmen der Marketingsituationsanalyse (BODENSTEIN/SPILLER

1998: 75; BRUHN 1999: 89-92). Die Durchfhrung einer Marktforschungsunter-

suchung verluft anhand des in Abbildung 1 dargestellten Prozesses.1

Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses

Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 17; BEREKOVEN et al. 1999: 49

1 Einen detaillierten berblick ber den Marktforschungsprozess zeigen unter anderem

BEREKOVEN et al. (1999), Bodenstein/Spiller (1998), BRUHN (1999), HERRMANN et al. (1999) und HTTNER (1999).

Problemdefinition

Datengewinnung

Schritt 1

Schritt 2

Schritt 3

Datenanalyse Schritt 4

Schritt 5

Marktforschungsdesign

Kommunikation der Ergebnisse


4

Demnach erfolgt zunchst die Strukturierung des Forschungsproblems

(Modellbildung) mit anschlieender Definition eines Forschungsziels. Zur

Konkretisierung dieses Zieles werden im zweiten Schritt Hypothesen aufgestellt, die

mgliche theoretische Lsungen des Forschungsproblems darstellen (Modell-

spezifikation). Darauf aufbauend wird ein detaillierter Forschungsplan (Arbeits-,

Zeit-, Kostenplan) erstellt (Marktforschungsdesign) (HERRMANN et al. 1999: 18ff.).

Im Rahmen der anschlieenden Datengewinnung knnen die Sekundrforschung

(Desk Research) und die Primrforschung unterschieden werden (Abbildung 2).

Abbildung 2: Grundmethoden der Datengewinnung

Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 23; BEREKOVEN et al. 1999: 49

Die Sekundrforschung verwendet fr die Auswertung und Analyse bereits

vorhandenes Datenmaterial. Zum einen knnen diese Daten aus

unternehmensexternen Quellen (z. B. Panel, Statistisches Bundesamt, ffentliche

Institutionen, Fachbcher) und zum anderen aus unternehmensinternen Quellen

(z. B. Buchhaltungsunterlagen, Kundenstatistik, Controlling, Meldungen des

Auendienstes) stammen (BODENSTEIN/SPILLER 1998: 75-77; BEREKOVEN et al.

1999: 42-48). Diese Art der Informationsgewinnung verursacht einen relativ

geringen finanziellen und zeitlichen Aufwand. Jedoch sind die ermittelten Daten

hufig nicht speziell auf ein vorliegendes Informationsproblem ausgerichtet und

weisen einen zu geringen Grad an Aktualitt, Detailliertheit, Objektivitt und

Relevanz auf (ebd.).

Ziel der Primrforschung ist es somit fr die Entscheidungsfindung konkrete

originre Daten selbst zu erheben (BODENSTEIN/SPILLER 1998: 77). Abbildung 3

verdeutlicht, dass im Rahmen der Primrdatenerhebung die Mglichkeit besteht

Befragungen und Beobachtungen durchzufhren. Erstere knnen weiterhin in


5

quantitative und qualitative Methoden differenziert werden. Whrend quantitative

Befragungen standardisiert erfolgen und dadurch ein breites Spektrum an Verhaltens-

und Denkmusterinformationen (z. B. Kundenzufriedenheit, Einstellungen,

Kaufabsichten usw.) ber die Grundgesamtheit liefern knnen, bieten qualitative

Befragungen die Mglichkeit einen vertieften Einblick in Bestimmungsfaktoren

einzelner Handlungen zu erhalten (ebd.: 77-78). Beobachtungen haben im Gegensatz

zu den Befragungen den Vorteil, dass sie unabhngig von der Auskunftswilligkeit

und Auskunftsfhigkeit der Probanten sind. Es knnen apparative und persnliche

Beobachtungen unterschieden werden (BRUHN 1999: 104f.).

Abbildung 3: Methoden der Primrdatenerhebung

Quelle: Eigene Darstellung

Bevor im nchsten Schritt die Analyse der gewonnenen Daten vorgenommen werden

kann, mssen diese zunchst aufbereitet werden. Das heit, die Datenquellen, z. B.

Fragebgen, werden bezglich der Vollstndigkeit und Plausibilitt und ggf. auch

auf unsachgeme Erhebung (Interviewereinfluss) hin berprft. Nach Feststellung


6

der Responsequote muss unter Umstnden auch ber eine Nachbefragung

entschieden werden. Fr die eigentliche Auswertung der Daten liegt eine Vielzahl

von statistischen Methoden vor. Dieses breite Methodenspektrum wird in der

vorliegenden Arbeit dadurch eingeschrnkt, dass nur der Einsatz von multivariaten

Verfahren und knstlichen Neuronalen Netzen (KNN) bei der Analyse von Daten,

die durch die Primrforschung erhoben wurden, betrachtet werden. Die

unterschiedlichen Analyseverfahren der Primrforschung werden im anschlieenden

Kapitel noch einmal ausfhrlicher dargestellt.

Der abschlieende Schritt des Marktforschungsprozesses umfasst die Dokumentation

und Interpretation der Analyseergebnisse. Die gewonnenen Informationen sind mit

der in Schritt 1 (vgl. Abbildung 1) definierten Problemstellung zu vergleichen

(Rckkopplung). Gegebenenfalls sind weitere Untersuchungen notwendig

(BEREKOVEN et al. 1999: 36; HTTNER 1999: 26). Nur Marktforschungsergebnisse,

die einen hohen Grad an Validitt, Reliabilitt und Objektivitt aufweisen, knnen

den Ansprchen der Entscheidungstrger des Unternehmens gerecht werden und

somit die Grundlage fr zuknftige Marketingstrategien bilden.2 Fr eine schnelle

Entscheidungsfindung ist darber hinaus wichtig, dass die relevanten Informationen

auf ein berschaubares Ma verdichtet werden. Die Datenauswertung und somit auch

die Auswahl eines geeigneten Analyseverfahrens spielen dabei eine groe Rolle.

2.2 Analyseverfahren in der Primrforschung

Die Analyseverfahren in der Primrforschung lassen sich hinsichtlich der Anzahl der

untersuchten Variablen in uni-, bi- und multivariate Verfahren unterscheiden (vgl.

Abbildung 4). Kennzeichnend fr die einfachste Form der Datenanalyse (univariate

Methoden) ist, dass sich diese nur auf die Auswertung einer Variablen und deren

Ausprgung konzentrieren. Whrend es bei nominal- und ordinalskalierten Daten nur

mglich ist Hufigkeiten zu analysieren, knnen bei metrischem Skalenniveau

Hufigkeitsverteilungen durch die Berechnung von Mittelwerten und

Streuungsmaen komprimiert charakterisiert werden. Das Ziel der univariaten

2 Reliabilitt = Zuverlssigkeit der Ergebnisse; Reproduzierbarkeit der Daten; Validitt = inhaltliche Gltigkeit des Gemessenen; Objektivitt = Unabhngigkeit der Messergebnisse vom Untersuchungsleiter


7

Datenanalyse ist somit insbesondere eine Datenverdichtung. Bei den bivariaten

Verfahren wird durch die Verknpfung von zwei Variablen versucht,

Zusammenhnge zwischen den Merkmalen in Form von Korrelationen oder

Abhngigkeiten aufzudecken oder zu berprfen. Als Analysemethoden bieten sich

hier unter anderem die Korrelationsanalyse, die Kreuztabellierung sowie die einfache

Regressionsanalyse an.

Abbildung 4: Analyseverfahren in der Primrforschung3


In der Marktforschung lassen sich jedoch hufig komplexe Zusammenhnge nicht

nur durch die Herauslsung von einer bzw. zwei Variablen darstellen. Dieses wrde

leicht zu Fehlschlssen bzw. -interpretationen fhren. Aus diesem Grunde besitzt die

multivariate Datenanalyse innerhalb der Primrforschung einen hohen Stellenwert.

Sie ermglicht entweder die wechselseitigen Beziehungen (Interdependenzanalyse,

Strukturentdeckung) oder die Abhngigkeiten (Dependenzanalyse, Struktur-

abbildung) zwischen mehreren Variablen zu analysieren. Das heit whrend bei der

3 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der in Abbildung 1

dargestellten Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.


8

Dependenzanalyse (z. B. Regressionsanalyse) ein kausaler Zusammenhang

unterstellt wird, indem eine Unterteilung in abhngige und unabhngige Variablen

geschieht, erfolgt bei der Interdependenzanalyse (z. B. Clusteranalyse) keine

Unterscheidung (BEREKOVEN et al. 1999: 191-204; HERRMANN et al. 1999: 29f.).

Die KNN werden in der Literatur (BACKHAUS 2003: 742; PODDIG et al. 2001: 364),

obwohl sie mehr als zwei Variablen analysieren nicht als spezielles multivariates

Verfahren bezeichnet, sondern knnen neben den uni-, bi- und multivariaten

Verfahren als eine eigenstndige Verfahrensklasse eingeordnet werden.4

Analysemethoden, die in diese Verfahrensklasse fallen, sind durch Lernfhigkeit, die

Mglichkeit nichtlineare Zusammenhnge darzustellen und durch die Fhigkeit, eine

sehr hohe Anzahl an Variablen verarbeiten zu knnen, charakterisiert (vgl. Kapitel

3.3).

KNN wurden bisher hauptschlich im Rahmen des Data Mining eingesetzt (vgl.

Kapitel 4.1). Der Terminus Data Mining bezeichnet eine relativ neue Forschungs-

und Anwendungsrichtung. Auf Grund dessen erfolgt auch die Definition dieses

Begriffes in der Literatur auf unterschiedlichste Art und Weise. bergreifend kann

jedoch gesagt werden, dass beim Data Mining anspruchsvolle automatisierte

Methoden (Verfahren der klassischen statistischen Datenanalyse, Anwendungen aus

der knstlichen Intelligenz, der Mustererkennung und des maschinellen Lernens) auf

relativ groe und komplexe Datenvolumina angewendet werden. Das Ziel ist dabei

die entscheidungsrelevanten Informationen aus den Daten zu extrahieren und zu

interpretieren (BERRY et al. 2004: 7f.; KPPERS 1999: 17-22).5

Die erforderlichen Daten fr den Data Mining-Prozess werden aus dem Data

Warehouse bezogen. Diese Daten wiederum entstammen grtenteils

unternehmensinternen Quellen (z.B. Kundendaten). Der Data Mining-Prozess

umfasst nach Abbildung 5 sechs Phasen. Erst nach der Aufgabendefinition

(Bestimmung der analytischen Ziele, Modellbildung), Auswahl und Aufbereitung der

4 Ein kurzer berblick ber die historische Entwicklung sowie dem Terminus der KNN findet sich

in Kapitel 3.2.1. 5 Die Begriffe Knowledge Discovery in Database (KDD) und Data Mining werden von den

meisten Autoren synonym verwendet (KPPERS 1999: 19; WILDE 2001: 13).


9

relevanten Daten (z. B. Transformation und Entfernung von Ausreiern) erfolgt die

eigentliche Anwendung der Data Mining-Methoden. Dabei stehen dem Anwender

Methoden aus den verschiedensten Gebieten zur Verfgung (Data Mining als

interdisziplinre Wissenschaft). So knnen die knstlichen neuronalen Netze der

knstlichen Intelligenz (KI), die Entscheidungsbume als Element des maschinellen

Lernens und die Assoziationsanalysen als eher heuristischer Ansatz betrachtet

werden. Nach der Anwendung der Data Mining-Methoden und anschlieender

erfolgreicher Evaluation und Interpretation der Ergebnisse erfolgt letztlich die

Anpassung des Marketings an die Data Mining-Ergebnisse (WILDE 2001: 14f.).6

Abbildung 5: Verwendung von KNN im Data Mining-Prozess


6 Einen umfassenderen berblick zum Data Mining zeigen die Autoren BERRY et al. (2004),

KPPERS (1999), SUBERLICH (2000) und WILDE (2001).


10

Abbildung 5 verdeutlicht den Ansatz dieser Arbeit, KNN, die bislang im Rahmen des

Data Mining-Prozesses Einsatz fanden, direkt auf die in der Primrforschung

erhobenen Daten anzuwenden (gestrichelter Pfeil).7 Dabei wird jeweils ein

multivariates Verfahren aus der Interdependenz- und Dependenzanalyse mit einem

dem Verwendungszweck nach analogen knstlichen Neuronalen Netzwerk

verglichen. Entsprechend der Abbildung 6 wird die Regressionsanalyse den Multi-

Layer-Perceptrons (MLP) und die Clusteranalyse den Self-Organizing-Maps (SOM)

gegenbergestellt.8

Abbildung 6: Vergleich von KNN und multivariaten Verfahren


Nachdem in den folgenden Kapiteln die methodischen Grundlagen der eben

genannten Verfahren aufgezeigt werden, wird im empirischen Teil untersucht, ob

und in wie weit die KNN fr die analytische Informationsgewinnung, im Rahmen

des betrieblichen Informationsmanagements, potenzielle Vorteile erbringen knnen.9

Die Grundlage fr diese Bewertung erfolgt durch die in Kapitel 4.2 aufgezeigten

Gtekriterien.

7 Die Daten unterscheiden sich dabei in der Hinsicht, dass die Primrforschung im Gegensatz zur

Sekundrforschung mehr psychographische Variablen mit einem beschrnkten Skalenniveau erhebt. 8 Der praktische Verwendungszweck fr die Regressionsanalyse und die MLP ist z. B. die

Kuferanalyse, in der die Bestimmungsgrnde von Kaufentscheidungen analysiert werden (Wirkungs-und Ursachenanalysen). Das Einsatzgebiet der Clusteranalyse und der SOM erfolgt z. B. im Rahmen des zielgruppenspezifischen Marketings durch Marktsegmentierungen (Clusterung).

9 Das betriebliche Informationsmanagement beinhaltet unter anderem das Management von Informationen, Informationssystemen und der Informations- und Kommunikationstechnologie (BEREKOVEN et al.1999: 19-48).

3 Methodische Grundlegung

11


3.1 Multivariate statistische Verfahren

3.1.1 berblick ber multivariate statistische Verfahren

In der Marktforschung liegen hufig sehr komplexe Zusammenhnge zwischen den

erhobenen Daten vor. Um diese vieldimensionalen Beziehungen zwischen den

Variablen aufzudecken, ist es notwendig, mehr als zwei Variablen gleichzeitig in die

Datenanalysen mit einzubeziehen. Dafr stehen dem Marktforscher verschiedene

multivariate Analyseverfahren zur Verfgung. Diese lassen sich, wie schon in

Kapitel 2.2 aufgezeigt, in struktur-prfende und struktur-entdeckende Verfahren

unterteilen (BEREKOVEN et al. 1999: 202). Bei den struktur-prfenden Verfahren

unterstellt der Anwender aufgrund von sachlogischen oder theoretischen

berlegungen einen kausalen Zusammenhang zwischen den Variablen. Zur

berprfung des theoretischen Modells werden die relevanten Variablen in

unabhngige und abhngige Variablen eingeteilt und mit Hilfe von multivariaten

statistischen Verfahren geprft. Das Ziel der Analyse besteht darin, den Einfluss der

unabhngigen Variablen auf die abhngigen Variablen zu beschreiben (BACKHAUS et

al. 2003: 7f.). Die grundlegenden struktur-prfenden Verfahren lassen sich nach

ihrem Skalenniveau gem Abbildung 7 zuordnen.

Abbildung 7: Grundlegende strukturen-prfende Verfahren

Quelle: BACKHAUS et al. 2003: 8


12

Bei den struktur-entdeckenden Verfahren erfolgt keine Unterteilung in abhngige

und unabhngige Variablen. Der Anwender besitzt vor der Analyse keine

Vorstellungen ber die wechselseitigen Beziehungen zwischen den Daten. Ziel der

Interdependenzanalyse ist somit unbekannte Zusammenhnge zwischen den

Variablen oder Datenobjekten aufzudecken (BEREKOVEN et al. 1999: 203).

Grundlegende struktur-entdeckende Verfahren sind unter anderem die

Faktorenanalyse, die Clusteranalyse, die Multidimensionale Skalierung und die

Korrespondenzanalyse.10

Um in der Marktforschung eine Problemstellung zu lsen, ist es vorteilhaft nicht nur

ein einzelnes multivariates Verfahren zu verwenden, sondern mehrere Methoden

miteinander zu kombinieren. Dieser Methodenmix ermglicht eine Aggregation der

Strken jedes einzelnen Verfahrens. Beispielsweise wird die Faktorenanalyse hufig

dafr eingesetzt, eine Vielzahl von Variablen auf einige wenige zu reduzieren, damit

anschlieend auf Grundlage dieser Dimensionsreduktion eine Clusteranalyse oder

Regressionsanalyse durchgefhrt werden kann.11 Eine ausfhrliche Betrachtung aller

multivariaten Verfahren wrde sicherlich den Rahmen dieser Arbeit sprengen,

deshalb wird in den folgenden Kapiteln jeweils nur ein Verfahren aus der

Dependenzanalyse (Regressionsanalyse) und Interdependenzanalyse (Clusteranalyse)

nher vorgestellt.12

3.1.2 Regressionsanalyse

Die Regressionsanalyse ist eines der vielseitigsten und am hufigsten eingesetzten

multivariaten Analyseverfahren (BACKHAUS et al. 2003: 46). Sie wird verwendet, um

die Beziehungen zwischen einer abhngigen (endogenen, Regressand) und einer oder

mehreren unabhngigen (exogenen, Regressoren) Variablen zu analysieren (z. B. der

10 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der aufgezeigten

struktur-entdecken und prfenden Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.

11 Diese Vorgehensweise erfolgt auch im empirischen Teil dieser Arbeit. 12 Die Varianz-, Diskriminanz- und Faktorenanalyse werden zustzlich als Hilfsverfahren (der

Regressions- und Clusteranalyse vor- oder nachgeschoben) im empirischen Teil dieser Arbeit verwendet. Eine ausfhrliche Darstellung dieser Verfahren wrde jedoch den Rahmen des methodischen Kapitels sprengen.


13

Einfluss des Preises auf die Nachfrage eines Produktes). Ist eine abhngige Variable

nur von einer unabhngigen Variablen beeinflusst, so wird die Beziehung in einer

Einfachregression analysiert. Wird hingegen eine abhngige Variable von mehreren

unabhngigen Variablen bestimmt, kann von einer Mehrfach- oder auch multiplen

Regression gesprochen werden. Im Folgenden wird die Vorgehensweise bei einer

multiplen linearen Regression in Anlehnung an Abbildung 8 dargestellt (VON AUER

2003: 8; BACKHAUS et al. 2003: 52).

Abbildung 8: Die Ablaufschritte der Regressionsanalyse

Quelle: Eigene Darstellung in Anlehnung an VON AUER 2003: 8; BACKHAUS et al. 2003: 52

Demnach erfolgt zuerst die Spezifikation des Regressionsmodells, welches die

vermutete Ursache-Wirkungs-Beziehung mglichst vollstndig enthalten sollte

(BACKHAUS et al. 2003: 52). Prinzipiell geht die multiple lineare Regressionsanalyse

von folgendem Grundmodell aus:13

13 Die Notation orientiert sich in diesem Kapitel an BACKHAUS et. al. (2003).

Spezifikation des Modells

A- Annahmen

B- Annahmen

C- Annahmen

funktional

Strgre

Variablen

Schtzung des Modells

Prfung des geschtzten Modells

Prfung der

Regressions-

funktion

Schritt 1

Prfung der

Regressions-

koeffizienten

Schritt 2

Schritt 3


14

0 1 1 2 2 ... ...j j J JY b b X b X b X b X= + + + + + +

mit

Y = Wert der j-ten Beobachtung fr die abhngige Variable

0b = Konstante der Regressionsfunktion

jb = Regressionskoeffizient (j= 1,2,,J)

jX = Wert der unabhngigen Variablen (j= 1,2,,J)

Das lineare Regressionsmodell unterliegt dabei wichtigen grundlegenden Annahmen

bzw. Prmissen, die erforderlich sind, um im zweiten Schritt, der Schtzung des

Modells, die wahren unbekannten Parameter zu ermitteln (VON AUER 2003: 15).

Tabelle 1 fasst die wichtigsten Prmissen, die Konsequenzen der Verletzung und die

berprfung der Annahmen zusammen. Die A-Annahmen beziehen sich auf die

funktionelle Spezifikation des Regressionsmodells. Dieses beinhaltet vor allem, dass

alle relevanten und keine irrelevanten unabhngigen Variablen in die Gleichung (1)

aufgenommen werden. Ebenfalls verdeutlicht Formel (1), dass der wahre

Zusammenhang zwischen Y und den unabhngigen Variablen Xj linear sein soll. Es

ist jedoch auch mglich, nicht-lineare Zusammenhnge in lineare zu transformieren,

z. B. im Falle einer multiplikativen Verknpfung durch Logarithmieren (RUDOLPH

1998: 43; VON AUER 2003: 277-299). Die B-Annahmen beziehen sich auf die

Residuen bzw. die Strgre. Die Residuen entsprechen nach Formel (2) der

Abweichung der tatschlich beobachteten Werte von den Schtzwerten (BACKHAUS

et al. 2003: 56).

$k k ke y y= 1, 2,...,=k K

mit

ke = Abweichung des Schtzwertes vom Beobachtungswert

ky = Beobachtungswert der abhngigen Variablen Y fr xk $

ky = ermittelter Schtzwert von Y fr xk

K = Zahl der Beobachtungen

Eine Verletzung der B-Annahmen kann unter anderem zu Heteroskedastizitt oder zu

Autokorrelation fhren. Heteroskedastizitt liegt vor, wenn die Streuung der

Residuen keine gleich bleibende Varianz aufweist. Autokorrelation ist gegeben,

(1)

(2)


15

wenn die Residuen in der Grundgesamtheit untereinander korrelieren (VON AUER

2003: 353-404).

Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells

Annahme Annnahme-verletzung

Konsequenzen berprfung

A1: Vollstndigkeit des Modells (Bercksichtigung aller relevanten Variablen)

Unvollstndig-keit

verzerrte oder ineffiziente Schtzer

t-Test F-Test (korrigiertes R)

A2: Linearitt in den Parametern

Nichtlinearitt verzerrte oder falsche Schtzer

(graphische Analyse) Box-Cox-Test

A3: Die Parameter sind fr alle Beobach tungen konstant

Strukturbruch falsches Modell F-Test Chow-Test

B1: Erwartungswert der Strgre gleich null

Erwartungswert der Strgre von null verschieden

verzerrte Schtzer

whrend der Datenerhebung

B2: Homoskedastizitt der Strgre

Hetero-skedastizitt

ineffiziente Schtzer

Goldfeld-Quandt-Test White-Test

B3: Freiheit von Autokorrelation

Autokorrelation ineffiziente Schtzer

Durbin-Watson-Test

B4: Normalverteilung der Strgre

Strgre nicht normalverteilt

Ungltige Signifikanztests (F-Test, t-Test) bei N < 40

Graphische Analyse Jarque-Bera-Test

C1: Keine lineare Abhngigkeit zwischen den unabhngigen Variablen

Perfekte Multikollinearitt

Verminderte Przision der Schtzwerte

Korrelations-matrix Regression zwischen den erklrenden Variablen Variance Inflation Factor

Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 92;VON AUER 2003: 237- 486

Die C-Annahmen beziehen sich auf die Eigenschaften der unabhngigen Variablen.

Wenn diese z. B. untereinander lineare Abhngigkeiten aufweisen, also korrelieren,

liegt das Problem der Multikollinearitt vor (ebd.: 461-487). In diesem Fall ist der

Einfluss der exogenen Variablen auf die endogene Variable nicht mehr eindeutig

zurechenbar (ebd.). Als Konsequenz der Prmissenverletzungen kann es zu


16

verzerrten oder ineffizienten Schtzern kommen (vgl. Tabelle 1). Ein Schtzer ist

unverzerrt (erwartungstreu), wenn die aus wiederholten Stichproben ermittelten

Regressionskoeffizienten im Mittel den wahren Wert aus der Grundgesamtheit

treffen (BACKHAUS et al. 2003: 79). Wenn ein unverzerrter Schtzer innerhalb der

Gruppe der unverzerrten Schtzer die kleinste Streuung aufweist, ist er effizient

(ebd.). Die unter dem zweiten Schritt erklrte Kleinstquadratmethode (KQ-Methode,

englisch: Ordinary Least Squares, OLS) liefert unter den getroffenen A-, B- und C-

Annahmen (ohne B4-Annahme) Regressionskoeffizienten, die innerhalb der Klasse

der unverzerrten linearen Schtzern effizient sind. Dieser Zusammenhang wird als

das Gauss-Markov-Theorem bezeichnet (BLEYMLLER et al. 2002: 150).14 In der

Praxis werden die Prmissen des Modells hufig erst nach der Prfung des

geschtzten Modells kontrolliert. Ohne vorherige Prfung der Prmissen drften

jedoch streng genommen, nach dem Gauss-Markov-Theorem, der F- und t-Test nicht

angewandt werden (HOFFMANN 2004: 40).15

Nach der Spezifikation des Regressionsmodells wird im zweiten Schritt (vgl.

Abbildung 8) mit Hilfe der KQ-Methode die Ermittlung der Schtzwerte fr die

Regressionskoeffizienten vorgenommen. Dabei werden die Parameter so gewhlt,

dass die Summe der quadrierten Residuen minimiert wird (FAHRMEIR et al. 2003:

478; BACKHAUS et al. 2003: 60):

( )2

20 1 1 2 2

1 1... ... min

K K

k k k k j j J Jk k

e y b b x b x b x b x= =

= + + + + + +

mit

ke = Wert der Residualgre (k=1,2,,K)

ky = Wert der abhngigen Variablen (k=1,2,,K)

0b = Konstante der Regressionsfunktion

jb = Regressionskoeffizient (j= 1,2,,J)

jkx = Wert der unabhngigen Variablen (j= 1,2,,J; k=1,2,,K) J = Zahl der unabhngigen Variablen K = Zahl der Beobachtungen

14 Im Englischen auch als BLUE (Best Linear Unbiased Estimator) ausgedrckt (ebd.). 15 Fr tiefer greifende Betrachtungen in die Regressionsanalyse, besonders in Bezug auf die ber-

prfung der Annahmen, sei auf die Literatur von BACKHAUS et al. (2003: 77-104), BROSIUS et al. (1996: 488-497), BLEYMLLER et al. (2002: 139-179) und VON AUER (2003: 237-486) verwiesen.

(3)


17

Im letzten Schritt (vgl. Abbildung 8) wird die Qualitt bzw. die Gte des geschtzten

Modells berprft. Neben der globalen Prfung des Regressionsmodells erfolgt auch

eine Kontrolle der einzelnen Regressionskoeffizienten. (BACKHAUS et al. 2003: 63).

Bei der globalen Prfung wird untersucht, wie gut die unabhngigen Variablen die

abhngige Variable erklren knnen. Die Kontrolle der einzelnen

Regressionskoeffizienten hingegen berprft, wie gut jede einzelne exogene Variable

zur Erklrung der endogenen Variablen beitrgt (ebd.). Am hufigsten wird zur

Prfung der Erklrungskraft der Regressionsfunktion das Bestimmtheitsma

verwendet. Dieses Ma berechnet, wieviel der Gesamtvarianz durch die

Regressionsgleichung erklrt werden kann (ebd.: 66):

$( )( )

2

2 12

1

erklrte StreuungGesamtstreuung

K

kkK

kk

y yR

y y

=

=

= =

Das Bestimmtheitsma R ist jedoch kritisch zu sehen, denn mit jeder hinzugefgten

exogenen Variablen wird der Erklrungsanteil, der mglicherweise nur zufllig

bedingt ist, und somit der Wert des Bestimmtheitsmaes, zunehmen (VON AUER

2003: 252). Damit der Wert des Maes nicht auch bei der Aufnahme einer

irrelevanten Variablen (vgl. Annahme-A1) steigt, sollte das korrigierte

Bestimmtheitsma, (englisch: adjusted R-squared) welches diesen Zusammenhang

bercksichtigt, verwendet werden (BACKHAUS et al. 2003: 67):

( )22 2 11korr

J RR R

K J

=

mit

J = Zahl der Regressoren 1 K J = Zahl der Freiheitsgrade

K = Zahl der Beobachtungswerte

Um die Gltigkeit des Regressionsmodells auch in der Grundgesamtheit zu

gewhren, wird als weiteres Gtema zur globalen Prfung der Regressionsfunktion

(4)

(5)


18

der F-Test verwendet (ebd.: 68). Besonders wenn das Regressionsmodell nur

aufgrund einer geringen Stichprobengre geschtzt wird, erweist sich dieser Test als

Gewhr fr die Gltigkeit des Modells in der Grundgesamtheit (ebd.). Um diesen

Test jedoch anwenden zu knnen, wird die geschtzte Regressionsfunktion (vgl.

Formel (1)) zunchst als eine stochastische Funktion mit dem Term der Strgre

dargestellt (vgl. Formel (6)). Es handelt sich dabei um eine stochastische Funktion,

da sowohl 0, j, u und Y Zufallsvariablen sind (BACKHAUS et al. 2003: 69, VON

AUER 2003: 68).

0 1 1 2 2 ... ...j j J JY X X X X u = + + + + + + +

mit

Y = Abhngige Variable

0 = Konstantes Glied der Regressionsfunktion

j = Regressionskoeffizient (j= 1,2,,J)

jX = Unabhngige Variable (j= 1,2,,J) u = Strgre

Die Nullhypothese des F-Tests besagt, dass keiner der Regressionskoeffizienten zur

Erklrung der abhngigen Variablen beitrgt (FAHRMEIER et al. 2003: 498):

0 1 2: ... 0JH = = = =

Der empirische F-Wert Femp berechnet sich aus dem Verhltnis der erklrten zu der

nicht erklrten Streuung jeweils dividiert durch die Zahl der Freiheitsgrade

(BACKHAUS et al. 2003: 70):

$( )$( )

2

12

1

erklrte Streuungnicht erklrte Streuung 11

K

kk

emp K

k kk

y y JJF

K Jy y K J

=

=

= =

Wenn der empirische F-Wert grer ist als der theoretische F-Wert, kann die

Nullhypothese abgelehnt werden. In diesem Fall liegt zumindest ein signifikanter

kausaler Zusammenhang zwischen einer exogenen und der endogenen Variablen in

(6)

(7)


19

der Grundgesamtheit vor (HOFFMANN 2004: 38). Der theoretische F-Wert ergibt sich

mit dem gewhlten Signifikanzniveau aus der F-Verteilung und kann aus der F-

Tabelle16 entnommen werden. Das als letztes fr die Prfung der

Regressionsfunktion vorgestellte Gtema ist der Standardfehler der Schtzung.

Dieses Ma gibt an, welcher mittlere Fehler aus der Anwendung der

Regressionsfunktion zur Schtzung der endogenen Variablen resultiert (BACKHAUS

et al. 2003: 73):

( )

2

1

1==

K

kk

es

K J

Nach der globalen Prfung der Regressionsfunktion erfolgt die berprfung der

einzelnen Regressionskoeffizienten. Whrend der F-Test in der Nullhypothese

berprft, dass alle Regressionskoeffizienten gleich null sind, wird analog mit dem

t-Test jeder einzelne Koeffizient geprft (ebd.):

0 : 0jH =

Der empirische t-Wert einer exogenen Variablen wird durch die Division des

betreffenden Regressionskoeffizienten durch dessen Standardfehler ermittelt (ebd.:

74):

j j

empbj

bt

s

=

mit

empt = Empirischer t-Wert fr den j-ten Regresssor

j = Wahrer Regressionskoeffizient (unbekannt)

jb = Regressionskoeffizient des j-ten Regressors

bjs = Standardfehler von jb

16 F- sowie eine t-Tabelle sind unter anderem in den meisten statistischen Lehrbchern auffindbar.

(8)

(9)


20

Ist der empirische t-Wert grer als der theoretische t-Wert, kann die Nullhypothese

abgelehnt werden. Demnach existiert dann ein signifikanter Zusammenhang

zwischen der unabhngigen Variablen und der abhngigen Variablen in der

Grundgesamtheit (FAHRMEIR et al. 2003: 497). Der theoretische t-Wert ergibt sich

mit dem gewhlten Signifikanzniveau aus der Student-t-Verteilung und kann aus der

t-Tabelle16 entnommen werden. Zustzlich zum t-test gibt das Konfidenzintervall den

Bereich an, in dem sich der wahre Wert des Regressionskoeffizienten in der

Grundgesamtheit befinden knnte (BACKHAUS et al. 2003: 76):

j bj j j bjb t s b t s +

mit

empt = t-Wert aus der Student-Verteilung

j = Wahrer Regressionskoeffizient (unbekannt)

jb = Regressionskoeffizient der Stichprobe

bjs = Standardfehler von Regressionskoeffizienten

Je grer das Konfidenzintervall ist, desto unsicherer ist die Schtzung des

betreffenden Regressionskoeffizienten auf die Grundgesamtheit bertragbar (ebd.:

77). Anhand der Regressionskoeffizienten ist es mglich, den marginalen

Zusammenhang zwischen den exogenen Variablen und der endogenen Variablen

inhaltlich zu interpretieren (ebd.: 61). Ein Vergleich zwischen den Regressoren in

Bezug auf die Einflussstrke auf den Regressanden ist allerdings nur dann mglich,

wenn die unabhngigen Variablen ein gleiches Messniveau aufweisen (ebd.:). Sollte

dieses jedoch nicht vorliegen, so knnen die Regressionskoeffizienten nach einer

Standardisierung verglichen werden (BACKHAUS et al. 2003: 76; HOFFMANN 2004:

40)17:

Standardabweichung von Standardabweichung von

jj j

Xb b

Y=$

17 Die Standardabweichung berechnet sich wie folgt (BACKHAUS et al. 2003: 62):

( )2

1

1

K

kk

x

x xs

K=

=

(10)

(11)


21

Diese standardisierten Regressionskoeffizienten werden auch als Beta-Werte

bezeichnet (BACKHAUS et al. 2003: 61). Im nachstehenden letzten Abschnitt ber das

multivariate Verfahren der Regressionsanalyse werden kurz deren Schwchen und

Strken diskutiert.

Ein optimales Einsetzen der Regressionsanalyse erfordert bereits im Vorfeld, dass

die Art der Beziehungen zwischen der abhngigen Variablen und den Unabhngigen

klar ist. Diese Zusammenhnge erweisen sich aber oft als sehr komplex und sind

dementsprechend nur schlecht als lineares Model darzustellen. Es ergibt sich zwar,

wie schon oben angesprochen, die Mglichkeit der Linearisierung, jedoch reicht

auch diese oft nicht aus. Denn bei vielen Fragestellungen, insbesondere im

Marketing, ist die endogene Variable binr (dichotom oder zweiwertig) ausgeprgt.

Als Beispiel dafr sei der Kauf bzw. Nichtkauf eines Produktes genannt. Die

Regressionsanalyse kann in diesem Fall nicht verwendet werden, da die Residuen

nicht normalverteilt sind und somit die Annahme-B4 verletzt ist (MEYER 2002: 198).

Als Analyseverfahren bieten sich daher im Fall einer binren abhngigen Variablen

die logistische Regressionsanalyse und die Diskriminanzanalyse an (BACKHAUS et al.

2003: 418). Praktische und wissenschaftliche Fragestellungen, die komplexere

kausale Abhngigkeiten zwischen bestimmten Variablen aufweisen, knnen

konfirmatorisch, mit Hilfe von Strukturgleichungen im Rahmen von Kausalanalysen,

untersucht werden (ebd.: 334).18 Die statistische Strke des Regressionsmodells ist

eine umfassende theoretische Fundierung mit zahlreichen Erweiterungen und

Spezialfllen. Deshalb setzt sie ein umfangreiches anwenderbasiertes Wissen voraus.

So werden z. B. Ausreier bei der Gewichtung der einzelnen Regressions-

koeffizienten durch die quadratische Minimierung der Abweichungen (KQ-Methode)

zu stark bewertet. Demnach ist gegebenenfalls eine Voranalyse der Datenbasis

erforderlich. Letztendlich ist die Regressionsanalyse jedoch mathematisch und

sachlogisch einfach nachzuvollziehen und die Ergebnisse sind leicht zu

interpretieren.

18 Weiterfhrende Betrachtungen ber die eben genannten multivariaten Verfahren enthalten z. B.

BACKHAUS et al. (2003) und JANSEN et al. (2003).


22

3.1.3 Clusteranalyse

Whrend die Regressionsanalyse als struktur-prfendes Verfahren die Beziehungen

zwischen den Variablen aufzeigt, betrachtet die Clusteranalyse als struktur-

entdeckendes Verfahren die Beziehungsstrukturen zwischen den Objekten. Das Ziel

der Clusteranalyse besteht darin, Gruppen (bzw. Cluster, Klassen, Typen) zu bilden,

in denen die durch eine Anzahl von Variablen beschriebenen Objekte mglichst

homogen sind. Objekte aus unterschiedlichen Gruppen sollten hingegen mglichst

heterogen sein (BACHER 1996: 1-3). Der Einsatz der Clusteranalyse in der

Primrforschung erfolgt z. B. zur Marktstrukturierung, Marktsegmentierung und

Konsumententypologisierung.

Abbildung 9: Die Ablaufschritte der Clusteranalyse


Auswahl von Variablen

Wahl des Clusteralgorithmus

Prfung der Clusteranalyse

Schritt 1

Schritt 2

Schritt 3

Bestimmung der Clusteranzahl Schritt 4

Schritt 5

interne

Prfung

relative

Prfung

externe

Prfung

Wahl des Proximittsmaes

Clusterzentrenanalyse

Schritt 6

Schritt 7 Interpretation der Cluster


23

Die Literatur (unter anderem BACHER 1996; BACKHAUS et al. 2003; BORTZ 2005;

GIERL et al. 2001; JANSEN et al. 2003) beschreibt die Vorgehensweise bei der

Clusteranalyse besonders in Bezug auf die Gtekriterien zum Teil sehr

unterschiedlich. In Anlehnung an Abbildung 9 wird deshalb im Folgenden die

Vorgehensweise der Clusteranalyse, wie sie im Rahmen dieser Arbeit durchgefhrt

wird, vorgestellt.

Der erste Schritt, die Auswahl der clusterbildenden Variablen (Inputvariablen, aktive

Variablen), anhand derer die Zuordnung der Objekte zu den Clustern resultiert, ist als

das ausschlaggebende Kriterium fr den Erfolg der Analyse anzusehen.19 Es sollten

demnach nur die theoretisch relevanten Variablen fr die Analyse ausgewhlt

werden (BACKHAUS et al. 2003: 537).20 Bei Datenstzen mit sehr vielen Variablen

bietet eine vorgeschobene Faktorenanalyse hufig die Mglichkeit eine grere

Anzahl von miteinander korrelierten Variablen auf einige wenige Faktoren zu

reduzieren. Diese Faktoren knnen dann anschlieend als Inputvariablen verwendet

werden (BACHER 1996: 126; BACKHAUS et al. 2003: 538; JANSEN et al. 2003: 437f.).21

Nach GIERL et al. (2001: 130) wird die Anzahl der clusterbildenden Variablen in der

Literatur meistens auf vier bis acht beschrnkt.

Durch die Festlegung eines Proximittsmaes werden im zweiten Schritt der

Clusteranalyse die Distanzen (Unterschiede) bzw. die hnlichkeiten

(bereinstimmungen) zwischen den zu gruppierenden Objekten numerisch

ausgedrckt. Das allgemein gebruchlichste, wie auch fr die meisten

Clusteralgorithmen am besten geeignete Proximittsma, ist die quadrierte

Euklidische Distanz (BORTZ 2005: 569; GIERL et al. 2001: 865):

( )K 22

ij i jj 1

D x x=

=

19 Variablen, die nicht in der Clusterbildung Verwendung fanden, werden als passive Variablen

bezeichnet. 20 BACHER (1996: 410-412) und BERGS (1980: 51-62) zeigen eine umfassendere Beschreibung zur

Auswahl der clusterbildenden Variablen auf. 21 Eine bersicht ber die Faktorenanalyse zeigen z. B. BACKHAUS et al. (2003); BORTZ (2005);

BROSIUS et al. (1996) und JANSEN et al. (2003).

(12)


24

mit: 2D = quadrierte Euklidische Distanz

ij i jx (x ) = Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j

Diese Quantifizierung dient als Ausgangspunkt fr den sich anschlieenden Cluster-

bzw. Fusionierungsalgorithmus (Clusterverfahren) (BROSIUS et al. 1996: 865). In der

Literatur (BACHER 1996; BACKHAUS et al. 2003: 480-542; BERGS 1980;

VAZIRGIANNIS et al. 2003; WEDEL et al. 2003) finden sich eine Vielzahl von

unterschiedlichen Algorithmen. Abbildung 10 gibt deshalb nur einen berblick ber

die in dieser Arbeit verwendeten Clusteralgorithmen. Neben den multivariaten

Verfahren bieten auch die KNN (Self-Organizing-Maps) die Mglichkeit eine

Clusterung durchzufhren (vgl. Kapitel 3.2.4). Bei den multivariaten statistischen

Verfahren unterscheidet man die Gruppierungsalgorithmen in hierarchische und

partitionierende Verfahren.

Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen

Quelle: Eigene Darstellung in Anlehnung an PETERSOHN 1999: 553

Die hierarchischen agglomerativen Verfahren beginnen mit der feinsten

Objektgruppierung, d.h. jedes Objekt bzw. Fall bildet ein eigenes Cluster,

Clusterverfahren

Partitionierende Verfahren

Self Organzing Maps

Single- Linkage

K-Means

Multivariate Verfahren Knstliche Neuronale Netze

Ward

Hierarchische Verfahren


25

schrittweise werden diese dann zu immer umfangreicheren Clustern

zusammengefasst (WEDEL et al. 2003: 48-50).22 Whrend das Single-Linkage

Verfahren (oder auch Nearest-Neighbour-Verfahren) die Objekte (Gruppen)

vereinigt, die die kleinste Distanz zueinander aufweisen, werden beim Ward-

Verfahren diejenigen Gruppen fusioniert, die ein vorgegebenes Heterogenittsma,

die Fehlerquadratsumme (Varianzkriterium), am geringsten erhhen (BORTZ 2005:

575).23 In Abbildung 11 werden die Fusionierungsschritte, bei der Ward-Methode,

bezogen auf die Fehlerquadratsumme (standardisiert von 0 bis 25), graphisch fr

jedes Objekt (1-8) in Form eines Dendogramms dargestellt.

Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren24


Unter die partitionierenden Verfahren fllt der K-Means-Algorithmus

(Clusterzentrenanalyse). Dieser unterscheidet sich von den hierarchischen Verfahren

dadurch, dass zunchst eine vorgegebene oder zufllige Startpartition durch iteratives

Verschieben von Objekten zwischen den Clustern solange verbessert wird, bis sich

jedes Objekt in einer Gruppe befindet, zu dessen Schwerpunkt (Mittelpunkt) es, im

22 Man unterscheidet zwischen hierarchisch-divisiven Verfahren und hierarchischen-

agglomerativen Verfahren. Die hierarchisch-divisiven Clusteralgorithmen beginnen mit der grbsten Partition, bei der alle Objekte in einem Cluster zusammengefasst sind (WEDEL et al. 2003: 50).

23 Bei der Fusionierung zweier Gruppen im Ward-Algorithmus, entspricht die quadrierte Euklidische Distanz genau dem doppelten der Fehlerquadratsumme (BACKHAUS et al. 2003: 512).

24 Einen berblick ber den Ablauf der Fusionierungsschritte innerhalb eines Dendogramms zeigt unter anderem BACKHAUS et al. (2004: 506-524), BROSIUS et al. (1996: 875-877) und PETERSOHN (1997: 118-120).


26

Vergleich zu den brigen Gruppen, die geringste Distanz aufweist (BORTZ 2005: 578;

VAZIRGIANNIS et al. 2003: 25). Dieses Verfahren hat gegenber den hierarchischen

Methoden den Vorteil, dass eine Neuzuordnung der Objekte (Flle) jederzeit mglich

ist (GIERL et al. 2001: 131; GRABMEIER 2001: 329-332). Der Nachteil dieses

Verfahrens liegt jedoch darin, dass man vor der Analyse die Struktur des Datensatzes

und somit die Startpartitionen und die Clusteranzahl nicht kennt. Deshalb ist es nach

BORTZ (2005: 575), JANSEN et al. (2003: 433) und WIEDENBECK et al. (2001: 14)

vorteilhaft, zunchst mit dem Ward-Algorithmus die Anfangspartitionen zu

berechnen und dann mit der K-Means-Methode das Ergebnis zu optimieren. Um die

Anflligkeit des Ward-Verfahrens bei der Gruppierung der Objektmenge gegenber

Ausreiern, welche den Fusionierungsprozess negativ beeinflussen, zu mindern,

empfiehlt es sich, diese zunchst mit dem Single-Linkage-Algorithmus zu

identifizieren und dann anschlieend zu entfernen (BACKHAUS et al. 2003: 537;

KNIG 2001: 110).25 Demnach ergibt sich, in Bezug auf die Wahl der

Fusionierungsalgorithmen, nachstehender Ablauf der Clusteranalyse:26

1. Single-Linkage-Methode (zur Eliminierung der Ausreier)

2. Ward-Methode (zur Bestimmung von Startpartitionen)

3. K-Means (zur Bestimmung der optimalen Endpartitionen)

Die Bestimmung der optimalen Clusteranzahl (vgl. Abbildung 9) ist innerhalb der

hierarchischen und partitionierenden Verfahren nicht automatisiert. Die

Entscheidung sollte deshalb aufgrund von mathematisch-statistischen und

interpretationsbezogenen Kriterien erfolgen (KNIG 2001: 112). Als mathematisch-

statistische Verfahren knnen das Dendogramm sowie das Scree-Test-Diagramm

verwendet werden (ebd.: 522- 524).27 Der Scree-Test (vgl. Abbildung 12) basiert

gegenber dem Dendogramm auf einem Koordinatensystem, auf dem die

25 Ausreier sind Objekte, die im Vergleich zu den brigen Objekten eine vollkommen anders

gelagerte Kombination der Merkmalsausprgungen aufweisen und dadurch von allen andern Objekten weit entfernt liegen (BACKHAUS et al. 2003: 537).

26 Einen umfassenderen berblick ber die Proximittsmae und Algorithmen der Clusteranalyse zeigen unter anderem BACHER (1996); BACKHAUS et al. (2003); BERGS (1980); VAZIRGIANNIS et al. (2003); und WEDEL et al. (2003).

27 Einen berblick ber weitere statistisch-mathematische Kriterien, die jedoch nicht in dieser Arbeit verwendet werden, zeigen unter anderem BORTZ (2005: 576-578); GIERL et al. (2001: 134f.); WEDEL et al. (2003: 91-93) und TIBSHIRANI (2000).


27

Clusteranzahl gegen die Entwicklung der Fehlerquadratsumme abgetragen wird

(BORTZ 2005: 576 f.).

Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl

0

50

100

150

200

250

300

350

400

450

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Anzahl der Cluster

Fehl

erqu

adra

tsum

me

Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 524; BERGS 1980: 102

Die Heterogenittszuwchse (Fehlerquadratsummen) nehmen mit sinkender

Clusteranzahl und durch die Fusion immer heterogenerer Cluster berproportional

zu. Dort, wo der Graph vor dem berproportionalen Anstieg einen deutlichen Knick

(Elbow) aufweist, liegt bei der gegebenen Objektmenge die optimale Clusteranzahl

vor (ebd.). BERGS (1980: 97) zeigte, dass der Scree-Test (oder auch das Elbow-

Kriterium) bei den hierarchischen Algorithmen vor allem beim Ward-Verfahren die

richtige Clusteranzahl signalisiert. Da jedoch dieser Knick nicht immer graphisch zu

identifizieren ist, kann eine Tabelle mit den Koeffizienten (Fehlerquadratsummen)

bei den einzelnen Fusionierungsschritten weiteren Aufschluss ber die optimale

Elbow


28

Gruppenanzahl geben.28 Das Dendogramm kann parallel zum Scree-Test bei der

Bestimmung der optimalen Gruppenanzahl verwendet werden. Es wird allerdings mit

zunehmender Stichprobengre immer unbersichtlicher. Die Entscheidung fr die

Anzahl der Cluster sollte jedoch nicht nur auf statistisch-mathematische Kriterien

(Homogenittsanforderungen) beruhen, sondern vor allem aus der

Handhabbarkeit bzw. der sachlogischen Interpretation der Clusterlsung

resultieren (BACKHAUS et al. 2003: 521).29

Nachdem die beste Clusteranzahl ermittelt wurde, wird dieses Ergebnis, wie oben

dargestellt, mit einer Clusterzentrenanalyse (K-Means) optimiert (vgl. Abbildung 9).

Im Anschluss erfolgt die berprfung der Clusterlsung. Dabei unterteilt man drei

Bereiche zur Clustervalidierung (VAZIRGIANNIS et al. 2003: 95-123; WEDEL et al.

2003: 59f.):

- externe

- interne

- relative Kriterien

Die externen Kriterien vergleichen die ermittelte Clusterstruktur mit der

tatschlichen (VAZIRGIANNIS et al. 2003: 98-101). In vielen Untersuchungen, sowie

auch im empirischen Teil dieser Arbeit, sind jedoch die wahren Gruppen nicht

bekannt. Deshalb wird dieses Kriterium hier nicht weiter betrachtet.

Anhand der internen Kriterien wird das Ausma der Homogenitt (Varianz)

innerhalb der Cluster gemessen. Als Gtema stehen hier der F-Wert und eta zur

Verfgung. Der F-Wert kann, sowohl fr jede Variable ber alle Gruppen, als auch

fr jede Variable innerhalb eines Cluster berechnet werden. Bei der Ermittlung des

F-Wertes fr eine Variable innerhalb einer Gruppe gilt (BACKHAUS et al. 2003: 533):

28 Die meisten statistischen Programme (z. B. SPSS, ClustanGraphics) geben bei der Clusterlsung

ein Dendogramm und eine Tabelle mit den Fehlerquadratsummen (Koeffizienten) an. Ein Scree-Test-Diagramm kann jedoch nur mit Hilfe dieser Tabelle in z. B. Excel erstellt werden.

29 Dieser Konflikt bezieht sich z. B. auf Marktsegmentierungen. Denn eine zu groe Anzahl an Gruppen wrde die Gefahr der Oversegmentation und den damit im Marketing verbundenen zustzlichen Kosten mit sich bringen (KNIG 2001: 113).


29

V(J,G)FV(J)

=

mit

V(J,G) = Varianz der Variablen J in Gruppe G V (J) = Varianz der Variablen J in der Erhebungsgesamtheit

Je kleiner der Quotient aus der Streuung einer Variablen in einem Cluster und der

Streuung dieser Variablen in der Grundgesamtheit ist, desto homogener ist die

Gruppe in Bezug auf die betrachtete Variable. Wenn alle Variablen einen F-Wert von

kleiner als eins aufweisen, gilt dieses Cluster als vollkommen homogen (BACHER

1996: 334). Der F-Wert einer Variablen ber alle Gruppen berechnet sich

entsprechend der Formel (7). Die Nullhypothese lautet dabei: Die Mittelwerte der

Variablen sind in allen Gruppen gleich. Kann diese Hypothese nicht abgelehnt

werden, dann liegt kein signifikanter Unterschied zwischen den Mittelwerten der

Variablen in den Clustern vor.30 Analog zu R in der Regressionsanalyse bietet sich

als weiteres Gtekriterium innerhalb der Varianzanalyse das Assoziationsma eta

an.31 Es handelt sich dabei um ein spezielles Gtema fr den Fall, dass die

unabhngige Variable (Cluster) nominalskaliert und die Abhngige (aktive oder

passive Variable) mindestens intervallskalierte ist (JANSEN et al. 2003: 321-326;

BACHER 1996: 334).32

2 erklrte VarianzGesamtvarianz

=eta

Nach Formel (14) gibt eta darber Auskunft, wie viel Prozent der Streuung einer

Variablen auf die Unterschiede zwischen den Clustern zurckzufhren sind. Oder

anders gesagt, eta zeigt den Anteil der Varianz der abhngigen Variablen an, der

durch die unabhngigen Variablen erklrt wird (BACHER 1996: 335; JANSEN et al.

30 Das Ergebnis der Standardisierung der Quadratsummen (SS = Sum of Squares), also der Division der SS durch die Freiheitsgrade entspricht dem Mittel der Quadrate (MS = Mean Squares).

31 Hinweise zur Terminologie: Fehlerquadratsumme = nicht erklrte Varianz (Streuung) = Varianz innerhalb der Gruppen = Innengruppenvarianz = Fehlervarianz = Residual Sum of Squares; Erklrte Varianz = Varianz zwischen den Gruppen = Explained Sum of Squares; Gesamte Streuung = Total Sum of Squares

32 Die unhabhngige Variable kann jedes Skalenniveau annehmen.

(13)

(14)


30

2003: 325). Der Mittelwert von eta (Gesamt eta) aus mehreren Variablen gibt an,

wie viel Prozent der Varianz der Variablen durch die Unterschiede zwischen den

Gruppen erklrt wird (KAMINSKI et al. 2004: 24). Mit dem Eta-Koeffizienten lsst

sich die Beziehung zwischen den Variablen beschreiben. Er zeigt an, wie sehr sich

die Mittelwerte der clusterbildenden Variablen zwischen den verschiedenen Gruppen

unterscheiden. Unterscheiden sie sich stark und ist auerdem die Varianz der

einzelnen Gruppen gering, tendiert eta gegen 1. Unterscheiden sie sich gar nicht,

tendiert er gegen 0. Eta entspricht der Wurzel aus eta und kann wie der

Korrelationskoeffizient r interpretiert werden (JANSEN et al. 2003: 245ff.).33

Variablen, die nach dem F-Test oder eta keinen signifikanten Beitrag zur Trennung

der Gruppen leisten, sollten nicht als clusterbildene Variablen verwendet werden, da

diese ansonsten das Ergebnis einer Clusteranalyse verzerren wrden (BACHER 1996:

335). Zur nheren berprfung des Einflusses (Wirkungsanalyse) der aktiven und

passiven Variablen auf die gebildeten Cluster, kann eine multinomial-logistische-

Regressionsanalyse verwendet werden.34

Als letztes werden im Rahmen der Validittsprfung die relativen Kriterien

aufgezeigt. Diese dienen fr die berprfung der Stabilitt bzw. Generalisierbarkeit

(Stichprobenabhngigkeit) der Clusterlsung (BORTZ 2005: 580; Knig 2001: 115).

Die Objektmenge wird dabei zufllig in zwei oder mehrere gleich groe

Teilstichproben getrennt. Anschlieend werden auf diese Teilmengen verschiedene

oder gleiche Clusteralgorithmen angewendet (replizierte Clusteranalysen). Die

Gruppenlsungen werden dann auf bereinstimmungen hin berprft (BORTZ 2005:

581). Diese Vorgehensweise soll die Vielfalt von unterschiedlichen Cluster-

algorithmen bercksichtigen. Zur Beurteilung der bereinstimmungen kommen

dabei verschiedene Gtemae in Betracht (ebd.: 581-583; KNIG 2001: 115):35

33 Die Zuordnung von eta in die internen Kriterien erfolgt aufgrund seiner varianzanalytischen

Betrachtung. 34 Die multinomial-logistische-Regressionsanalyse wird jedoch nicht im empirischen Teil dieser

Arbeit eingesetzt. Einen berblick ber dieser Verfahren zeigen unter anderem BACKHAUS et al. (2003: 417-477) und SPSS (2003e).

35 Weitere hier nicht betrachtete Gtemae sind der Rand- und der Jaccard-Index (BORTZ 2005: 582; KNIG 2001: 115; GIERL et al. 2001: 129).


31

- Prozentsatz bereinstimmender Zuordnungen

- Kappa-Ma

- Diskriminanzanalyse

Das einfachste Gtema betrachtet den prozentualen Anteil der bereinstimmenden

Zuordnungen (JANSEN et al. 2003: 248):

MV

=

mit:

M = Zahl der bereinstimmungen V = Zahl der Vergleiche

Bei diesem Ma wird jedoch nicht der mgliche Anteil an zufllig richtig

zugeordneten bereinstimmungen bercksichtigt. Dieser komplexere

Zusammenhang wird mit dem Kappa-Ma einkalkuliert (BORTZ 2005: 581f.; JANSEN

et al. 2003: 249):

E

E

1

=

mit:

= Anteil der tatschlich beobachteten bereinstimmungen E = Anteil der erwarteten bereinstimmung

Der Anteil der erwarteten bereinstimmungen berechnet sich durch (ebd.):

( )k

2E i

i 1 p

=

=

mit:

ip = relativer Anteil der einzelnen Ausprgungen an der Gesamtzahl der Flle k = Zahl der Ausprgungen

(15)

(16)

(17)


32

Das Kappa-Ma kann maximal den Wert von 1 erreichen. Nur, wenn der Anteil an

bereinstimmungen grer ist als der Anteil an zuflligen bereinstimmungen,

nimmt Kappa positive Werte an. Im umgedrehten Fall weist Kappa negative Werte

auf. (KNIG 2001: 116).

Die Diskriminanzanalyse ist ein eigenstndiges multivariates Verfahren und bietet

die Mglichkeit die Clusterlsung sowie die clusterbildenden Variablen zu

berprfen (BORTZ 2005: 583; WIEDENBECK et al. 2001: 17). Auf Grundlage der

Clusterlsung wird eine Diskriminanzfunktion geschtzt, die eine maximale

Trennung der Cluster ermglicht. Anschlieend werden die Objekte nach der

Bedingung der Diskriminanzfunktion den Gruppen neu zugeordnet. Die

Diskriminanzkoeffizienten werden dabei hnlich der Regressions- oder

Varianzanalyse, durch die Optimierung des Verhltnisses zwischen der erklrten

Streuung (Varianz zwischen den Clustern) und der nicht erklrten Streuung (Varianz

innerhalb der Cluster) berechnet. Die letztendliche bereinstimmung zwischen dem

Gruppierungsergebnis der Diskriminanz- und der Clusteranalyse, kann als relatives

Validittskriterium verwendet werden (BACKHAUS et al. 2003: 155-227, BROSIUS et

al. 1996: 771-813; JANSEN et al. 2003: 439-456)36.

Die abschlieenden Schritte der Clusteranalyse sind die Interpretation bzw. die

Charakterisierung und die Beschreibung der einzelnen Gruppen (vgl. Abbildung 9).

Dafr eigenen sich vornehmlich die t-Werte, welche einzeln fr jede Variable

innerhalb einer Gruppe berechnet werden (BACHER 1996: 330; BACKHAUS et al.

2003: 534):

X(J,G) X(J)tS(J)

=

mit

X(J,G) = Mittelwert der Variablen J ber die Objekte in Gruppe G X(J) = Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit

36 Weitere Ausfhrungen zur Diskriminanzanalyse finden sich bei BACKHAUS et al. (2003: 155-

227), BROSIUS et al. (1996: 771-813) und JANSEN et al. (2003: 439-456).

(18)


33

S(J) = Standardabweichung der Variablen J in der Erhebungsgesamtheit

Positive bzw. negative t-Werte zeigen an, dass der Mittelwert einer Variablen

innerhalb eines Clusters ber- bzw. unter dem Mittelwert der Erhebungsgesamtheit

dieser Variablen liegt (ebd.).37 Nur eine Clusterlsung, die durch eine Interpretation

logisch nachvollziehbar ist, erweist sich als sinnvoll. Fr die Beschreibung der

einzelnen Gruppen sollten neben den clusterbildenden bzw. aktiven Variablen auch

die nicht in die Clusterbildung eingeschlossenen Variablen (passive Variablen), die

signifikante Unterschiede zwischen den Clustern aufweisen, herangezogen werden

(KNIG 2001: 117).

Insgesamt bietet die Clusteranalyse dem Nutzer durch die Vielzahl von

Proximittsmaen und Algorithmen ein breites Anwendungsfeld. Dieses bedeutet

aber auch gleichzeitig eine starke subjektive Beeinflussung. Die besonders durch die

Auswahl der clusterbildenden Variablen und die Entscheidung fr die Anzahl der

Gruppen erhht wird. Deshalb sollte gegenber Dritten eine umfassende

Offenlegung, in Bezug auf die Ablaufschritte (vgl. Abbildung 9) und die damit

verbundenen Entscheidungen des Anwenders, innerhalb der Clusteranalyse erfolgen.

37 Die t-Werte stellen eine normierte Gre dar.


34

3.2 Knstliche Neuronale Netze

3.2.1 berblick ber Neuronale Netze

Ursprnglich wurden knstliche Neuronale Netze (KNN, artificial neural networks,

ANN) entwickelt, um die neurobiologischen Prozesse innerhalb des Nervensystems

bei Tieren und Menschen besser begreifbar zu machen. Dieser Ansatz wird unter der

Terminologie des Konnektionismus zusammengefasst (Hoffmann 2004: 48). Das

Paradigma des Konnektionismus besagt, dass Informationsverarbeitung als

Interaktion einer groen Zahl einfacher Einheiten (Zellen, Neuronen) angesehen

wird, die anregende oder hemmende Signale an andere Zellen senden (Zell 2003:

26).38 Seit dem Ende der 80er Jahre des zwanzigsten Jahrhunderts entwickelte sich

neben diesem neurobiologisch orientierten Forschungszweig ein eigener nur auf

statistische Problemstellungen bezogener anwendungsorientierter Zweig (PODDIG et

al. 2001: 363).39 In dieser Arbeit wird der Terminus der KNN nur im Zusammenhang

mit der statistischen Forschungsrichtung weiter verwendet.

Neuronale Netze knnen wie die multivariaten Verfahren als eine eigenstndige

Verfahrensklasse mit vielen verschiedenen Typen (Verfahren) von KNN angesehen

werden (BACKHAUS 2003: 742; PODDIG et al. 2001: 364). Diese Typen der

Neuronalen Netze ermglichen es aber, hnliche statistische Problemsituationen wie

in der multivariaten Statistik zu analysieren (Strukturentdeckung und

Strukturabbildung). Die Literatur verwendet jedoch bei der Anwendung dieser

beiden Verfahrensklassen (multivariate Statistik und KNN) unterschiedliche

Fachtermini (vgl. Tabelle 2).

38 Einen ausfhrlichen berblick ber die Historie KNN zeigen STRECKER et al. (1997: 9-12) und

ZELL (2003: 28-33). LENZ et al (1995) stellt die Begriffsdefinitionen der Neuronalen Netze und der knstlichen Intelligenz nher dar.

39 Beide Forschungsrichtungen fallen unter dem Begriff der Knstlichen Intelligenz (KI)


35

Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren

Quelle: Eigene Darstellung in Anlehnung an ANDERS 1996: 164

In den folgenden Kapiteln wird zunchst ein berblick ber die Grundstruktur und

die Funktionsweise Neuronaler Netze gegeben. Anschlieend werden zwei Typen

von Neuronalen Netzen nher betrachtet, die Multi-Layer-Perceptrons und die Self-

Organizing-Maps. Danach werden die spezifischen Eigenschaften der KNN im

Vergleich zu den multivariaten Verfahren dargestellt.

Im Vergleich zu der multivariaten Statistik wurde in der Literatur nur wenig zu der

praktischen Vorgehensweise und Anwendung von KNN verfasst. Dementsprechend

beruhen die hier dargestellten Verfahrensablufe zum Teil auf einer eigenen

methodischen Erforschung im Rahmen dieser Arbeit.40

3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze

Da die KNN ursprnglich dazu entwickelt wurden, biologische Lernprozesse besser

darzustellen, bietet es sich zunchst an, die Informationsverarbeitung einer

natrlichen Nervenzelle (Neuron) nher zu erlutern und diese dann der

40 Anwenderbezogene Literatur fr multivariate Verfahren finden sich z.B. bei BACKHAUS et al.

(2004); BORTZ (2005); BROSIUS (2004); RUDOLF et al. (2004) und JANSEN et al. (2004). Anwenderbezogene Literatur fr MLP Verfahren findet sich z.B. bei ALEX (1998); BACKHAUS et al. (2003) und WIEDMANN (2003).


36

Funktionsweise eines knstlichen Neurons gegenberzustellen. Nach Schtzungen

besteht das menschliche Gehirn aus ca. 100 Milliarden Nervenzellen (ZELL 2003:

35). Jede einzelne Nervenzelle (vgl. Abbildung 13) setzt sich aus dem Zellkrper

(Soma) mit Zellkern (Nucleus), einer Nervenfaser (Axon) und vielen Dendriten

zusammen. Die Verbindung zwischen Axon und Dendriten wird durch die Synapsen,

die mit vielen verschiedenen Nervenzellen miteinander verbunden sind, realisiert

(ebd. 37).

Abbildung 13: Schematische Darstellung einer Nervenzelle

Quelle: Eigene Darstellung in Anlehnung an ANDERSON et al. 1992; ZELL 2003: 36

ber die Dendriten empfangene hemmende oder erregenden Signale werden an den

Zellkrper weitergeleitet und aufaddiert. Haben die Signale einen bestimmten

Schwellenwert berschritten wird der Zellkern aktiviert, die Signale analysiert,

ausgewertet und schlielich ber das Axon durch einen kurzfristigen elektrischen

Impuls weitergeleitet. Dieser Impuls wird dann durch die Synapsen an die Dendriten

der nachgeschalteten Neuronen bertragen. Durch die Anpassung der Verbindungen

(Synapsen) zwischen den Nervenzellen erfolgt der biologische Lernprozess. Das

heit, mit zu-, bzw. abnehmenden Nutzungsgrad der Synapsen wachsen oder


37

degenerieren diese (ebd.: 35-38).41 Neben der Eigenschaft der Lernfhigkeit besitzt

das Nervensystem sowie das KNN die Fhigkeit auf Signale der Umgebung

(Stimulus) zu reagieren (Response) (BACKHAUS et al. 2003: 740). Abbildung 14

verdeutlicht diesen Zusammenhang mit dem Stimulus-Organismus-Response-Modell

(SOR-Modell).

Abbildung 14: Das menschliche Nervensystem als SOR-Modell

Quelle: BACKHAUS et al. 2003: 740

Ein knstliches Neuron (Unit) lsst sich analog zu der biologischen Nervenzelle

vereinfacht durch drei mathematische Rechenoperationen (Bildung des Inputs,

Bildung des Aktivittsniveaus, Bildung des Outputs) abbilden (vgl. Abbildung 15).

Abbildung 15: Allgemeines Modell eines knstlichen Neurons

Quelle: Eigene Darstellung in Anlehnung an PODDIG et al.

Vergleich von künstlichen Neuronalen Netzen und ... · multivariaten statistischen Verfahren in...

Documents

Projekt Tourismus: Gästebefragung zur Zufriedenheit mit ... · Gästebefragungen, das wohl wichtigste Instrument für touristische Desti-nationen, welches die Primärforschung zu

E305C - Baumaschinen-Vergleich

Strombegrenzerkonzepte im Vergleich

Volltextsuche im Vergleich

Vergleich TVA

Angewandte Sportpsychologie Modul-Nummer Programm …...Strukturgleichungsmodelle) Verfahren der multivariaten Statistik. Arbeitsformen • 2 SWS Vorlesung (30h - 1 Credit) • 2 SWS

REISEMONTIERUNGEN - EIN VERGLEICH -

INDUSTRIE 4.0 IM INTERNATIONALEN VERGLEICH - huawei · PDF fileeine studie des. industrie 4.0 im internationalen vergleich vergleich der industrie 4.0 - wettbewerbsfÄhigkeit chinas,

Twittestudien Vergleich

Drucktechnologien im vergleich

Statistische Analyse eines multivariaten Continuation ... · HINTERGRUND WERKZEUGE BIVARIATES CRM ERWEITERUNGEN LITERATUR Statistische Analyse eines multivariaten Continuation Ratio-Models

Verfahren der Primärforschung 4.2 Komplexe Formen der ...€¦ · 3 4.2 Komplexe Formen der Primärforschung Marketing und Handel Campus Essen Univ.-Prof. Dr. Hendrik Schröder 4

QM-Systeme Vergleich

Grafikkarten Vergleich

Vergleich und Beurteilung verschiedener Kameratypen Vergleich von Kameratypen/Vergleich von... · sowie 30 (Tele). Bezüglich Brennweite und Schärfentiefe verfügt diese Kamera also

Buchhaltungssoftware-Vergleich 2020

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten

Vergleich Von Integrationsverfahren

surveymonkey Vergleich: kurl.de/survey

INTEL im vergleich mit AMD. Inhalt Allgemeines über Prozessoren Vergleich Intel – AMD Prozessorarten