View
223
Download
0
Category
Preview:
Citation preview
Holger Schulze
Vergleich von knstlichen Neuronalen Netzen und
multivariaten statistischen Verfahren in der
Primrforschung: Ein empirischer Vergleich
Masterarbeit im wissenschaftlichen Studiengang Agrarwissenschaften
an der Georg-August-Universitt Gttingen,
Fakultt fr Agrarwissenschaften
Studienrichtung: Wirtschafts- und Sozialwissenschaften des Landbaus
1. Prfer: Prof. Dr. Achim Spiller
2. Prfer: Prof. Dr. Stephan von Cramon-Taubadel
Abgabetermin: 04.04.2005
angefertigt im: Institut fr Agrarkonomie
Inhaltsverzeichnis
I
Inhaltsverzeichnis:
Abbildungsverzeichnis............................................................................................... III
Tabellenverzeichnis..................................................................................................... V
Symbolverzeichnis ....................................................................................................VII
Abkrzungsverzeichnis .............................................................................................. IX
1 Einleitung ............................................................................................................. 1
2 Verwendung von statistischen Verfahren in der Primrforschung ...................... 3
2.1 Der Ablauf des Marktforschungsprozesses.................................................. 3
2.2 Analyseverfahren in der Primrforschung ................................................... 6
3 Methodische Grundlegung................................................................................. 11
3.1 Multivariate statistische Verfahren ............................................................ 11
3.1.1 berblick ber multivariate statistische Verfahren................................ 11
3.1.2 Regressionsanalyse ................................................................................ 12
3.1.3 Clusteranalyse ........................................................................................ 22
3.2 Knstliche Neuronale Netze ...................................................................... 34
3.2.1 berblick ber Neuronale Netze............................................................ 34
3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze........................... 35
3.2.3 Multi-Layer-Perceptrons ........................................................................ 42
3.2.4 Self-Organizing-Maps............................................................................ 48
3.3 Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten
Verfahren ................................................................................................... 52
4 Empirische Anwendung und Vergleich der Verfahren...................................... 58
4.1 Zum Stand der Forschung .......................................................................... 58
4.2 Bewertungskriterien fr die Gte der Verfahren ....................................... 62
4.3 Auswahl der Fallstudien und Vorgehensweise .......................................... 65
4.4 Fallstudie 1: Meinungsforschung zum Stallbau in Diemarden .................. 68
4.4.1 Empirische Basis und Problemstellung der Untersuchung .................... 68
4.4.2 Ergebnisse der multivariaten Analyseverfahren .................................... 70
Inhaltsverzeichnis
II
4.4.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 81
4.4.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................... 85
4.5 Fallstudie 2: Markenprferenz bei chinesischen Konsumenten................. 88
4.5.1 Empirische Basis und Problemstellung der Untersuchung .................... 88
4.5.2 Ergebnisse der multivariaten Analyseverfahren .................................... 90
4.5.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 99
4.5.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................. 104
5 Zusammenfassung der Ergebnisse und Verfahrensvergleich .......................... 108
6 Schlussbemerkungen........................................................................................ 118
Literaturverzeichnis.................................................................................................. 120
Anhang ..................................................................................................................... 131
A. Methoden der Datenanalyse ........................................................................ 131
B. Berechnungen der Fallstudie 1 .................................................................... 131
C. Berechnungen der Fallstudie 2 .................................................................... 139
D. Vergleich der Verfahren.............................................................................. 145
E. Fragebogen der Fallstudie 1 ........................................................................ 148
F. Fragebogen der Fallstudie 2......................................................................... 157
Abbildungsverzeichnis
III
Abbildungsverzeichnis:
Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses.............................. 3
Abbildung 2: Grundmethoden der Datengewinnung ................................................. 4
Abbildung 3: Methoden der Primrdatenerhebung.................................................... 5
Abbildung 4: Analyseverfahren in der Primrforschung........................................... 7
Abbildung 5: Verwendung von KNN im Data Mining-Prozess ................................ 9
Abbildung 6: Vergleich von KNN und multivariaten Verfahren............................. 10
Abbildung 7: Grundlegende strukturen-prfende Verfahren................................... 11
Abbildung 8: Die Ablaufschritte der Regressionsanalyse ....................................... 13
Abbildung 9: Die Ablaufschritte der Clusteranalyse ............................................... 22
Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen............................... 24
Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren ...................... 25
Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl.................................. 27
Abbildung 13: Schematische Darstellung einer Nervenzelle .................................... 36
Abbildung 14: Das menschliche Nervensystem als SOR-Modell ............................. 37
Abbildung 15: Allgemeines Modell eines knstlichen Neurons................................ 37
Abbildung 16: Kurvenverlauf ausgewhlter Aktivierungsfunktionen....................... 38
Abbildung 17: Darstellung der Schichten eines Neuronalen Netzes ......................... 39
Abbildung 18: Einige schematische Netzwerktopologien ......................................... 40
Abbildung 19: Ausgewhlte knstliche neuronale Netzwerktypen ........................... 41
Abbildung 20: Ablaufschritte der Multi-Layer-Perceptrons...................................... 43
Abbildung 21: Test- und Validationsfehler im Lernverlauf ...................................... 45
Abbildung 22: Topologie einer Self-Organizing-Map............................................... 49
Abbildung 23: Ablaufschritte bei den Self-Organizing-Maps................................... 50
Abbildung 24: Eigenschaften Neuronaler Netze und statistische
Problemsituationen............................................................................. 52
Abbildung 25: Dimension der Komplexitt............................................................... 54
Abbildung 26: Blackbox-Ansatz................................................................................ 56
Abbildung 27: Kriterien zur Beurteilung der Leistungsfhigkeit der Verfahren....... 63
Abbildung 28: Clementine Oberflche mit Daten-Stream......................................... 67
Abbildung 29: Regressionsmodell auf Grundlage der Faktorenanalyse
(In-Sample) ........................................................................................ 74
Abbildung 30: Modifiziertes Regressionsmodell (In-Sample) .................................. 75
Abbildungsverzeichnis
IV
Abbildung 31: Regressionsmodell auf Basis der Rckwrts-Methode...................... 79
Abbildung 32: MLP-Modell auf Grundlage der Faktorenanalyse
(Validationsdaten) .............................................................................. 82
Abbildung 33: Modifiziertes MLP Model (Validationsdaten) .................................. 83
Abbildung 34: Elbow-Kriterium zur Bestimmung der Clusteranzahl ....................... 93
Abbildung 35: Beschreibung der Cluster durch die Statements der Faktoren........... 96
Abbildung 36: Entwicklung der Fehlerquadratsumme bei den SOM...................... 100
Abbildung 37: Beschreibung der Cluster durch die Statements der
Faktoren (SOM) ............................................................................... 103
Abbildung 38: SOM, K-Means und Ward im Vergleich ......................................... 104
Abbildung 39: Validitt der Clusterlsungen im Verfahrensvergleich.................... 105
Abbildung 40: Einordnung der Analyseverfahren nach anwender-, daten- und
methodenorientierten Anforderungen .............................................. 116
Abbildung 41: Methoden der Datenanalyse............................................................. 131
Abbildung 42: Hufigkeitsverteilung der Residualwerte......................................... 133
Abbildung 43: P-P-Normalverteilungsdiagramm der standardisierten
Residualwerte................................................................................... 133
Abbildung 44: Streudiagramm - Residualwerte gegen Vorhersagewerte................ 134
Abbildung 45: Hufigkeitsverteilung der Residualwerte (Modell 2) ...................... 137
Abbildung 46: P-P-Normalverteilungsdiagramm der standardisierten
Residualwerte (Modell 2)................................................................. 137
Abbildung 47: Streudiagramm - Residualwerte gegen Vorhersagewerte
(Modell 2) ........................................................................................ 138
Abbildung 48: Screeplot der Faktorenanalyse ......................................................... 139
Abbildung 49: Komponentendiagramm im rotierten Raum .................................... 139
Abbildung 50: 3D-Streudiagramm der Clusterlsung (K-Means)........................... 145
Abbildung 51: 3D-Streudiagramm der Clusterlsung (SOM)................................. 146
Abbildung 52: Hufigkeit der eingesetzten Verfahren in der betrieblichen Praxis . 146
Abbildung 53: Bedeutung der Auswahlkriterien geeigneter Verfahren .................. 147
Tabellenverzeichnis
V
Tabellenverzeichnis:
Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells ....................... 15
Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren .. 35
Tabelle 3: Ausgewhlte Literatur zum Verfahrensvergleich in der
Sekundrforschung (Teil 1)..................................................................... 59
Tabelle 4: Ausgewhlte Literatur zum Verfahrensvergleich in der
Sekundrforschung (Teil 2)..................................................................... 60
Tabelle 5: Ausgewhlte Literatur zum Verfahrensvergleich in der
Primrforschung...................................................................................... 61
Tabelle 6: bersicht ber die Fallstudien und die verwendeten Modelle................ 66
Tabelle 7: Faktorladungen der einzelnen Statements............................................... 72
Tabelle 8: Prognosegte des multiplen Regressionsmodells ................................... 78
Tabelle 9: Prognosegte des multiplen Regressionsmodells auf Basis der
Rckwrts-Methode ................................................................................ 81
Tabelle 10: Prognosequalitt des Neuronalen Netzwerkes (MLP) ............................ 84
Tabelle 11: Prognosequalitt im Verfahrensvergleich............................................... 85
Tabelle 12: Faktorladungen der einzelnen Statements............................................... 91
Tabelle 13: Kreuztabelle - K-Means versus Ward-Methode ..................................... 94
Tabelle 14: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............... 94
Tabelle 15: Charakterisierung der Cluster durch die T-Werte der aktiven Faktoren. 95
Tabelle 16: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............. 101
Tabelle 17: Charakterisierung der Cluster durch die T-Werte der Faktoren ........... 102
Tabelle 18: Kreuztabelle - SOM versus K-Means ................................................... 106
Tabelle 19: Bewertung von multivariaten Verfahren und KNN.............................. 115
Tabelle 20: ANOVA der Regressionsanalyse.......................................................... 131
Tabelle 21: Regressionskoeffizienten und Multikollinearittsdiagnose .................. 132
Tabelle 22: ANOVA der Regressionsanalyse (Modell 2)........................................ 134
Tabelle 23: Regressionskoeffizienten und Multikollinearittsdiagnose (Modell 2) 135
Tabelle 24: Korrelationsmatrix der exogenen Variablen aus der
Regressionsanalyse (Modell 2) ............................................................. 136
Tabelle 25: Korrelationsmatrix der exogenen Variablen der Regressionsanalyse... 138
Tabelle 26: Datenbasis zum Elbow-Kriterium......................................................... 140
Tabelle 27: Mittelwertvergleich bei der Ward Methode.......................................... 140
Tabellenverzeichnis
VI
Tabelle 28: Mittelwertvergleich bei der K-Means Methode.................................... 141
Tabelle 29: ANOVA-Tabelle bei der K-Means Clusterung .................................... 141
Tabelle 30: Kreuztabelle der Ergebnisse der replizierten und der anfnglichen ..... 141
Tabelle 31: Ergebnisse der Clusteranalyse (Ausgangslsung) ................................ 142
Tabelle 32: Ergebnisse der replizierten Clusteranalyse ........................................... 142
Tabelle 33: Vergleich der Dimensionen der SOM................................................... 143
Tabelle 34: Mittelwertvergleich bei den SOM......................................................... 143
Tabelle 35: ANOVA der aktiven Faktoren .............................................................. 143
Tabelle 36: ANOVA-Tabelle bei den SOM............................................................. 144
Tabelle 37: Kreuztabelle der Ergebnisse der replizierten und der
anfnglichen SOM ................................................................................ 144
Tabelle 38: Ergebnisse der SOM (Ausgangslsung) ............................................... 144
Tabelle 39: Ergebnisse der replizierten SOM .......................................................... 145
Symbolverzeichnis
VII
Symbolverzeichnis:
a Anzahl der Neuronen in der Ausgabeschicht
0b Konstante der Regressionsfunktion
jb Regressionskoeffizient (j= 1,2,,J)
2D quadrierte Euklidische Distanz
E durchschnittlicher Gesamtfehler
ke Abweichung des Schtzwertes vom Beobachtungswert
e(x) Eingangsfunktion
J Zahl der unabhngigen Variablen
K Zahl der Beobachtungen
k Zahl der Ausprgungen
M Zahl der bereinstimmungen
N Gesamtzahl der berechneten Beobachtungen (i = 1,,N).
ip relativer Anteil der einzelnen Ausprgungen an der
Gesamtzahl der Flle
R Korrelationskoeffizient
S(J) Standardabweichung der Variablen J in der
Erhebungsgesamtheit
bjs Standardfehler von jb
ts Streuung der empirischen (beobachteten) Ausgabewerte
ys Streuung der berechneten (vorhergesagte) Ausgabewerte
it empirische (beobachtete) Ausgabewerte
empt Empirischer t-Wert fr den j-ten Regressor
t Mittelwert der empirischen (beobachteten) Ausgabewerte
u Strgre
Anteil der tatschlich beobachteten bereinstimmungen
Symbolverzeichnis
VIII
E Anteil der erwarteten bereinstimmung
V Zahl der Vergleiche
V (J) Varianz der Variablen J in der Erhebungsgesamtheit
V(J,G) Varianz der Variablen J in Gruppe G
jw Verbindungsgewichte
jX Wert der unabhngigen Variablen (j= 1,2,,J)
jx Eingangsinformationen
ij i jx (x ) Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j
X(J,G) Mittelwert der Variablen J ber die Objekte in Gruppe G
X(J) Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit
Y Wert der j-ten Beobachtung fr die abhngige Variable
iy berechnete (vorhergesagte) Ausgabewerte
ky Wert der abhngigen Variablen (k=1,2,,K)
$ky ermittelter Schtzwert von Y fr kx
y Mittelwert der berechneten (vorhergesagte) Ausgabewerte
0 Konstantes Glied der Regressionsfunktion
j Regressionskoeffizient (j= 1,2,,J)
Abkrzungsverzeichnis
IX
Abkrzungsverzeichnis:
ANN Artificial Neural Networks
ANOVA Analysis of Variance
BLUE Best Linear Unbiased Estimator
CLU Clusteranalyse
DA Diskriminanzanalyse
DW Durbin-Watson-Statistik
EB Entscheidungsbaum
KDD Knowledge Discovery in Database
KI Knstliche Intelligenz
KNN Knstliche Neuronale Netze
KQ Kleinstquadrat
LOGR Logistische Regressionsanalyse
MAE Mean Absolute Error
MAPE Mean Absolute Percent Error
MLP Multi-Layer-Perceptrons
MRA Multiple Regressionsanalyse
MS Mean Squares
MSE Mean Square Error
NDA Neuronale Diskriminanzanalyse
OLS Ordinary Least Squares
RCLU Replizierte Clusteranalyse
RBF Radiale Basisfunktionen
RMSE Root Mean Square Error
SEA Sensitivittsanalyse
SNNS Stuttgarter Neuronale Netze Simulator
SOM Self-Organizing-Maps
SOR Stimulus-Organismus-Response
SPSS Statistical Package for the Social Sciences
SS Sum of Squares
VIF Variance Inflation Factors
http://www-ra.informatik.uni-tuebingen.de/SNNS/
1 Einleitung
1
1 Einleitung Die heutige Unternehmensfhrung bentigt fr die Entwicklung eines erfolgreichen
Marketingkonzeptes umfassende und aktuelle Informationen. Das Ziel der
Primrforschung ist, diese Informationen zu erheben und anschlieend die
Komplexitt und Dynamik auf die relevanten Daten zu verdichten. Nur so kann den
Entscheidungstrgern, die einem immer strkeren Wettbewerbsdruck unterliegen,
eine schnellere individuelle Anpassung an die Marktbedingungen ermglicht werden.
Dem Marktforscher obliegt somit die Aufgabe, eine mglichst effiziente Ausnutzung
der zur Verfgung stehenden Daten zu erreichen. Dafr steht ihm ein breites
Spektrum an Analyseverfahren zur Auswahl. Whrend es sich bei den klassischen
uni-, bi- und multivariaten Verfahren um bereits erprobte Verfahren handelt, weisen
die knstlichen Neuronalen Netze, im Einsatz fr die Primrforschung, einen
innovativen Charakter auf. Sie sind ursprnglich als mathematisches Abbild
neurobiologischen Lernens (knstliche Intelligenz) entstanden und haben sich nach
vielen Weiterentwicklungen in verschiedenartigen Wissenschaftsdisziplinen
etabliert. Im Gegensatz zu den meisten herkmmlichen multivariaten Verfahren
ermglichen sie es unter anderem, nicht lineare Zusammenhnge darzustellen und
eine sehr hohe Anzahl an Variablen zu verarbeiten.
Folglich ist es Ziel der Arbeit, zu untersuchen, ob durch den Einsatz von knstlichen
Neuronalen Netzen in der Primrforschung eine Verbesserung der Informa-
tionsgewinnung im Vergleich zu den bisher eingesetzten multivariaten Verfahren
mglich ist.
Zur Beantwortung dieser Frage gliedert sich die vorliegende Masterarbeit in fnf
Teile. Nach der Einleitung stellt Kapitel 2 die Einordnung der Primrforschung in
den Marktforschungsprozess dar. Anschlieend erfolgt ein berblick ber die in der
Primrforschung einsetzbaren Analyseverfahren. Im dritten Abschnitt werden die
methodischen Grundlagen der zu vergleichenden Datenanalyseverfahren aufgezeigt.
Da die Literatur zum Teil, auer bei der Regressionsanalyse, keine genauen und
einheitlichen Ablaufschritte sowie Gtekriterien zur Verwendung dieser Verfahren
(Clusteranalyse, Multi-Layer-Perceptrons und Self-Organizing-Maps) aufweisen,
1 Einleitung
2
liegt der Schwerpunkt dieses Kapitels darin, diese anwenderbezogenen Ablufe
darzulegen. Abgeschlossen wird dieser Abschnitt mit einem theoretischen berblick
ber die Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten
Verfahren. Zu Beginn des empirischen Teils wird durch eine Vorstellung
ausgewhlter Studien ein berblick zum Stand der Forschung gegeben. Auf Basis
der in Kapitel 4.2 vorgestellten Bewertungskriterien wird anschlieend exemplarisch
durch zwei Fallstudien der Vergleich zwischen den multivariaten Verfahren und den
knstlichen Neuronalen Netzen durchgefhrt. In den abschlieenden Kapiteln 5 und
6 und werden die wesentlichen Ergebnisse der Arbeit zusammengefasst, ein Ausblick
auf weitere, auf diese Arbeit aufbauende wissenschaftliche Untersuchungs-
mglichkeiten gegeben und Handlungsempfehlungen ausgesprochen.
2 Verwendung von statistischen Verfahren in der Primrforschung
3
2 Verwendung von statistischen Verfahren in der Primrforschung
2.1 Der Ablauf des Marktforschungsprozesses
Fr die Festlegung der Marketingstrategien sowie die Entwicklung eines
Marketingplans bentigt die Unternehmensfhrung vielfltige Informationen aus der
Umfeld-, Markt-, und Unternehmensanalyse. Die methodische Fundierung fr diesen
Marketing-Entscheidungsprozess liefert die Marktforschung. Sie umfasst die
Erhebung, Auswertung und Interpretation von entscheidungsrelevanten
Informationen im Rahmen der Marketingsituationsanalyse (BODENSTEIN/SPILLER
1998: 75; BRUHN 1999: 89-92). Die Durchfhrung einer Marktforschungsunter-
suchung verluft anhand des in Abbildung 1 dargestellten Prozesses.1
Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses
Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 17; BEREKOVEN et al. 1999: 49
1 Einen detaillierten berblick ber den Marktforschungsprozess zeigen unter anderem
BEREKOVEN et al. (1999), Bodenstein/Spiller (1998), BRUHN (1999), HERRMANN et al. (1999) und HTTNER (1999).
Problemdefinition
Datengewinnung
Schritt 1
Schritt 2
Schritt 3
Datenanalyse Schritt 4
Schritt 5
Marktforschungsdesign
Kommunikation der Ergebnisse
2 Verwendung von statistischen Verfahren in der Primrforschung
4
Demnach erfolgt zunchst die Strukturierung des Forschungsproblems
(Modellbildung) mit anschlieender Definition eines Forschungsziels. Zur
Konkretisierung dieses Zieles werden im zweiten Schritt Hypothesen aufgestellt, die
mgliche theoretische Lsungen des Forschungsproblems darstellen (Modell-
spezifikation). Darauf aufbauend wird ein detaillierter Forschungsplan (Arbeits-,
Zeit-, Kostenplan) erstellt (Marktforschungsdesign) (HERRMANN et al. 1999: 18ff.).
Im Rahmen der anschlieenden Datengewinnung knnen die Sekundrforschung
(Desk Research) und die Primrforschung unterschieden werden (Abbildung 2).
Abbildung 2: Grundmethoden der Datengewinnung
Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 23; BEREKOVEN et al. 1999: 49
Die Sekundrforschung verwendet fr die Auswertung und Analyse bereits
vorhandenes Datenmaterial. Zum einen knnen diese Daten aus
unternehmensexternen Quellen (z. B. Panel, Statistisches Bundesamt, ffentliche
Institutionen, Fachbcher) und zum anderen aus unternehmensinternen Quellen
(z. B. Buchhaltungsunterlagen, Kundenstatistik, Controlling, Meldungen des
Auendienstes) stammen (BODENSTEIN/SPILLER 1998: 75-77; BEREKOVEN et al.
1999: 42-48). Diese Art der Informationsgewinnung verursacht einen relativ
geringen finanziellen und zeitlichen Aufwand. Jedoch sind die ermittelten Daten
hufig nicht speziell auf ein vorliegendes Informationsproblem ausgerichtet und
weisen einen zu geringen Grad an Aktualitt, Detailliertheit, Objektivitt und
Relevanz auf (ebd.).
Ziel der Primrforschung ist es somit fr die Entscheidungsfindung konkrete
originre Daten selbst zu erheben (BODENSTEIN/SPILLER 1998: 77). Abbildung 3
verdeutlicht, dass im Rahmen der Primrdatenerhebung die Mglichkeit besteht
Befragungen und Beobachtungen durchzufhren. Erstere knnen weiterhin in
2 Verwendung von statistischen Verfahren in der Primrforschung
5
quantitative und qualitative Methoden differenziert werden. Whrend quantitative
Befragungen standardisiert erfolgen und dadurch ein breites Spektrum an Verhaltens-
und Denkmusterinformationen (z. B. Kundenzufriedenheit, Einstellungen,
Kaufabsichten usw.) ber die Grundgesamtheit liefern knnen, bieten qualitative
Befragungen die Mglichkeit einen vertieften Einblick in Bestimmungsfaktoren
einzelner Handlungen zu erhalten (ebd.: 77-78). Beobachtungen haben im Gegensatz
zu den Befragungen den Vorteil, dass sie unabhngig von der Auskunftswilligkeit
und Auskunftsfhigkeit der Probanten sind. Es knnen apparative und persnliche
Beobachtungen unterschieden werden (BRUHN 1999: 104f.).
Abbildung 3: Methoden der Primrdatenerhebung
Quelle: Eigene Darstellung
Bevor im nchsten Schritt die Analyse der gewonnenen Daten vorgenommen werden
kann, mssen diese zunchst aufbereitet werden. Das heit, die Datenquellen, z. B.
Fragebgen, werden bezglich der Vollstndigkeit und Plausibilitt und ggf. auch
auf unsachgeme Erhebung (Interviewereinfluss) hin berprft. Nach Feststellung
2 Verwendung von statistischen Verfahren in der Primrforschung
6
der Responsequote muss unter Umstnden auch ber eine Nachbefragung
entschieden werden. Fr die eigentliche Auswertung der Daten liegt eine Vielzahl
von statistischen Methoden vor. Dieses breite Methodenspektrum wird in der
vorliegenden Arbeit dadurch eingeschrnkt, dass nur der Einsatz von multivariaten
Verfahren und knstlichen Neuronalen Netzen (KNN) bei der Analyse von Daten,
die durch die Primrforschung erhoben wurden, betrachtet werden. Die
unterschiedlichen Analyseverfahren der Primrforschung werden im anschlieenden
Kapitel noch einmal ausfhrlicher dargestellt.
Der abschlieende Schritt des Marktforschungsprozesses umfasst die Dokumentation
und Interpretation der Analyseergebnisse. Die gewonnenen Informationen sind mit
der in Schritt 1 (vgl. Abbildung 1) definierten Problemstellung zu vergleichen
(Rckkopplung). Gegebenenfalls sind weitere Untersuchungen notwendig
(BEREKOVEN et al. 1999: 36; HTTNER 1999: 26). Nur Marktforschungsergebnisse,
die einen hohen Grad an Validitt, Reliabilitt und Objektivitt aufweisen, knnen
den Ansprchen der Entscheidungstrger des Unternehmens gerecht werden und
somit die Grundlage fr zuknftige Marketingstrategien bilden.2 Fr eine schnelle
Entscheidungsfindung ist darber hinaus wichtig, dass die relevanten Informationen
auf ein berschaubares Ma verdichtet werden. Die Datenauswertung und somit auch
die Auswahl eines geeigneten Analyseverfahrens spielen dabei eine groe Rolle.
2.2 Analyseverfahren in der Primrforschung
Die Analyseverfahren in der Primrforschung lassen sich hinsichtlich der Anzahl der
untersuchten Variablen in uni-, bi- und multivariate Verfahren unterscheiden (vgl.
Abbildung 4). Kennzeichnend fr die einfachste Form der Datenanalyse (univariate
Methoden) ist, dass sich diese nur auf die Auswertung einer Variablen und deren
Ausprgung konzentrieren. Whrend es bei nominal- und ordinalskalierten Daten nur
mglich ist Hufigkeiten zu analysieren, knnen bei metrischem Skalenniveau
Hufigkeitsverteilungen durch die Berechnung von Mittelwerten und
Streuungsmaen komprimiert charakterisiert werden. Das Ziel der univariaten
2 Reliabilitt = Zuverlssigkeit der Ergebnisse; Reproduzierbarkeit der Daten; Validitt = inhaltliche Gltigkeit des Gemessenen; Objektivitt = Unabhngigkeit der Messergebnisse vom Untersuchungsleiter
2 Verwendung von statistischen Verfahren in der Primrforschung
7
Datenanalyse ist somit insbesondere eine Datenverdichtung. Bei den bivariaten
Verfahren wird durch die Verknpfung von zwei Variablen versucht,
Zusammenhnge zwischen den Merkmalen in Form von Korrelationen oder
Abhngigkeiten aufzudecken oder zu berprfen. Als Analysemethoden bieten sich
hier unter anderem die Korrelationsanalyse, die Kreuztabellierung sowie die einfache
Regressionsanalyse an.
Abbildung 4: Analyseverfahren in der Primrforschung3
Quelle: Eigene Darstellung
In der Marktforschung lassen sich jedoch hufig komplexe Zusammenhnge nicht
nur durch die Herauslsung von einer bzw. zwei Variablen darstellen. Dieses wrde
leicht zu Fehlschlssen bzw. -interpretationen fhren. Aus diesem Grunde besitzt die
multivariate Datenanalyse innerhalb der Primrforschung einen hohen Stellenwert.
Sie ermglicht entweder die wechselseitigen Beziehungen (Interdependenzanalyse,
Strukturentdeckung) oder die Abhngigkeiten (Dependenzanalyse, Struktur-
abbildung) zwischen mehreren Variablen zu analysieren. Das heit whrend bei der
3 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der in Abbildung 1
dargestellten Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.
2 Verwendung von statistischen Verfahren in der Primrforschung
8
Dependenzanalyse (z. B. Regressionsanalyse) ein kausaler Zusammenhang
unterstellt wird, indem eine Unterteilung in abhngige und unabhngige Variablen
geschieht, erfolgt bei der Interdependenzanalyse (z. B. Clusteranalyse) keine
Unterscheidung (BEREKOVEN et al. 1999: 191-204; HERRMANN et al. 1999: 29f.).
Die KNN werden in der Literatur (BACKHAUS 2003: 742; PODDIG et al. 2001: 364),
obwohl sie mehr als zwei Variablen analysieren nicht als spezielles multivariates
Verfahren bezeichnet, sondern knnen neben den uni-, bi- und multivariaten
Verfahren als eine eigenstndige Verfahrensklasse eingeordnet werden.4
Analysemethoden, die in diese Verfahrensklasse fallen, sind durch Lernfhigkeit, die
Mglichkeit nichtlineare Zusammenhnge darzustellen und durch die Fhigkeit, eine
sehr hohe Anzahl an Variablen verarbeiten zu knnen, charakterisiert (vgl. Kapitel
3.3).
KNN wurden bisher hauptschlich im Rahmen des Data Mining eingesetzt (vgl.
Kapitel 4.1). Der Terminus Data Mining bezeichnet eine relativ neue Forschungs-
und Anwendungsrichtung. Auf Grund dessen erfolgt auch die Definition dieses
Begriffes in der Literatur auf unterschiedlichste Art und Weise. bergreifend kann
jedoch gesagt werden, dass beim Data Mining anspruchsvolle automatisierte
Methoden (Verfahren der klassischen statistischen Datenanalyse, Anwendungen aus
der knstlichen Intelligenz, der Mustererkennung und des maschinellen Lernens) auf
relativ groe und komplexe Datenvolumina angewendet werden. Das Ziel ist dabei
die entscheidungsrelevanten Informationen aus den Daten zu extrahieren und zu
interpretieren (BERRY et al. 2004: 7f.; KPPERS 1999: 17-22).5
Die erforderlichen Daten fr den Data Mining-Prozess werden aus dem Data
Warehouse bezogen. Diese Daten wiederum entstammen grtenteils
unternehmensinternen Quellen (z.B. Kundendaten). Der Data Mining-Prozess
umfasst nach Abbildung 5 sechs Phasen. Erst nach der Aufgabendefinition
(Bestimmung der analytischen Ziele, Modellbildung), Auswahl und Aufbereitung der
4 Ein kurzer berblick ber die historische Entwicklung sowie dem Terminus der KNN findet sich
in Kapitel 3.2.1. 5 Die Begriffe Knowledge Discovery in Database (KDD) und Data Mining werden von den
meisten Autoren synonym verwendet (KPPERS 1999: 19; WILDE 2001: 13).
2 Verwendung von statistischen Verfahren in der Primrforschung
9
relevanten Daten (z. B. Transformation und Entfernung von Ausreiern) erfolgt die
eigentliche Anwendung der Data Mining-Methoden. Dabei stehen dem Anwender
Methoden aus den verschiedensten Gebieten zur Verfgung (Data Mining als
interdisziplinre Wissenschaft). So knnen die knstlichen neuronalen Netze der
knstlichen Intelligenz (KI), die Entscheidungsbume als Element des maschinellen
Lernens und die Assoziationsanalysen als eher heuristischer Ansatz betrachtet
werden. Nach der Anwendung der Data Mining-Methoden und anschlieender
erfolgreicher Evaluation und Interpretation der Ergebnisse erfolgt letztlich die
Anpassung des Marketings an die Data Mining-Ergebnisse (WILDE 2001: 14f.).6
Abbildung 5: Verwendung von KNN im Data Mining-Prozess
Quelle: Eigene Darstellung
6 Einen umfassenderen berblick zum Data Mining zeigen die Autoren BERRY et al. (2004),
KPPERS (1999), SUBERLICH (2000) und WILDE (2001).
2 Verwendung von statistischen Verfahren in der Primrforschung
10
Abbildung 5 verdeutlicht den Ansatz dieser Arbeit, KNN, die bislang im Rahmen des
Data Mining-Prozesses Einsatz fanden, direkt auf die in der Primrforschung
erhobenen Daten anzuwenden (gestrichelter Pfeil).7 Dabei wird jeweils ein
multivariates Verfahren aus der Interdependenz- und Dependenzanalyse mit einem
dem Verwendungszweck nach analogen knstlichen Neuronalen Netzwerk
verglichen. Entsprechend der Abbildung 6 wird die Regressionsanalyse den Multi-
Layer-Perceptrons (MLP) und die Clusteranalyse den Self-Organizing-Maps (SOM)
gegenbergestellt.8
Abbildung 6: Vergleich von KNN und multivariaten Verfahren
Quelle: Eigene Darstellung
Nachdem in den folgenden Kapiteln die methodischen Grundlagen der eben
genannten Verfahren aufgezeigt werden, wird im empirischen Teil untersucht, ob
und in wie weit die KNN fr die analytische Informationsgewinnung, im Rahmen
des betrieblichen Informationsmanagements, potenzielle Vorteile erbringen knnen.9
Die Grundlage fr diese Bewertung erfolgt durch die in Kapitel 4.2 aufgezeigten
Gtekriterien.
7 Die Daten unterscheiden sich dabei in der Hinsicht, dass die Primrforschung im Gegensatz zur
Sekundrforschung mehr psychographische Variablen mit einem beschrnkten Skalenniveau erhebt. 8 Der praktische Verwendungszweck fr die Regressionsanalyse und die MLP ist z. B. die
Kuferanalyse, in der die Bestimmungsgrnde von Kaufentscheidungen analysiert werden (Wirkungs-und Ursachenanalysen). Das Einsatzgebiet der Clusteranalyse und der SOM erfolgt z. B. im Rahmen des zielgruppenspezifischen Marketings durch Marktsegmentierungen (Clusterung).
9 Das betriebliche Informationsmanagement beinhaltet unter anderem das Management von Informationen, Informationssystemen und der Informations- und Kommunikationstechnologie (BEREKOVEN et al.1999: 19-48).
3 Methodische Grundlegung
11
3 Methodische Grundlegung
3.1 Multivariate statistische Verfahren
3.1.1 berblick ber multivariate statistische Verfahren
In der Marktforschung liegen hufig sehr komplexe Zusammenhnge zwischen den
erhobenen Daten vor. Um diese vieldimensionalen Beziehungen zwischen den
Variablen aufzudecken, ist es notwendig, mehr als zwei Variablen gleichzeitig in die
Datenanalysen mit einzubeziehen. Dafr stehen dem Marktforscher verschiedene
multivariate Analyseverfahren zur Verfgung. Diese lassen sich, wie schon in
Kapitel 2.2 aufgezeigt, in struktur-prfende und struktur-entdeckende Verfahren
unterteilen (BEREKOVEN et al. 1999: 202). Bei den struktur-prfenden Verfahren
unterstellt der Anwender aufgrund von sachlogischen oder theoretischen
berlegungen einen kausalen Zusammenhang zwischen den Variablen. Zur
berprfung des theoretischen Modells werden die relevanten Variablen in
unabhngige und abhngige Variablen eingeteilt und mit Hilfe von multivariaten
statistischen Verfahren geprft. Das Ziel der Analyse besteht darin, den Einfluss der
unabhngigen Variablen auf die abhngigen Variablen zu beschreiben (BACKHAUS et
al. 2003: 7f.). Die grundlegenden struktur-prfenden Verfahren lassen sich nach
ihrem Skalenniveau gem Abbildung 7 zuordnen.
Abbildung 7: Grundlegende strukturen-prfende Verfahren
Quelle: BACKHAUS et al. 2003: 8
3 Methodische Grundlegung
12
Bei den struktur-entdeckenden Verfahren erfolgt keine Unterteilung in abhngige
und unabhngige Variablen. Der Anwender besitzt vor der Analyse keine
Vorstellungen ber die wechselseitigen Beziehungen zwischen den Daten. Ziel der
Interdependenzanalyse ist somit unbekannte Zusammenhnge zwischen den
Variablen oder Datenobjekten aufzudecken (BEREKOVEN et al. 1999: 203).
Grundlegende struktur-entdeckende Verfahren sind unter anderem die
Faktorenanalyse, die Clusteranalyse, die Multidimensionale Skalierung und die
Korrespondenzanalyse.10
Um in der Marktforschung eine Problemstellung zu lsen, ist es vorteilhaft nicht nur
ein einzelnes multivariates Verfahren zu verwenden, sondern mehrere Methoden
miteinander zu kombinieren. Dieser Methodenmix ermglicht eine Aggregation der
Strken jedes einzelnen Verfahrens. Beispielsweise wird die Faktorenanalyse hufig
dafr eingesetzt, eine Vielzahl von Variablen auf einige wenige zu reduzieren, damit
anschlieend auf Grundlage dieser Dimensionsreduktion eine Clusteranalyse oder
Regressionsanalyse durchgefhrt werden kann.11 Eine ausfhrliche Betrachtung aller
multivariaten Verfahren wrde sicherlich den Rahmen dieser Arbeit sprengen,
deshalb wird in den folgenden Kapiteln jeweils nur ein Verfahren aus der
Dependenzanalyse (Regressionsanalyse) und Interdependenzanalyse (Clusteranalyse)
nher vorgestellt.12
3.1.2 Regressionsanalyse
Die Regressionsanalyse ist eines der vielseitigsten und am hufigsten eingesetzten
multivariaten Analyseverfahren (BACKHAUS et al. 2003: 46). Sie wird verwendet, um
die Beziehungen zwischen einer abhngigen (endogenen, Regressand) und einer oder
mehreren unabhngigen (exogenen, Regressoren) Variablen zu analysieren (z. B. der
10 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der aufgezeigten
struktur-entdecken und prfenden Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.
11 Diese Vorgehensweise erfolgt auch im empirischen Teil dieser Arbeit. 12 Die Varianz-, Diskriminanz- und Faktorenanalyse werden zustzlich als Hilfsverfahren (der
Regressions- und Clusteranalyse vor- oder nachgeschoben) im empirischen Teil dieser Arbeit verwendet. Eine ausfhrliche Darstellung dieser Verfahren wrde jedoch den Rahmen des methodischen Kapitels sprengen.
3 Methodische Grundlegung
13
Einfluss des Preises auf die Nachfrage eines Produktes). Ist eine abhngige Variable
nur von einer unabhngigen Variablen beeinflusst, so wird die Beziehung in einer
Einfachregression analysiert. Wird hingegen eine abhngige Variable von mehreren
unabhngigen Variablen bestimmt, kann von einer Mehrfach- oder auch multiplen
Regression gesprochen werden. Im Folgenden wird die Vorgehensweise bei einer
multiplen linearen Regression in Anlehnung an Abbildung 8 dargestellt (VON AUER
2003: 8; BACKHAUS et al. 2003: 52).
Abbildung 8: Die Ablaufschritte der Regressionsanalyse
Quelle: Eigene Darstellung in Anlehnung an VON AUER 2003: 8; BACKHAUS et al. 2003: 52
Demnach erfolgt zuerst die Spezifikation des Regressionsmodells, welches die
vermutete Ursache-Wirkungs-Beziehung mglichst vollstndig enthalten sollte
(BACKHAUS et al. 2003: 52). Prinzipiell geht die multiple lineare Regressionsanalyse
von folgendem Grundmodell aus:13
13 Die Notation orientiert sich in diesem Kapitel an BACKHAUS et. al. (2003).
Spezifikation des Modells
A- Annahmen
B- Annahmen
C- Annahmen
funktional
Strgre
Variablen
Schtzung des Modells
Prfung des geschtzten Modells
Prfung der
Regressions-
funktion
Schritt 1
Prfung der
Regressions-
koeffizienten
Schritt 2
Schritt 3
3 Methodische Grundlegung
14
0 1 1 2 2 ... ...j j J JY b b X b X b X b X= + + + + + +
mit
Y = Wert der j-ten Beobachtung fr die abhngige Variable
0b = Konstante der Regressionsfunktion
jb = Regressionskoeffizient (j= 1,2,,J)
jX = Wert der unabhngigen Variablen (j= 1,2,,J)
Das lineare Regressionsmodell unterliegt dabei wichtigen grundlegenden Annahmen
bzw. Prmissen, die erforderlich sind, um im zweiten Schritt, der Schtzung des
Modells, die wahren unbekannten Parameter zu ermitteln (VON AUER 2003: 15).
Tabelle 1 fasst die wichtigsten Prmissen, die Konsequenzen der Verletzung und die
berprfung der Annahmen zusammen. Die A-Annahmen beziehen sich auf die
funktionelle Spezifikation des Regressionsmodells. Dieses beinhaltet vor allem, dass
alle relevanten und keine irrelevanten unabhngigen Variablen in die Gleichung (1)
aufgenommen werden. Ebenfalls verdeutlicht Formel (1), dass der wahre
Zusammenhang zwischen Y und den unabhngigen Variablen Xj linear sein soll. Es
ist jedoch auch mglich, nicht-lineare Zusammenhnge in lineare zu transformieren,
z. B. im Falle einer multiplikativen Verknpfung durch Logarithmieren (RUDOLPH
1998: 43; VON AUER 2003: 277-299). Die B-Annahmen beziehen sich auf die
Residuen bzw. die Strgre. Die Residuen entsprechen nach Formel (2) der
Abweichung der tatschlich beobachteten Werte von den Schtzwerten (BACKHAUS
et al. 2003: 56).
$k k ke y y= 1, 2,...,=k K
mit
ke = Abweichung des Schtzwertes vom Beobachtungswert
ky = Beobachtungswert der abhngigen Variablen Y fr xk $
ky = ermittelter Schtzwert von Y fr xk
K = Zahl der Beobachtungen
Eine Verletzung der B-Annahmen kann unter anderem zu Heteroskedastizitt oder zu
Autokorrelation fhren. Heteroskedastizitt liegt vor, wenn die Streuung der
Residuen keine gleich bleibende Varianz aufweist. Autokorrelation ist gegeben,
(1)
(2)
3 Methodische Grundlegung
15
wenn die Residuen in der Grundgesamtheit untereinander korrelieren (VON AUER
2003: 353-404).
Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells
Annahme Annnahme-verletzung
Konsequenzen berprfung
A1: Vollstndigkeit des Modells (Bercksichtigung aller relevanten Variablen)
Unvollstndig-keit
verzerrte oder ineffiziente Schtzer
t-Test F-Test (korrigiertes R)
A2: Linearitt in den Parametern
Nichtlinearitt verzerrte oder falsche Schtzer
(graphische Analyse) Box-Cox-Test
A3: Die Parameter sind fr alle Beobach tungen konstant
Strukturbruch falsches Modell F-Test Chow-Test
B1: Erwartungswert der Strgre gleich null
Erwartungswert der Strgre von null verschieden
verzerrte Schtzer
whrend der Datenerhebung
B2: Homoskedastizitt der Strgre
Hetero-skedastizitt
ineffiziente Schtzer
Goldfeld-Quandt-Test White-Test
B3: Freiheit von Autokorrelation
Autokorrelation ineffiziente Schtzer
Durbin-Watson-Test
B4: Normalverteilung der Strgre
Strgre nicht normalverteilt
Ungltige Signifikanztests (F-Test, t-Test) bei N < 40
Graphische Analyse Jarque-Bera-Test
C1: Keine lineare Abhngigkeit zwischen den unabhngigen Variablen
Perfekte Multikollinearitt
Verminderte Przision der Schtzwerte
Korrelations-matrix Regression zwischen den erklrenden Variablen Variance Inflation Factor
Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 92;VON AUER 2003: 237- 486
Die C-Annahmen beziehen sich auf die Eigenschaften der unabhngigen Variablen.
Wenn diese z. B. untereinander lineare Abhngigkeiten aufweisen, also korrelieren,
liegt das Problem der Multikollinearitt vor (ebd.: 461-487). In diesem Fall ist der
Einfluss der exogenen Variablen auf die endogene Variable nicht mehr eindeutig
zurechenbar (ebd.). Als Konsequenz der Prmissenverletzungen kann es zu
3 Methodische Grundlegung
16
verzerrten oder ineffizienten Schtzern kommen (vgl. Tabelle 1). Ein Schtzer ist
unverzerrt (erwartungstreu), wenn die aus wiederholten Stichproben ermittelten
Regressionskoeffizienten im Mittel den wahren Wert aus der Grundgesamtheit
treffen (BACKHAUS et al. 2003: 79). Wenn ein unverzerrter Schtzer innerhalb der
Gruppe der unverzerrten Schtzer die kleinste Streuung aufweist, ist er effizient
(ebd.). Die unter dem zweiten Schritt erklrte Kleinstquadratmethode (KQ-Methode,
englisch: Ordinary Least Squares, OLS) liefert unter den getroffenen A-, B- und C-
Annahmen (ohne B4-Annahme) Regressionskoeffizienten, die innerhalb der Klasse
der unverzerrten linearen Schtzern effizient sind. Dieser Zusammenhang wird als
das Gauss-Markov-Theorem bezeichnet (BLEYMLLER et al. 2002: 150).14 In der
Praxis werden die Prmissen des Modells hufig erst nach der Prfung des
geschtzten Modells kontrolliert. Ohne vorherige Prfung der Prmissen drften
jedoch streng genommen, nach dem Gauss-Markov-Theorem, der F- und t-Test nicht
angewandt werden (HOFFMANN 2004: 40).15
Nach der Spezifikation des Regressionsmodells wird im zweiten Schritt (vgl.
Abbildung 8) mit Hilfe der KQ-Methode die Ermittlung der Schtzwerte fr die
Regressionskoeffizienten vorgenommen. Dabei werden die Parameter so gewhlt,
dass die Summe der quadrierten Residuen minimiert wird (FAHRMEIR et al. 2003:
478; BACKHAUS et al. 2003: 60):
( )2
20 1 1 2 2
1 1... ... min
K K
k k k k j j J Jk k
e y b b x b x b x b x= =
= + + + + + +
mit
ke = Wert der Residualgre (k=1,2,,K)
ky = Wert der abhngigen Variablen (k=1,2,,K)
0b = Konstante der Regressionsfunktion
jb = Regressionskoeffizient (j= 1,2,,J)
jkx = Wert der unabhngigen Variablen (j= 1,2,,J; k=1,2,,K) J = Zahl der unabhngigen Variablen K = Zahl der Beobachtungen
14 Im Englischen auch als BLUE (Best Linear Unbiased Estimator) ausgedrckt (ebd.). 15 Fr tiefer greifende Betrachtungen in die Regressionsanalyse, besonders in Bezug auf die ber-
prfung der Annahmen, sei auf die Literatur von BACKHAUS et al. (2003: 77-104), BROSIUS et al. (1996: 488-497), BLEYMLLER et al. (2002: 139-179) und VON AUER (2003: 237-486) verwiesen.
(3)
3 Methodische Grundlegung
17
Im letzten Schritt (vgl. Abbildung 8) wird die Qualitt bzw. die Gte des geschtzten
Modells berprft. Neben der globalen Prfung des Regressionsmodells erfolgt auch
eine Kontrolle der einzelnen Regressionskoeffizienten. (BACKHAUS et al. 2003: 63).
Bei der globalen Prfung wird untersucht, wie gut die unabhngigen Variablen die
abhngige Variable erklren knnen. Die Kontrolle der einzelnen
Regressionskoeffizienten hingegen berprft, wie gut jede einzelne exogene Variable
zur Erklrung der endogenen Variablen beitrgt (ebd.). Am hufigsten wird zur
Prfung der Erklrungskraft der Regressionsfunktion das Bestimmtheitsma
verwendet. Dieses Ma berechnet, wieviel der Gesamtvarianz durch die
Regressionsgleichung erklrt werden kann (ebd.: 66):
$( )( )
2
2 12
1
erklrte StreuungGesamtstreuung
K
kkK
kk
y yR
y y
=
=
= =
Das Bestimmtheitsma R ist jedoch kritisch zu sehen, denn mit jeder hinzugefgten
exogenen Variablen wird der Erklrungsanteil, der mglicherweise nur zufllig
bedingt ist, und somit der Wert des Bestimmtheitsmaes, zunehmen (VON AUER
2003: 252). Damit der Wert des Maes nicht auch bei der Aufnahme einer
irrelevanten Variablen (vgl. Annahme-A1) steigt, sollte das korrigierte
Bestimmtheitsma, (englisch: adjusted R-squared) welches diesen Zusammenhang
bercksichtigt, verwendet werden (BACKHAUS et al. 2003: 67):
( )22 2 11korr
J RR R
K J
=
mit
J = Zahl der Regressoren 1 K J = Zahl der Freiheitsgrade
K = Zahl der Beobachtungswerte
Um die Gltigkeit des Regressionsmodells auch in der Grundgesamtheit zu
gewhren, wird als weiteres Gtema zur globalen Prfung der Regressionsfunktion
(4)
(5)
3 Methodische Grundlegung
18
der F-Test verwendet (ebd.: 68). Besonders wenn das Regressionsmodell nur
aufgrund einer geringen Stichprobengre geschtzt wird, erweist sich dieser Test als
Gewhr fr die Gltigkeit des Modells in der Grundgesamtheit (ebd.). Um diesen
Test jedoch anwenden zu knnen, wird die geschtzte Regressionsfunktion (vgl.
Formel (1)) zunchst als eine stochastische Funktion mit dem Term der Strgre
dargestellt (vgl. Formel (6)). Es handelt sich dabei um eine stochastische Funktion,
da sowohl 0, j, u und Y Zufallsvariablen sind (BACKHAUS et al. 2003: 69, VON
AUER 2003: 68).
0 1 1 2 2 ... ...j j J JY X X X X u = + + + + + + +
mit
Y = Abhngige Variable
0 = Konstantes Glied der Regressionsfunktion
j = Regressionskoeffizient (j= 1,2,,J)
jX = Unabhngige Variable (j= 1,2,,J) u = Strgre
Die Nullhypothese des F-Tests besagt, dass keiner der Regressionskoeffizienten zur
Erklrung der abhngigen Variablen beitrgt (FAHRMEIER et al. 2003: 498):
0 1 2: ... 0JH = = = =
Der empirische F-Wert Femp berechnet sich aus dem Verhltnis der erklrten zu der
nicht erklrten Streuung jeweils dividiert durch die Zahl der Freiheitsgrade
(BACKHAUS et al. 2003: 70):
$( )$( )
2
12
1
erklrte Streuungnicht erklrte Streuung 11
K
kk
emp K
k kk
y y JJF
K Jy y K J
=
=
= =
Wenn der empirische F-Wert grer ist als der theoretische F-Wert, kann die
Nullhypothese abgelehnt werden. In diesem Fall liegt zumindest ein signifikanter
kausaler Zusammenhang zwischen einer exogenen und der endogenen Variablen in
(6)
(7)
3 Methodische Grundlegung
19
der Grundgesamtheit vor (HOFFMANN 2004: 38). Der theoretische F-Wert ergibt sich
mit dem gewhlten Signifikanzniveau aus der F-Verteilung und kann aus der F-
Tabelle16 entnommen werden. Das als letztes fr die Prfung der
Regressionsfunktion vorgestellte Gtema ist der Standardfehler der Schtzung.
Dieses Ma gibt an, welcher mittlere Fehler aus der Anwendung der
Regressionsfunktion zur Schtzung der endogenen Variablen resultiert (BACKHAUS
et al. 2003: 73):
( )
2
1
1==
K
kk
es
K J
Nach der globalen Prfung der Regressionsfunktion erfolgt die berprfung der
einzelnen Regressionskoeffizienten. Whrend der F-Test in der Nullhypothese
berprft, dass alle Regressionskoeffizienten gleich null sind, wird analog mit dem
t-Test jeder einzelne Koeffizient geprft (ebd.):
0 : 0jH =
Der empirische t-Wert einer exogenen Variablen wird durch die Division des
betreffenden Regressionskoeffizienten durch dessen Standardfehler ermittelt (ebd.:
74):
j j
empbj
bt
s
=
mit
empt = Empirischer t-Wert fr den j-ten Regresssor
j = Wahrer Regressionskoeffizient (unbekannt)
jb = Regressionskoeffizient des j-ten Regressors
bjs = Standardfehler von jb
16 F- sowie eine t-Tabelle sind unter anderem in den meisten statistischen Lehrbchern auffindbar.
(8)
(9)
3 Methodische Grundlegung
20
Ist der empirische t-Wert grer als der theoretische t-Wert, kann die Nullhypothese
abgelehnt werden. Demnach existiert dann ein signifikanter Zusammenhang
zwischen der unabhngigen Variablen und der abhngigen Variablen in der
Grundgesamtheit (FAHRMEIR et al. 2003: 497). Der theoretische t-Wert ergibt sich
mit dem gewhlten Signifikanzniveau aus der Student-t-Verteilung und kann aus der
t-Tabelle16 entnommen werden. Zustzlich zum t-test gibt das Konfidenzintervall den
Bereich an, in dem sich der wahre Wert des Regressionskoeffizienten in der
Grundgesamtheit befinden knnte (BACKHAUS et al. 2003: 76):
j bj j j bjb t s b t s +
mit
empt = t-Wert aus der Student-Verteilung
j = Wahrer Regressionskoeffizient (unbekannt)
jb = Regressionskoeffizient der Stichprobe
bjs = Standardfehler von Regressionskoeffizienten
Je grer das Konfidenzintervall ist, desto unsicherer ist die Schtzung des
betreffenden Regressionskoeffizienten auf die Grundgesamtheit bertragbar (ebd.:
77). Anhand der Regressionskoeffizienten ist es mglich, den marginalen
Zusammenhang zwischen den exogenen Variablen und der endogenen Variablen
inhaltlich zu interpretieren (ebd.: 61). Ein Vergleich zwischen den Regressoren in
Bezug auf die Einflussstrke auf den Regressanden ist allerdings nur dann mglich,
wenn die unabhngigen Variablen ein gleiches Messniveau aufweisen (ebd.:). Sollte
dieses jedoch nicht vorliegen, so knnen die Regressionskoeffizienten nach einer
Standardisierung verglichen werden (BACKHAUS et al. 2003: 76; HOFFMANN 2004:
40)17:
Standardabweichung von Standardabweichung von
jj j
Xb b
Y=$
17 Die Standardabweichung berechnet sich wie folgt (BACKHAUS et al. 2003: 62):
( )2
1
1
K
kk
x
x xs
K=
=
(10)
(11)
3 Methodische Grundlegung
21
Diese standardisierten Regressionskoeffizienten werden auch als Beta-Werte
bezeichnet (BACKHAUS et al. 2003: 61). Im nachstehenden letzten Abschnitt ber das
multivariate Verfahren der Regressionsanalyse werden kurz deren Schwchen und
Strken diskutiert.
Ein optimales Einsetzen der Regressionsanalyse erfordert bereits im Vorfeld, dass
die Art der Beziehungen zwischen der abhngigen Variablen und den Unabhngigen
klar ist. Diese Zusammenhnge erweisen sich aber oft als sehr komplex und sind
dementsprechend nur schlecht als lineares Model darzustellen. Es ergibt sich zwar,
wie schon oben angesprochen, die Mglichkeit der Linearisierung, jedoch reicht
auch diese oft nicht aus. Denn bei vielen Fragestellungen, insbesondere im
Marketing, ist die endogene Variable binr (dichotom oder zweiwertig) ausgeprgt.
Als Beispiel dafr sei der Kauf bzw. Nichtkauf eines Produktes genannt. Die
Regressionsanalyse kann in diesem Fall nicht verwendet werden, da die Residuen
nicht normalverteilt sind und somit die Annahme-B4 verletzt ist (MEYER 2002: 198).
Als Analyseverfahren bieten sich daher im Fall einer binren abhngigen Variablen
die logistische Regressionsanalyse und die Diskriminanzanalyse an (BACKHAUS et al.
2003: 418). Praktische und wissenschaftliche Fragestellungen, die komplexere
kausale Abhngigkeiten zwischen bestimmten Variablen aufweisen, knnen
konfirmatorisch, mit Hilfe von Strukturgleichungen im Rahmen von Kausalanalysen,
untersucht werden (ebd.: 334).18 Die statistische Strke des Regressionsmodells ist
eine umfassende theoretische Fundierung mit zahlreichen Erweiterungen und
Spezialfllen. Deshalb setzt sie ein umfangreiches anwenderbasiertes Wissen voraus.
So werden z. B. Ausreier bei der Gewichtung der einzelnen Regressions-
koeffizienten durch die quadratische Minimierung der Abweichungen (KQ-Methode)
zu stark bewertet. Demnach ist gegebenenfalls eine Voranalyse der Datenbasis
erforderlich. Letztendlich ist die Regressionsanalyse jedoch mathematisch und
sachlogisch einfach nachzuvollziehen und die Ergebnisse sind leicht zu
interpretieren.
18 Weiterfhrende Betrachtungen ber die eben genannten multivariaten Verfahren enthalten z. B.
BACKHAUS et al. (2003) und JANSEN et al. (2003).
3 Methodische Grundlegung
22
3.1.3 Clusteranalyse
Whrend die Regressionsanalyse als struktur-prfendes Verfahren die Beziehungen
zwischen den Variablen aufzeigt, betrachtet die Clusteranalyse als struktur-
entdeckendes Verfahren die Beziehungsstrukturen zwischen den Objekten. Das Ziel
der Clusteranalyse besteht darin, Gruppen (bzw. Cluster, Klassen, Typen) zu bilden,
in denen die durch eine Anzahl von Variablen beschriebenen Objekte mglichst
homogen sind. Objekte aus unterschiedlichen Gruppen sollten hingegen mglichst
heterogen sein (BACHER 1996: 1-3). Der Einsatz der Clusteranalyse in der
Primrforschung erfolgt z. B. zur Marktstrukturierung, Marktsegmentierung und
Konsumententypologisierung.
Abbildung 9: Die Ablaufschritte der Clusteranalyse
Quelle: Eigene Darstellung
Auswahl von Variablen
Wahl des Clusteralgorithmus
Prfung der Clusteranalyse
Schritt 1
Schritt 2
Schritt 3
Bestimmung der Clusteranzahl Schritt 4
Schritt 5
interne
Prfung
relative
Prfung
externe
Prfung
Wahl des Proximittsmaes
Clusterzentrenanalyse
Schritt 6
Schritt 7 Interpretation der Cluster
3 Methodische Grundlegung
23
Die Literatur (unter anderem BACHER 1996; BACKHAUS et al. 2003; BORTZ 2005;
GIERL et al. 2001; JANSEN et al. 2003) beschreibt die Vorgehensweise bei der
Clusteranalyse besonders in Bezug auf die Gtekriterien zum Teil sehr
unterschiedlich. In Anlehnung an Abbildung 9 wird deshalb im Folgenden die
Vorgehensweise der Clusteranalyse, wie sie im Rahmen dieser Arbeit durchgefhrt
wird, vorgestellt.
Der erste Schritt, die Auswahl der clusterbildenden Variablen (Inputvariablen, aktive
Variablen), anhand derer die Zuordnung der Objekte zu den Clustern resultiert, ist als
das ausschlaggebende Kriterium fr den Erfolg der Analyse anzusehen.19 Es sollten
demnach nur die theoretisch relevanten Variablen fr die Analyse ausgewhlt
werden (BACKHAUS et al. 2003: 537).20 Bei Datenstzen mit sehr vielen Variablen
bietet eine vorgeschobene Faktorenanalyse hufig die Mglichkeit eine grere
Anzahl von miteinander korrelierten Variablen auf einige wenige Faktoren zu
reduzieren. Diese Faktoren knnen dann anschlieend als Inputvariablen verwendet
werden (BACHER 1996: 126; BACKHAUS et al. 2003: 538; JANSEN et al. 2003: 437f.).21
Nach GIERL et al. (2001: 130) wird die Anzahl der clusterbildenden Variablen in der
Literatur meistens auf vier bis acht beschrnkt.
Durch die Festlegung eines Proximittsmaes werden im zweiten Schritt der
Clusteranalyse die Distanzen (Unterschiede) bzw. die hnlichkeiten
(bereinstimmungen) zwischen den zu gruppierenden Objekten numerisch
ausgedrckt. Das allgemein gebruchlichste, wie auch fr die meisten
Clusteralgorithmen am besten geeignete Proximittsma, ist die quadrierte
Euklidische Distanz (BORTZ 2005: 569; GIERL et al. 2001: 865):
( )K 22
ij i jj 1
D x x=
=
19 Variablen, die nicht in der Clusterbildung Verwendung fanden, werden als passive Variablen
bezeichnet. 20 BACHER (1996: 410-412) und BERGS (1980: 51-62) zeigen eine umfassendere Beschreibung zur
Auswahl der clusterbildenden Variablen auf. 21 Eine bersicht ber die Faktorenanalyse zeigen z. B. BACKHAUS et al. (2003); BORTZ (2005);
BROSIUS et al. (1996) und JANSEN et al. (2003).
(12)
3 Methodische Grundlegung
24
mit: 2D = quadrierte Euklidische Distanz
ij i jx (x ) = Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j
Diese Quantifizierung dient als Ausgangspunkt fr den sich anschlieenden Cluster-
bzw. Fusionierungsalgorithmus (Clusterverfahren) (BROSIUS et al. 1996: 865). In der
Literatur (BACHER 1996; BACKHAUS et al. 2003: 480-542; BERGS 1980;
VAZIRGIANNIS et al. 2003; WEDEL et al. 2003) finden sich eine Vielzahl von
unterschiedlichen Algorithmen. Abbildung 10 gibt deshalb nur einen berblick ber
die in dieser Arbeit verwendeten Clusteralgorithmen. Neben den multivariaten
Verfahren bieten auch die KNN (Self-Organizing-Maps) die Mglichkeit eine
Clusterung durchzufhren (vgl. Kapitel 3.2.4). Bei den multivariaten statistischen
Verfahren unterscheidet man die Gruppierungsalgorithmen in hierarchische und
partitionierende Verfahren.
Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen
Quelle: Eigene Darstellung in Anlehnung an PETERSOHN 1999: 553
Die hierarchischen agglomerativen Verfahren beginnen mit der feinsten
Objektgruppierung, d.h. jedes Objekt bzw. Fall bildet ein eigenes Cluster,
Clusterverfahren
Partitionierende Verfahren
Self Organzing Maps
Single- Linkage
K-Means
Multivariate Verfahren Knstliche Neuronale Netze
Ward
Hierarchische Verfahren
3 Methodische Grundlegung
25
schrittweise werden diese dann zu immer umfangreicheren Clustern
zusammengefasst (WEDEL et al. 2003: 48-50).22 Whrend das Single-Linkage
Verfahren (oder auch Nearest-Neighbour-Verfahren) die Objekte (Gruppen)
vereinigt, die die kleinste Distanz zueinander aufweisen, werden beim Ward-
Verfahren diejenigen Gruppen fusioniert, die ein vorgegebenes Heterogenittsma,
die Fehlerquadratsumme (Varianzkriterium), am geringsten erhhen (BORTZ 2005:
575).23 In Abbildung 11 werden die Fusionierungsschritte, bei der Ward-Methode,
bezogen auf die Fehlerquadratsumme (standardisiert von 0 bis 25), graphisch fr
jedes Objekt (1-8) in Form eines Dendogramms dargestellt.
Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren24
Quelle: Eigene Darstellung
Unter die partitionierenden Verfahren fllt der K-Means-Algorithmus
(Clusterzentrenanalyse). Dieser unterscheidet sich von den hierarchischen Verfahren
dadurch, dass zunchst eine vorgegebene oder zufllige Startpartition durch iteratives
Verschieben von Objekten zwischen den Clustern solange verbessert wird, bis sich
jedes Objekt in einer Gruppe befindet, zu dessen Schwerpunkt (Mittelpunkt) es, im
22 Man unterscheidet zwischen hierarchisch-divisiven Verfahren und hierarchischen-
agglomerativen Verfahren. Die hierarchisch-divisiven Clusteralgorithmen beginnen mit der grbsten Partition, bei der alle Objekte in einem Cluster zusammengefasst sind (WEDEL et al. 2003: 50).
23 Bei der Fusionierung zweier Gruppen im Ward-Algorithmus, entspricht die quadrierte Euklidische Distanz genau dem doppelten der Fehlerquadratsumme (BACKHAUS et al. 2003: 512).
24 Einen berblick ber den Ablauf der Fusionierungsschritte innerhalb eines Dendogramms zeigt unter anderem BACKHAUS et al. (2004: 506-524), BROSIUS et al. (1996: 875-877) und PETERSOHN (1997: 118-120).
3 Methodische Grundlegung
26
Vergleich zu den brigen Gruppen, die geringste Distanz aufweist (BORTZ 2005: 578;
VAZIRGIANNIS et al. 2003: 25). Dieses Verfahren hat gegenber den hierarchischen
Methoden den Vorteil, dass eine Neuzuordnung der Objekte (Flle) jederzeit mglich
ist (GIERL et al. 2001: 131; GRABMEIER 2001: 329-332). Der Nachteil dieses
Verfahrens liegt jedoch darin, dass man vor der Analyse die Struktur des Datensatzes
und somit die Startpartitionen und die Clusteranzahl nicht kennt. Deshalb ist es nach
BORTZ (2005: 575), JANSEN et al. (2003: 433) und WIEDENBECK et al. (2001: 14)
vorteilhaft, zunchst mit dem Ward-Algorithmus die Anfangspartitionen zu
berechnen und dann mit der K-Means-Methode das Ergebnis zu optimieren. Um die
Anflligkeit des Ward-Verfahrens bei der Gruppierung der Objektmenge gegenber
Ausreiern, welche den Fusionierungsprozess negativ beeinflussen, zu mindern,
empfiehlt es sich, diese zunchst mit dem Single-Linkage-Algorithmus zu
identifizieren und dann anschlieend zu entfernen (BACKHAUS et al. 2003: 537;
KNIG 2001: 110).25 Demnach ergibt sich, in Bezug auf die Wahl der
Fusionierungsalgorithmen, nachstehender Ablauf der Clusteranalyse:26
1. Single-Linkage-Methode (zur Eliminierung der Ausreier)
2. Ward-Methode (zur Bestimmung von Startpartitionen)
3. K-Means (zur Bestimmung der optimalen Endpartitionen)
Die Bestimmung der optimalen Clusteranzahl (vgl. Abbildung 9) ist innerhalb der
hierarchischen und partitionierenden Verfahren nicht automatisiert. Die
Entscheidung sollte deshalb aufgrund von mathematisch-statistischen und
interpretationsbezogenen Kriterien erfolgen (KNIG 2001: 112). Als mathematisch-
statistische Verfahren knnen das Dendogramm sowie das Scree-Test-Diagramm
verwendet werden (ebd.: 522- 524).27 Der Scree-Test (vgl. Abbildung 12) basiert
gegenber dem Dendogramm auf einem Koordinatensystem, auf dem die
25 Ausreier sind Objekte, die im Vergleich zu den brigen Objekten eine vollkommen anders
gelagerte Kombination der Merkmalsausprgungen aufweisen und dadurch von allen andern Objekten weit entfernt liegen (BACKHAUS et al. 2003: 537).
26 Einen umfassenderen berblick ber die Proximittsmae und Algorithmen der Clusteranalyse zeigen unter anderem BACHER (1996); BACKHAUS et al. (2003); BERGS (1980); VAZIRGIANNIS et al. (2003); und WEDEL et al. (2003).
27 Einen berblick ber weitere statistisch-mathematische Kriterien, die jedoch nicht in dieser Arbeit verwendet werden, zeigen unter anderem BORTZ (2005: 576-578); GIERL et al. (2001: 134f.); WEDEL et al. (2003: 91-93) und TIBSHIRANI (2000).
3 Methodische Grundlegung
27
Clusteranzahl gegen die Entwicklung der Fehlerquadratsumme abgetragen wird
(BORTZ 2005: 576 f.).
Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl
0
50
100
150
200
250
300
350
400
450
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Anzahl der Cluster
Fehl
erqu
adra
tsum
me
Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 524; BERGS 1980: 102
Die Heterogenittszuwchse (Fehlerquadratsummen) nehmen mit sinkender
Clusteranzahl und durch die Fusion immer heterogenerer Cluster berproportional
zu. Dort, wo der Graph vor dem berproportionalen Anstieg einen deutlichen Knick
(Elbow) aufweist, liegt bei der gegebenen Objektmenge die optimale Clusteranzahl
vor (ebd.). BERGS (1980: 97) zeigte, dass der Scree-Test (oder auch das Elbow-
Kriterium) bei den hierarchischen Algorithmen vor allem beim Ward-Verfahren die
richtige Clusteranzahl signalisiert. Da jedoch dieser Knick nicht immer graphisch zu
identifizieren ist, kann eine Tabelle mit den Koeffizienten (Fehlerquadratsummen)
bei den einzelnen Fusionierungsschritten weiteren Aufschluss ber die optimale
Elbow
3 Methodische Grundlegung
28
Gruppenanzahl geben.28 Das Dendogramm kann parallel zum Scree-Test bei der
Bestimmung der optimalen Gruppenanzahl verwendet werden. Es wird allerdings mit
zunehmender Stichprobengre immer unbersichtlicher. Die Entscheidung fr die
Anzahl der Cluster sollte jedoch nicht nur auf statistisch-mathematische Kriterien
(Homogenittsanforderungen) beruhen, sondern vor allem aus der
Handhabbarkeit bzw. der sachlogischen Interpretation der Clusterlsung
resultieren (BACKHAUS et al. 2003: 521).29
Nachdem die beste Clusteranzahl ermittelt wurde, wird dieses Ergebnis, wie oben
dargestellt, mit einer Clusterzentrenanalyse (K-Means) optimiert (vgl. Abbildung 9).
Im Anschluss erfolgt die berprfung der Clusterlsung. Dabei unterteilt man drei
Bereiche zur Clustervalidierung (VAZIRGIANNIS et al. 2003: 95-123; WEDEL et al.
2003: 59f.):
- externe
- interne
- relative Kriterien
Die externen Kriterien vergleichen die ermittelte Clusterstruktur mit der
tatschlichen (VAZIRGIANNIS et al. 2003: 98-101). In vielen Untersuchungen, sowie
auch im empirischen Teil dieser Arbeit, sind jedoch die wahren Gruppen nicht
bekannt. Deshalb wird dieses Kriterium hier nicht weiter betrachtet.
Anhand der internen Kriterien wird das Ausma der Homogenitt (Varianz)
innerhalb der Cluster gemessen. Als Gtema stehen hier der F-Wert und eta zur
Verfgung. Der F-Wert kann, sowohl fr jede Variable ber alle Gruppen, als auch
fr jede Variable innerhalb eines Cluster berechnet werden. Bei der Ermittlung des
F-Wertes fr eine Variable innerhalb einer Gruppe gilt (BACKHAUS et al. 2003: 533):
28 Die meisten statistischen Programme (z. B. SPSS, ClustanGraphics) geben bei der Clusterlsung
ein Dendogramm und eine Tabelle mit den Fehlerquadratsummen (Koeffizienten) an. Ein Scree-Test-Diagramm kann jedoch nur mit Hilfe dieser Tabelle in z. B. Excel erstellt werden.
29 Dieser Konflikt bezieht sich z. B. auf Marktsegmentierungen. Denn eine zu groe Anzahl an Gruppen wrde die Gefahr der Oversegmentation und den damit im Marketing verbundenen zustzlichen Kosten mit sich bringen (KNIG 2001: 113).
3 Methodische Grundlegung
29
V(J,G)FV(J)
=
mit
V(J,G) = Varianz der Variablen J in Gruppe G V (J) = Varianz der Variablen J in der Erhebungsgesamtheit
Je kleiner der Quotient aus der Streuung einer Variablen in einem Cluster und der
Streuung dieser Variablen in der Grundgesamtheit ist, desto homogener ist die
Gruppe in Bezug auf die betrachtete Variable. Wenn alle Variablen einen F-Wert von
kleiner als eins aufweisen, gilt dieses Cluster als vollkommen homogen (BACHER
1996: 334). Der F-Wert einer Variablen ber alle Gruppen berechnet sich
entsprechend der Formel (7). Die Nullhypothese lautet dabei: Die Mittelwerte der
Variablen sind in allen Gruppen gleich. Kann diese Hypothese nicht abgelehnt
werden, dann liegt kein signifikanter Unterschied zwischen den Mittelwerten der
Variablen in den Clustern vor.30 Analog zu R in der Regressionsanalyse bietet sich
als weiteres Gtekriterium innerhalb der Varianzanalyse das Assoziationsma eta
an.31 Es handelt sich dabei um ein spezielles Gtema fr den Fall, dass die
unabhngige Variable (Cluster) nominalskaliert und die Abhngige (aktive oder
passive Variable) mindestens intervallskalierte ist (JANSEN et al. 2003: 321-326;
BACHER 1996: 334).32
2 erklrte VarianzGesamtvarianz
=eta
Nach Formel (14) gibt eta darber Auskunft, wie viel Prozent der Streuung einer
Variablen auf die Unterschiede zwischen den Clustern zurckzufhren sind. Oder
anders gesagt, eta zeigt den Anteil der Varianz der abhngigen Variablen an, der
durch die unabhngigen Variablen erklrt wird (BACHER 1996: 335; JANSEN et al.
30 Das Ergebnis der Standardisierung der Quadratsummen (SS = Sum of Squares), also der Division der SS durch die Freiheitsgrade entspricht dem Mittel der Quadrate (MS = Mean Squares).
31 Hinweise zur Terminologie: Fehlerquadratsumme = nicht erklrte Varianz (Streuung) = Varianz innerhalb der Gruppen = Innengruppenvarianz = Fehlervarianz = Residual Sum of Squares; Erklrte Varianz = Varianz zwischen den Gruppen = Explained Sum of Squares; Gesamte Streuung = Total Sum of Squares
32 Die unhabhngige Variable kann jedes Skalenniveau annehmen.
(13)
(14)
3 Methodische Grundlegung
30
2003: 325). Der Mittelwert von eta (Gesamt eta) aus mehreren Variablen gibt an,
wie viel Prozent der Varianz der Variablen durch die Unterschiede zwischen den
Gruppen erklrt wird (KAMINSKI et al. 2004: 24). Mit dem Eta-Koeffizienten lsst
sich die Beziehung zwischen den Variablen beschreiben. Er zeigt an, wie sehr sich
die Mittelwerte der clusterbildenden Variablen zwischen den verschiedenen Gruppen
unterscheiden. Unterscheiden sie sich stark und ist auerdem die Varianz der
einzelnen Gruppen gering, tendiert eta gegen 1. Unterscheiden sie sich gar nicht,
tendiert er gegen 0. Eta entspricht der Wurzel aus eta und kann wie der
Korrelationskoeffizient r interpretiert werden (JANSEN et al. 2003: 245ff.).33
Variablen, die nach dem F-Test oder eta keinen signifikanten Beitrag zur Trennung
der Gruppen leisten, sollten nicht als clusterbildene Variablen verwendet werden, da
diese ansonsten das Ergebnis einer Clusteranalyse verzerren wrden (BACHER 1996:
335). Zur nheren berprfung des Einflusses (Wirkungsanalyse) der aktiven und
passiven Variablen auf die gebildeten Cluster, kann eine multinomial-logistische-
Regressionsanalyse verwendet werden.34
Als letztes werden im Rahmen der Validittsprfung die relativen Kriterien
aufgezeigt. Diese dienen fr die berprfung der Stabilitt bzw. Generalisierbarkeit
(Stichprobenabhngigkeit) der Clusterlsung (BORTZ 2005: 580; Knig 2001: 115).
Die Objektmenge wird dabei zufllig in zwei oder mehrere gleich groe
Teilstichproben getrennt. Anschlieend werden auf diese Teilmengen verschiedene
oder gleiche Clusteralgorithmen angewendet (replizierte Clusteranalysen). Die
Gruppenlsungen werden dann auf bereinstimmungen hin berprft (BORTZ 2005:
581). Diese Vorgehensweise soll die Vielfalt von unterschiedlichen Cluster-
algorithmen bercksichtigen. Zur Beurteilung der bereinstimmungen kommen
dabei verschiedene Gtemae in Betracht (ebd.: 581-583; KNIG 2001: 115):35
33 Die Zuordnung von eta in die internen Kriterien erfolgt aufgrund seiner varianzanalytischen
Betrachtung. 34 Die multinomial-logistische-Regressionsanalyse wird jedoch nicht im empirischen Teil dieser
Arbeit eingesetzt. Einen berblick ber dieser Verfahren zeigen unter anderem BACKHAUS et al. (2003: 417-477) und SPSS (2003e).
35 Weitere hier nicht betrachtete Gtemae sind der Rand- und der Jaccard-Index (BORTZ 2005: 582; KNIG 2001: 115; GIERL et al. 2001: 129).
3 Methodische Grundlegung
31
- Prozentsatz bereinstimmender Zuordnungen
- Kappa-Ma
- Diskriminanzanalyse
Das einfachste Gtema betrachtet den prozentualen Anteil der bereinstimmenden
Zuordnungen (JANSEN et al. 2003: 248):
MV
=
mit:
M = Zahl der bereinstimmungen V = Zahl der Vergleiche
Bei diesem Ma wird jedoch nicht der mgliche Anteil an zufllig richtig
zugeordneten bereinstimmungen bercksichtigt. Dieser komplexere
Zusammenhang wird mit dem Kappa-Ma einkalkuliert (BORTZ 2005: 581f.; JANSEN
et al. 2003: 249):
E
E
1
=
mit:
= Anteil der tatschlich beobachteten bereinstimmungen E = Anteil der erwarteten bereinstimmung
Der Anteil der erwarteten bereinstimmungen berechnet sich durch (ebd.):
( )k
2E i
i 1 p
=
=
mit:
ip = relativer Anteil der einzelnen Ausprgungen an der Gesamtzahl der Flle k = Zahl der Ausprgungen
(15)
(16)
(17)
3 Methodische Grundlegung
32
Das Kappa-Ma kann maximal den Wert von 1 erreichen. Nur, wenn der Anteil an
bereinstimmungen grer ist als der Anteil an zuflligen bereinstimmungen,
nimmt Kappa positive Werte an. Im umgedrehten Fall weist Kappa negative Werte
auf. (KNIG 2001: 116).
Die Diskriminanzanalyse ist ein eigenstndiges multivariates Verfahren und bietet
die Mglichkeit die Clusterlsung sowie die clusterbildenden Variablen zu
berprfen (BORTZ 2005: 583; WIEDENBECK et al. 2001: 17). Auf Grundlage der
Clusterlsung wird eine Diskriminanzfunktion geschtzt, die eine maximale
Trennung der Cluster ermglicht. Anschlieend werden die Objekte nach der
Bedingung der Diskriminanzfunktion den Gruppen neu zugeordnet. Die
Diskriminanzkoeffizienten werden dabei hnlich der Regressions- oder
Varianzanalyse, durch die Optimierung des Verhltnisses zwischen der erklrten
Streuung (Varianz zwischen den Clustern) und der nicht erklrten Streuung (Varianz
innerhalb der Cluster) berechnet. Die letztendliche bereinstimmung zwischen dem
Gruppierungsergebnis der Diskriminanz- und der Clusteranalyse, kann als relatives
Validittskriterium verwendet werden (BACKHAUS et al. 2003: 155-227, BROSIUS et
al. 1996: 771-813; JANSEN et al. 2003: 439-456)36.
Die abschlieenden Schritte der Clusteranalyse sind die Interpretation bzw. die
Charakterisierung und die Beschreibung der einzelnen Gruppen (vgl. Abbildung 9).
Dafr eigenen sich vornehmlich die t-Werte, welche einzeln fr jede Variable
innerhalb einer Gruppe berechnet werden (BACHER 1996: 330; BACKHAUS et al.
2003: 534):
X(J,G) X(J)tS(J)
=
mit
X(J,G) = Mittelwert der Variablen J ber die Objekte in Gruppe G X(J) = Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit
36 Weitere Ausfhrungen zur Diskriminanzanalyse finden sich bei BACKHAUS et al. (2003: 155-
227), BROSIUS et al. (1996: 771-813) und JANSEN et al. (2003: 439-456).
(18)
3 Methodische Grundlegung
33
S(J) = Standardabweichung der Variablen J in der Erhebungsgesamtheit
Positive bzw. negative t-Werte zeigen an, dass der Mittelwert einer Variablen
innerhalb eines Clusters ber- bzw. unter dem Mittelwert der Erhebungsgesamtheit
dieser Variablen liegt (ebd.).37 Nur eine Clusterlsung, die durch eine Interpretation
logisch nachvollziehbar ist, erweist sich als sinnvoll. Fr die Beschreibung der
einzelnen Gruppen sollten neben den clusterbildenden bzw. aktiven Variablen auch
die nicht in die Clusterbildung eingeschlossenen Variablen (passive Variablen), die
signifikante Unterschiede zwischen den Clustern aufweisen, herangezogen werden
(KNIG 2001: 117).
Insgesamt bietet die Clusteranalyse dem Nutzer durch die Vielzahl von
Proximittsmaen und Algorithmen ein breites Anwendungsfeld. Dieses bedeutet
aber auch gleichzeitig eine starke subjektive Beeinflussung. Die besonders durch die
Auswahl der clusterbildenden Variablen und die Entscheidung fr die Anzahl der
Gruppen erhht wird. Deshalb sollte gegenber Dritten eine umfassende
Offenlegung, in Bezug auf die Ablaufschritte (vgl. Abbildung 9) und die damit
verbundenen Entscheidungen des Anwenders, innerhalb der Clusteranalyse erfolgen.
37 Die t-Werte stellen eine normierte Gre dar.
3 Methodische Grundlegung
34
3.2 Knstliche Neuronale Netze
3.2.1 berblick ber Neuronale Netze
Ursprnglich wurden knstliche Neuronale Netze (KNN, artificial neural networks,
ANN) entwickelt, um die neurobiologischen Prozesse innerhalb des Nervensystems
bei Tieren und Menschen besser begreifbar zu machen. Dieser Ansatz wird unter der
Terminologie des Konnektionismus zusammengefasst (Hoffmann 2004: 48). Das
Paradigma des Konnektionismus besagt, dass Informationsverarbeitung als
Interaktion einer groen Zahl einfacher Einheiten (Zellen, Neuronen) angesehen
wird, die anregende oder hemmende Signale an andere Zellen senden (Zell 2003:
26).38 Seit dem Ende der 80er Jahre des zwanzigsten Jahrhunderts entwickelte sich
neben diesem neurobiologisch orientierten Forschungszweig ein eigener nur auf
statistische Problemstellungen bezogener anwendungsorientierter Zweig (PODDIG et
al. 2001: 363).39 In dieser Arbeit wird der Terminus der KNN nur im Zusammenhang
mit der statistischen Forschungsrichtung weiter verwendet.
Neuronale Netze knnen wie die multivariaten Verfahren als eine eigenstndige
Verfahrensklasse mit vielen verschiedenen Typen (Verfahren) von KNN angesehen
werden (BACKHAUS 2003: 742; PODDIG et al. 2001: 364). Diese Typen der
Neuronalen Netze ermglichen es aber, hnliche statistische Problemsituationen wie
in der multivariaten Statistik zu analysieren (Strukturentdeckung und
Strukturabbildung). Die Literatur verwendet jedoch bei der Anwendung dieser
beiden Verfahrensklassen (multivariate Statistik und KNN) unterschiedliche
Fachtermini (vgl. Tabelle 2).
38 Einen ausfhrlichen berblick ber die Historie KNN zeigen STRECKER et al. (1997: 9-12) und
ZELL (2003: 28-33). LENZ et al (1995) stellt die Begriffsdefinitionen der Neuronalen Netze und der knstlichen Intelligenz nher dar.
39 Beide Forschungsrichtungen fallen unter dem Begriff der Knstlichen Intelligenz (KI)
3 Methodische Grundlegung
35
Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren
Quelle: Eigene Darstellung in Anlehnung an ANDERS 1996: 164
In den folgenden Kapiteln wird zunchst ein berblick ber die Grundstruktur und
die Funktionsweise Neuronaler Netze gegeben. Anschlieend werden zwei Typen
von Neuronalen Netzen nher betrachtet, die Multi-Layer-Perceptrons und die Self-
Organizing-Maps. Danach werden die spezifischen Eigenschaften der KNN im
Vergleich zu den multivariaten Verfahren dargestellt.
Im Vergleich zu der multivariaten Statistik wurde in der Literatur nur wenig zu der
praktischen Vorgehensweise und Anwendung von KNN verfasst. Dementsprechend
beruhen die hier dargestellten Verfahrensablufe zum Teil auf einer eigenen
methodischen Erforschung im Rahmen dieser Arbeit.40
3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze
Da die KNN ursprnglich dazu entwickelt wurden, biologische Lernprozesse besser
darzustellen, bietet es sich zunchst an, die Informationsverarbeitung einer
natrlichen Nervenzelle (Neuron) nher zu erlutern und diese dann der
40 Anwenderbezogene Literatur fr multivariate Verfahren finden sich z.B. bei BACKHAUS et al.
(2004); BORTZ (2005); BROSIUS (2004); RUDOLF et al. (2004) und JANSEN et al. (2004). Anwenderbezogene Literatur fr MLP Verfahren findet sich z.B. bei ALEX (1998); BACKHAUS et al. (2003) und WIEDMANN (2003).
3 Methodische Grundlegung
36
Funktionsweise eines knstlichen Neurons gegenberzustellen. Nach Schtzungen
besteht das menschliche Gehirn aus ca. 100 Milliarden Nervenzellen (ZELL 2003:
35). Jede einzelne Nervenzelle (vgl. Abbildung 13) setzt sich aus dem Zellkrper
(Soma) mit Zellkern (Nucleus), einer Nervenfaser (Axon) und vielen Dendriten
zusammen. Die Verbindung zwischen Axon und Dendriten wird durch die Synapsen,
die mit vielen verschiedenen Nervenzellen miteinander verbunden sind, realisiert
(ebd. 37).
Abbildung 13: Schematische Darstellung einer Nervenzelle
Quelle: Eigene Darstellung in Anlehnung an ANDERSON et al. 1992; ZELL 2003: 36
ber die Dendriten empfangene hemmende oder erregenden Signale werden an den
Zellkrper weitergeleitet und aufaddiert. Haben die Signale einen bestimmten
Schwellenwert berschritten wird der Zellkern aktiviert, die Signale analysiert,
ausgewertet und schlielich ber das Axon durch einen kurzfristigen elektrischen
Impuls weitergeleitet. Dieser Impuls wird dann durch die Synapsen an die Dendriten
der nachgeschalteten Neuronen bertragen. Durch die Anpassung der Verbindungen
(Synapsen) zwischen den Nervenzellen erfolgt der biologische Lernprozess. Das
heit, mit zu-, bzw. abnehmenden Nutzungsgrad der Synapsen wachsen oder
3 Methodische Grundlegung
37
degenerieren diese (ebd.: 35-38).41 Neben der Eigenschaft der Lernfhigkeit besitzt
das Nervensystem sowie das KNN die Fhigkeit auf Signale der Umgebung
(Stimulus) zu reagieren (Response) (BACKHAUS et al. 2003: 740). Abbildung 14
verdeutlicht diesen Zusammenhang mit dem Stimulus-Organismus-Response-Modell
(SOR-Modell).
Abbildung 14: Das menschliche Nervensystem als SOR-Modell
Quelle: BACKHAUS et al. 2003: 740
Ein knstliches Neuron (Unit) lsst sich analog zu der biologischen Nervenzelle
vereinfacht durch drei mathematische Rechenoperationen (Bildung des Inputs,
Bildung des Aktivittsniveaus, Bildung des Outputs) abbilden (vgl. Abbildung 15).
Abbildung 15: Allgemeines Modell eines knstlichen Neurons
Quelle: Eigene Darstellung in Anlehnung an PODDIG et al.
Recommended