Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Michael Stelzer
Eine Einführung in die
Hierarchische Clusteranalyse (HCA)
Inhalt
1. Problemstellung
2. Agglomerationsmethoden und Algorithmen
3. Anwendungsbeispiele
4. Zusammenfassung
Problemstellung
Cluster: dt.: Traube, Haufen
heuristisches Verfahren: systematische Klassifizierung von Beobachtungen (Personen, Autos, CD‘s ...) heterogene Gesamtheit homogene Teilmenge von Objekten
Anwendung: Sozial + Wirtschaftswissenschaft, Marktforschung, Biologie
Rohdatenmatrix Distanz/Ähnlichkeitsmatrix
Ähnlichkeit/Unähnlichkeit durch Merkmale wie z.B. Alter, Haarfarbe definiert Unähnlichkeit = Distanz (distance): absoluter Abstand Ähnlichkeit = Proximität (similarity): primärer Ähnlichkeitsaspekt
Dendrogramm: binär verzweigter Verwandtschaftsstammbaum Hierarchie
Clusterzahl (CZ): Handhabbarkeit (geringe CZ) Homogenitätsanforderung (große CZ)
Unterscheidung nach Zahl verwendeter Variablen: monothetische Verfahren: nur 1 Variable herangezogen
polythetische Verfahren: mehrere Variablen eingesetzt
Überblick über ausgewählte ClusterAlgorithmen
Clusterverfahren
Hierarchische
Verfahren
PartitionierendeVerfahren
Optimierungsverfahren
divisivagglomerativ
Single
Linkage
Complete
Linkage
Average
Linkage
Centroid Median Ward
Graphentheoretische
Verfahren
Iteriertes
Minimaldistanz
verfahren
Austauschverfahren
Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage
Ablaufschritte und Entscheidungsprobleme der Clusteranalyse
Bestimmung der zu klassifizierenden Objekte
Konkretisierung der Problemstellung der Untersuchung
Analyse und Interpretationder Ergebnisse
Durchführung des Gruppierungsvorganges
Bestimmung derGruppenzahl
Wie unterscheiden sich die ermittelten Cluster? Lassen sich die Ergebnisse sinnvoll interpretieren?
Wie viele Gruppen sollen gebildet werden? Wie verändern sich die Ergebnisse bei verschiedener Gruppenzahl?
Soll ein hierarchisches oder ein partitionierendes Verfahren gewählt werden? Welche Auswirkungen hat ein Wechsel des Algorithmus?
Welches Ähnlichkeits bzw. Distanzmaß soll gewählt werden? Wie sind gemischte Variable zu behandeln?
Sollen qualitative u./o. quant. Merkmale herangezogen werden? Wie groß soll die Zahl der Variablen sein? Ist eine Standardisierung sinnvoll?
Wie lassen sich die Untersuchungsobjekte beschreiben? Wie viele Objekte sollen berücksichtigt werden?
Was ist das Ziel der Untersuchung? Welche Hypothesen sollen getestet werden?
Auswahl derVariablen
Festlegung eines Ähnlichkeits bzw. Distanzmaßes
Auswahl eines Algorithmuszur Gruppierung
Backhaus, Erichson, Plinke, Weiber (2003)Multivariate Analysemethoden, 10. Auflage
Ablaufschritte der agglomerativen hierarchischen Clusterverfahren
Ende
Alle Untersuchungsobjekte
in einerGruppe
Berechnung neuer Abständeund Veränderung der Distanzmatrix
Suche nach den beiden Objekten/Clustern mit der geringsten Distanz
Berechnung derAusgangsdatenmatrix
Start mit der feinstenPartition
Zusammenfassung der ähnlichsten Objekte/Cluster zu einer Gruppe
NEIN
JABackhaus, Erichson, Plinke, Weiber (2003)
Multivariate Analysemethoden, 10. Auflage
Charakterisierung agglomerativer Clusterverfahren (WinSTAT®)
Einfache Verbindung (Single/Simple Linkage): Distanz zweier Gruppen = Distanz beider am dichtesten benachbarten Objekte kontrahierend: viele kleine, wenige große Gruppen + Kettenbildung + Ausreißer
Durchschnittsverbindung (Average Linkage):Distanz zweier Gruppen = mittlere Distanz aller mögl. Verbindungen der Objekte konservativ + Tendenz zur Verbindung Cluster kleiner Varianz gleiche Var.
Zentroidverbindung (Centroid Linkage):Distanz zweier Gruppen = Distanz der Gruppenschwerpunkte konservativ + robust gegenüber Ausreißern
WardMethode (Incremental Sums of Squares) (1963): Distanz zweier Gruppen ~ Änderung der ∑2 der Distanzen innerhalb der Gruppen,die sich bei Zusammenschluss ergeben würde konservativ + homogene, gleich große Cluster + anfällig für Ausreißer
Komplette Verbindung (Complete Linkage):Distanz zweier Gruppen = Distanz beider am weitesten entfernten Objekte dilatierend: kleine, gleich große kompakte Cluster + anfällig für Ausreißer
Charakterisierung agglomerativer Clusterverfahren (XLstat©)
Unweighted Pair Group Method with Arithmetic Mean:Unähnlichkeit zwischen zwei Gruppen ist Mittel der Unähnlichkeiten zwischen denObjekten beider Gruppen guter Kompromiss zwischen Simple u. CompleteLinkage + faire Darstellung der Datenraummöglichkeiten
Weighted Pair Group Method with Arithmetic Mean:mittlere Unähnlichkeit zwischen Objekten zweier Gruppen ist ∑ gewichteterUnähnlichkeiten beiden Gruppen gleiche Gewichtung zugewiesen + ehrlicheRepräsentation des Datensatzes
Flexible Linkage: ßParameter [1,+1]; ß = 0 WPGMA; ß nahe 1 kettenartige Cluster; ß < 0 Ausdehnung des Datensatzes
Strong Linkage:verwendet mittlere Distanzen innerhalb jeder Gruppe + zwischen allen Gruppen sehr kompakte Cluster
Vergleich agglomerativer Clusterverfahren
SPSS®
SPSS®
Die Euklidische Distanz
Quadrierte ED:große Differenzwerte stärker berücksichtigt alskleine Werte Gewichtung
Distanzberechnung bei ausgewählten agglomerativen Verfahren
NPNPNQ
NPNPNQ
NQNPNQ
NQNPNQ
−NP⋅NQ
NPNQ 2
NRNPNRNPNQ
NRNQNRNPNQ
−NRNRNPNQ
1NPNQ
{NP⋅DR,P NQ DR,Q }
1NPNQ
{NP⋅D R,P NQ DR,Q }−NP⋅NQ
NPNQ 2⋅DP,Q
NRNP ⋅DR,P NRNQ ⋅DR,Q ¿
1NRNPNQ
{¿−NR⋅DP,Q }
¿
Gleichung X: D(R,P + Q) = A∙D(R,P) + B∙D(R,Q) + E∙D(P,Q) + G∙|D(R,P) D(R,Q)|
D(R,P): Distanz zw. Gruppen R + PD(R,Q): Distanz zw. Gruppen R + QD(P,Q): Distanz zw. Gruppen P + Q
NR: Zahl der Objekte in Gruppe RNP: Zahl der Objekte in Gruppe PNQ: Zahl der Objekte in Gruppe Q
Backhaus, Erichson, Plinke, Weiber (2003) Multivariate Analysemethoden, 10. Auflage
Distanzberechnung (D(R;P + Q)) nach Gleichung X): Konstante A B E G
Verfahren
0Ward
0,5 (D(R,P) + D(R,Q)) 0,25 ∙ D(P,Q)00,250,50,5Median
0Centroid
00Average Linkage (gewichtet)
0,5 ∙{D(R,P) + D(R,Q)000,50,5Average Linkage (ungewichtet)
0,5 ∙{D(R,P) + D(R,Q) + |D(R,P) (R,Q)|}0,500,50,5Complete Linkage
0,5 ∙{D(R,P) + D(R,Q) |D(R,P) D(R,Q)|}0,500,50,5Single Linkage
XLstat©: Vers. 5.1, Addinsoft, Dr. Thierry Fahmy, Paris, Frankreich (Windows)
WinSTAT®: Vers. 1999.3, R. Fitch Software, Staufen, Deutschland (Windows) Pirouette®: Vers. 3.11, Infometrix Software Inc., Dr. E. Riverside, U.S.A. (Windows)
SPSS®: Vers. 13, SPSS Inc., U.S.A. (Windows + Linux?)
R: Vers. 2.0.1 (15.11.2004) The R Foundation for Statistical Computing, R. Gentleman + R. Ihaka R&R of the Statistics Department Univ. of Auckland (Windows + Linux)
GelCompar® II: AppliedMaths B/BA, Belgien (Windows)
Unistat: Vers. 5, Additive GmbH, Deutschland (Windows) ... ...
Programmpakete
Vorgehensweise in WinSTAT® (I)A
o1A
o2A
o3G
s1G
s2G
s3E
r1E
r2E
r3Fc
1Fc
3Fc
2C
c1C
c3C
c2A
n1A
n2A
n3T
h1T
h3T
h2M
f1M
f3M
f2M
m1
Mm
2M
m3
Tv1
Tv3
Tv2
Hs1
Hs3
Hs2
Af1
Af2
Af3
Vc1
Vc2
Vc3
Mr1
Mr2
Mr3
Tr1
Tr2
Tr3
Pn1
Pn3
Pn2
Ba1
Ba2
Ba3
Or1
Or2
Or3
Pl1
Pl3
Pl2
Pfu1
Pfu3
Pfu2
Pc1
Pc3
Pc2
Sb1
Sb2
Sb3
Pf a
1Pf
b3
Pf b
2Pf
a2
Pf a
3Pf
b1
Pf c
1Pf
c2
Pf c
3A
s1A
s2A
s3H
v1H
v2H
v3C
h1C
h3C
h2Sc
1Sc
2Sc
3
0100200300400500600700800
Dis
tanz
Einstellungen Dialog Clusteranalyse
Ergebnisse Blatt Cluster
Einstellungen Dialog Clustertrennung(1)
(2)
(3)
ClusteranalyseMeßvariable:mm/24hMeanGrayUMeanRedUMeanGreenUMeanBlueUHueTypicalUMeanSaturationUMeanBrightnessUMeanDensityUMeanGrayRMeanRedRMeanGreenRMeanBlueRHueTypicalRMeanSaturationRGrayVariationRMeanBrightnessRBrightVariationRMeanDensityR
Vorgehensweise in WinSTAT® (II)
verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz
1 Gs2 1 Gs3 1 02 Cc1 1 Cc3 1 03 Vc1 1 Vc2 1 04 Tr1 1 Tr2 1 0,015 Mr2 1 Mr3 1 0,016 Mm1 1 Mm2 1 0,017 Tv1 1 Tv3 1 0,018 Af1 1 Af2 1 0,019 Pl1 1 Pl3 1 0,0110 Ao2 1 Ao3 1 0,0111 Sc1 1 Sc2 1 0,0112 Pc1 1 Pc3 1 0,0113 Mm1 2 Mm3 1 0,0114 Mf1 1 Mf3 1 0,0115 Th1 1 Th3 1 0,0216 Pf a1 1 Pf b3 1 0,0217 Mf1 2 Mf2 1 0,0218 Ba2 1 Ba3 1 0,0219 Er1 1 Er2 1 0,0220 Pf c1 1 Pf c2 1 0,0221 Ao1 1 Ao2 2 0,0222 Fc1 1 Fc3 1 0,0223 As2 1 As3 1 0,02
Agglomerationsmethode: Ward
Vorgehensweise in WinSTAT® (III)
27 Ch1 1 Ch3 1 0,0228 Ba1 1 Ba2 2 0,0229 Gs1 1 Gs2 2 0,0330 An1 1 An2 1 0,0331 Hv2 1 Hv3 1 0,0332 Th1 2 Th2 1 0,0333 Tv1 2 Tv2 1 0,0334 Hs1 1 Hs3 1 0,0335 Sb2 1 Sb3 1 0,0436 Cc1 2 Cc2 1 0,0437 Sb1 1 Sb2 2 0,0438 Af1 2 Af3 1 0,0439 Tr1 2 Tr3 1 0,0440 Or2 1 Or3 1 0,0541 Fc1 2 Fc2 1 0,0542 Pfu1 1 Pfu3 1 0,0543 Pn1 1 Pn3 1 0,0544 Pf a1 2 Pf b2 1 0,0545 As1 1 As2 2 0,0646 Pf a2 1 Pf a3 1 0,0747 Pn1 2 Pn2 1 0,0748 Hs1 2 Hs2 1 0,0749 Pc1 2 Pc2 1 0,0850 Vc1 2 Vc3 1 0,0851 Er1 2 Er3 1 0,0952 Pfu1 2 Pfu2 1 0,153 Ch1 2 Ch2 1 0,12
57 Pf a1 3 Pf a2 2 0,1858 Pf a1 5 Pf b1 1 0,3159 An1 2 An3 1 0,3960 Pf a1 6 Pf c1 3 0,8261 Th1 3 Mf1 3 1,1262 Hv1 3 Ch1 3 1,663 Pc1 3 Sb1 3 1,6864 Vc1 3 Mr1 3 2,2165 Th1 6 Mm1 3 2,7166 Pn1 3 Ba1 3 3,5367 Th1 9 Tv1 3 4,1568 Pn1 6 Or1 3 4,5869 Vc1 6 Tr1 3 7,370 Th1 12 Hs1 3 7,3271 Ao1 3 Gs1 3 8,1772 Pfu1 3 Pc1 6 9,6773 Ao1 6 Er1 3 13,2674 As1 3 Hv1 6 13,7975 Af1 3 Vc1 9 15,6376 Ao1 9 Fc1 3 26,977 Pfu1 9 Pf a1 9 28,5578 Af1 12 Pn1 9 33,5779 Ao1 12 Cc1 3 44,6180 Pl1 3 Pfu1 18 47,2581 Th1 15 Af1 21 54,0882 An1 3 Th1 36 118,1183 As1 9 Sc1 3 124,84
verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz
verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz
Ao1
Ao2
Ao3
Th1
Th3
Th2
Mm
1M
m2
Mm
3M
f1M
f3M
f2T
v1T
v3T
v2H
s1H
s3H
s2Pn
1Pn
3Pn
2B
a1B
a2B
a3O
r1O
r2O
r3V
c1V
c2V
c3M
r1M
r2M
r3T
r1T
r2Tr
3A
f1A
f2A
f3Pf
u1Pf
u3Pf
u2Pc
1Pc
3Pc
2Sb
1Sb
2Sb
3Pf
a1
Pf b
3Pf
b2
Pf a
2Pf
a3
Pf b
1Pf
c1
Pf c
2Pf
c3
Er1
Er2
Er3
Gs1
Gs2
Gs3
Pl1
Pl3
Pl2
Fc1
Fc3
Fc2
Cc1
Cc3
Cc2
As1
As2
As3
Hv1
Hv2
Hv3
Ch1
Ch3
Ch2
An1
An2
An3
Sc1
Sc2
Sc3
0
10
20
30
40
50
60
Dis
tanz
Einfache Verbindung (Single/Simple Linkage)
WinSTAT®
Ao1
Ao2
Ao3
Gs1
Gs2
Gs3
Er1
Er2
Er3
Cc1
Cc3
Cc2
Th1
Th3
Th2
Mf1
Mf3
Mf2
Tv1
Tv3
Tv2
Mm
1M
m2
Mm
3H
s1H
s3H
s2Pn
1Pn
3Pn
2B
a1B
a2B
a3O
r1O
r2O
r3A
f1A
f2A
f3V
c1V
c2V
c3M
r1M
r2M
r3T
r1T
r2T
r3Fc
1Fc
3Fc
2A
n1A
n2A
n3Pl
1Pl
3Pl
2Pf
u1Pf
u3Pf
u2Pc
1Pc
3Pc
2Sb
1Sb
2Sb
3Pf
a1
Pf b
3Pf
b2
Pf b
1Pf
a2
Pf a
3Pf
c1
Pf c
2Pf
c3
As1
As2
As3
Hv1
Hv2
Hv3
Ch1
Ch3
Ch2
Sc1
Sc2
Sc3
0
50
100
150
200
250
300
Dis
tanz
Komplette Verbindung (Complete Linkage)
WinSTAT®
Ao1
Ao2
Ao3
Gs1
Gs2
Gs3
Er1
Er2
Er3
Fc1
Fc3
Fc2
Th1
Th3
Th2
Mf1
Mf3
Mf2
Mm
1M
m2
Mm
3T
v1T
v3T
v2H
s1H
s3H
s2Pn
1Pn
3Pn
2B
a1B
a2B
a3O
r1O
r2O
r3V
c1V
c2V
c3M
r1M
r2M
r3T
r1T
r2T
r3A
f1A
f2A
f3Pl
1Pl
3Pl
2Pf
u1Pf
u3Pf
u2Pc
1Pc
3Pc
2Sb
1Sb
2Sb
3Pf
a1
Pf b
3Pf
b2
Pf a
2Pf
a3
Pf c
1Pf
c2
Pf c
3Pf
b1
An1
An2
An3
Cc1
Cc3
Cc2
As1
As2
As3
Hv1
Hv2
Hv3
Ch1
Ch3
Ch2
Sc1
Sc2
Sc3
0
20
40
60
80
100
Dis
tanz
Durchschnittsverbindung (Average Linkage)
WinSTAT®
Ao1
Ao2
Ao3
Gs1
Gs2
Gs3
Er1
Er2
Er3
Fc1
Fc3
Fc2
Th1
Th3
Th2
Mf1
Mf3
Mf2
Mm
1M
m2
Mm
3T
v1T
v3T
v2H
s1H
s3H
s2Pn
1Pn
3Pn
2B
a1B
a2B
a3O
r1O
r2O
r3V
c1V
c2V
c3M
r1M
r2M
r3T
r1T
r2T
r3A
f1A
f2A
f3Pl
1Pl
3Pl
2Pf
u1Pf
u3Pf
u2Pc
1Pc
3Pc
2Sb
1Sb
2Sb
3Pf
a1
Pf b
3Pf
b2
Pf a
2Pf
a3
Pf c
1Pf
c2
Pf c
3Pf
b1
An1
An2
An3
Cc1
Cc3
Cc2
As1
As2
As3
Hv1
Hv2
Hv3
Ch1
Ch3
Ch2
Sc1
Sc2
Sc3
0
1020
30
40
5060
70
Dis
tanz
Zentroidverbindung (Centroid Linkage)
WinSTAT®
Ao1
Ao2
Ao3
Gs1
Gs2
Gs3
Er1
Er2
Er3
Fc1
Fc3
Fc2
Cc1
Cc3
Cc2
An1
An2
An3
Th1
Th3
Th2
Mf1
Mf3
Mf2
Mm
1M
m2
Mm
3T
v1T
v3T
v2H
s1H
s3H
s2A
f1A
f2A
f3V
c1V
c2V
c3M
r1M
r2M
r3T
r1T
r2T
r3Pn
1Pn
3Pn
2B
a1B
a2B
a3O
r1O
r2O
r3Pl
1Pl
3Pl
2Pf
u1Pf
u3Pf
u2Pc
1Pc
3Pc
2Sb
1Sb
2Sb
3Pf
a1
Pf b
3Pf
b2
Pf a
2Pf
a3
Pf b
1Pf
c1
Pf c
2Pf
c3
As1
As2
As3
Hv1
Hv2
Hv3
Ch1
Ch3
Ch2
Sc1
Sc2
Sc3
0100200300400500600700800
Dis
tanz
WardMethode (Incremental Sums of Squares)
WinSTAT®
AoGsEr Fc CcAnThMfMm
TvHsAfVcMrTr
Pn BaOrPl PfuPc Sb Pf a + b
Pf cAsHv
ChSc
0,00,10,20,30,40,50,60,70,80,91,0
Distanz
Alternaria sp., As; Aspergillus flavus, Af; Aspergillus niger, An; Aspergillus ochraceus, Ao; Botrytis allii, Ba; Cladosporium cucumerinum, Cc; Cladosporium herbarum, Ch; Eurotium repens, Er; Fusarium culmorum, Fc; Gliocladium sp., Gs; Hormodendrum violaceum, Hv; Hypomyces sp., Hs; Mortierella ramanniana, Mr; Mucor flavus, Mf; Mucor mucedo, Mm; Oidiodendron rhodogenum, Or; Paecilomyces lilacinus, Pl; Penicillium camemberti, Pc; Penicillium funiculosum, Pfu; Penicillium fellutanum (Isolat 1), Pf a; Penicillium fellutanum (Isolat 2), Pf b; Penicillium fellutanum (Isolat 3), Pf c; Penicillium notatum (Fleming Stamm), Pn; Scopulariopsis brevicaulis, Sb; Stachybotrys chartarum, Sc; Trichoderma harzianum, Th; Trichoderma viride, Tv; Trichothecium roseum, Tr; Verticillium cinnabarinum, Vc
Dendrogramm geclusterter Bilddaten von 29 Pilzstämmen (Ward)
WinSTAT®
P. fellutanum
Unweighted Pair Group Method with Arithmetic Mean
XLstat©
Weighted Pair Group Method with Arithmetic Mean
XLstat©
Flexible Linkage
XLstat©
Strong Linkage
XLstat©
Beispiel für die Erstellung eines rooted trees durch aufeinanderfolgende Clusterung von Sequenzen (UPGMA)
I II
III IV
t1=t2=0,5d12
0,5d68t3=0,5d37
t4=t5=0,5d45
Durbin, Eddy, Krogh, Mitchison (2003)Biological sequence analysis, 8. Auflage
d = distance t = edge lengths
Observations (axis F1 and F2: 73 %)
Ao1Ao2Ao3
An1An2An3
Cc1Cc2Cc3
Gs1Gs2Gs3
Th1Th2Th3Af1Af2Af3 As1As2As3Pn1Pn2Pn3
Mm1Mm2Mm3
Fc1Fc2Fc3
Pl1Pl2Pl3
Mf1Mf2Mf3
Hv1Hv2Hv3
Pfu1Pfu2Pfu3
Or1Or2Or3
Hs1Hs2Hs3 Vc1Vc2Vc3
Pc1Pc2Pc3Er1Er2Er3
Pf a1Pf a2Pf a3
Ch1Ch2Ch3Pf b1Pf b2Pf b3
Ba1Ba2Ba3Pf c1Pf c2Pf c3
Tr1Tr2Tr3Sb1Sb2Sb3 Mr1Mr2Mr3
Tv1Tv2Tv3
Sc1Sc2Sc3
5
4
3
2
1
0
1
2
3
4
5
8 6 4 2 0 2 4 6 8 10
axis F1 (59 %) >
a
xis
F2 (
14 %
)
>
Hauptkomponentenanalyse (Principal Components Analysis)
XLstat©
Ober und Unterseite von Pilzkolonien unterschiedlicher Gattung
Alternaria sp. Gliocladium sp.
Paecilomyces lilacinus Penicillium fellutanum
Makroskopische Bestimmung der Diversität von Pilzen
Drei Möglichkeiten der Einordnung:
a) subjektive Betrachtung lebender Kulturen (auf Röhrchen/Platten)
b) subjektive Betrachtung von Fotografien oder digitalen Bildern der Kulturen
c) objektive Auswertung von Bilddaten (Werte für Wachstum und Farben) durch Hauptkomponenten oder Clusteranalyse mit Ausgabe 2 oder 3 dimensionaler Diagramme bzw. von Dendrogrammen
Voraussetzungen für die Clusteranalyse von Bilddaten:
simultane Analyse zu vergleichender Datensätze (z.B. aus zwei Böden) Festlegung der optimalen Clusterebene: nachträgliche Zusammenführung kleiner Cluster sinnvoller als Trennung
großer Cluster
Vergleich der Unterscheidungskraft verwendeter Meßgrößen
1,0 0,60,8 0,4
Density Variation UBright Variation UGray Variation UMean Density UMean Brightness UMean Density OMean Brightness OMean Saturation OMean Saturation UHue Typical UHue Typical OMean Blue UMean Green UMean Gray UMean Red OMean Blue OMean Green OMean Gray OMean Red Umm/24h
Ähnlichkeit
Pirouette®
ElbowKriterium zur Bestimmung der Clusteranzahl
0
100
200
300
400
500
600
700
1 3 5 7 9 11 13 15 17 19 21 23 25
Anzahl der Cluster
Fehl
erqu
adra
tsum
me
0
e
55
Elbow
Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage
Heterogenitätsmaß: Varianzkriterium = Fehlerquadratsumme
Ermittlung der geeigneten Clusterebene: relative Distanz [%] in Dendrogrammen und evenness von Bildtypen in Stichproben
0 , 8 90 , 9 00 , 9 10 , 9 20 , 9 30 , 9 40 , 9 50 , 9 60 , 9 70 , 9 80 , 9 91 , 0 0
0 , 0 0 0 , 2 5 0 , 5 0 0 , 7 5 1 , 0 0 1 , 2 5 1 , 5 0 1 , 7 5 2 , 0 0
R e l a t i v e D i s t a n z [ % ]
even
ness
04 08 01 2 01 6 02 0 02 4 02 8 0
Zahl
der
Bil
dtyp
en
e v e n n e s sZ a h l d e r B i l d t y p e n
00
Cluster I Cluster II
H250 H274
H285 H297
R367 R381
R388
H252 H254
H258 H283
H290 H291
H311 R368
Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen I
Similarity
1.0 0
XLstat©
Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen II
Lucia D®, LaboratoryIMaging
Lucia D®, LaboratoryIMaging
Abschätzung der katabolischen Vielseitigkeit von Bodenpilzen aus der Verteilung aromatenspezifischer Vermehrungseinheiten (CFU)
Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald (W) und Haldenboden (H), ub = unbelastet, b = belastet.CFU = colony forming units.
H b
2H
b1
H b
3W
ub3
W u
b2
A w
b3A
b3A
b2A
b1A
wb2
W u
b1
A w
b1
0
20
40
60
80
100
120
Dis
tanz
0,0
0,5
1,0
1,5
2,0
2,5
Acker wb Acker b Wald ub Halde b
Kat
abol
isch
e Vi
else
itig
keit
CFU
Abschätzung der katabolischen Vielseitigkeit von Böden durchVerrechnung der reziproken Abbauzeiten aromatischer Säuren
Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald (W) und Haldenboden (H), ub = unbelastet, b = belastet.
H b
3H
b2
H b
1A
b3A
b2A
b1W
ub3
W u
b2W
ub1
A w
b3A
wb2
A w
b1
0
20
40
60
80
100
120D
ista
nz0,0
0,5
1,0
1,5
2,0
2,5
Acker wb Acker b Wald ub Halde b
Kat
abol
isch
e Vi
else
itig
keit
Resp
irom
etrie
Ähnlichkeit [%]
Vergleich der Pilzvielfalt von Rhizosphären und EndophytenGemeinschaften bei Raps und Erdbeere am Standort BS (DGGE)
DGGE: Denaturierende Gradienten Gel ElektrophoreseSuperSt.: BandenStandard, bestehend aus 11 PilzisolatenBS6: 6. Probenahme BSW1,3,6,8: Wurzelproben RapsW2,4,5,7: Wurzelproben ErdbeereE: Endophytische PilzeR: Rhizosphärische Pilze
WardMethode
GelCompar®
Im Dendrogramm gesamte Gruppierungs information enthalten Problem: Findung geeigneter Clusterebene
WardMethode als Einstieg: sehr gut
Problem: enormer Arbeits + Zeitaufwand, daher meist nur Annäherungen möglich bei 10 Objekten 115 975 verschiedene Möglichkeiten
Zusammenfassung
Hierarchische Verfahren Nichthierarchische Verfahren (Partitionierendes ClusterVerfahren, Clusterzentrenanalyse)
Start feinste Partitionierung, Vorgabe Startgruppierungjedes Objekt = 1 Cluster
Clusterbildung Fusionierung von Clustern Verschieben/Sortieren der Objekte
Ziel Kriterium erfüllt Kriterium erfüllt
Testung verschiedener Verfahren empfohlen
Gefahr der geschönten Darstellung von Daten
bzw. Verzerrung
Korrekter Vergleich des Artenreichtumsvon Stichproben durch rarefaction
0
10
20
30
40
50
60
70
0 25 50 75 100 125 150 175Zahl der Isolate
Zahl
der
Bil
dtyp
en
unbelastetbelastet
= 49,75
= 38,81
Artenreichtum:
Diversität: ShannonIndex (Shannon und Weaver, 1963)
= Vielfalt; Artenzahl in Lebensgemeinschaft,
wobei S = Zahl der Arten (Bildtypen) N = Zahl der Individuen (Isolate)
ni = Zahl der Individuen je Art bzw. Bildtyp, = Bedeutungswert der Art.
evenness: (Pielou, 1966)
= Gleichmäßigkeit der Verteilung (z.B. von Arten, katabol. Fähigkeiten),
wobei = ShannonIndex, A = Zahl der angebotenen Substrate.
Ökologische Indices
ni
N
d=SN
e=H
log A
H
H=−∑ ni
N × log ni
N
Beispielrechnung Diversität und evenness
Modelle gleicher Arten und Individuenzahl, aber unterschiedlicher Arten
IndividuenzahlBedeutung log Bedeutung Produkt
3 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01115 1 0,0048 2,3222 0,01115 2 0,0095 2,0212 0,01926 2 0,0095 2,0212 0,01926 3 0,0143 1,8451 0,02647 3 0,0143 1,8451 0,02648 4 0,0190 1,7202 0,03289 5 0,0238 1,6232 0,03869 6 0,0286 1,5441 0,0441
10 8 0,0381 1,4191 0,054112 9 0,0429 1,3680 0,058613 12 0,0571 1,2430 0,071014 14 0,0667 1,1761 0,078415 17 0,0810 1,0918 0,088417 22 0,1048 0,9798 0,102619 26 0,1238 0,9072 0,112321 33 0,1571 0,8037 0,126323 40 0,1905 0,7202 0,1372
Summe N 210 Diversität (Summe) 1,0799n = 20 log Artenzahl (20) 1,3010
0,8301
verteilung: Berechnung von Diversität und evenness
ni ni ni/N log (ni/N) (ni/N) log (ni/N)
e = 0,95 e = 0,83 evenness (D/log AZ)
Abbauzeit [h] Bedeutung log Bedeutung Produkt
19 0,0244 1,6131 0,039322,3 0,0286 1,5436 0,044223 0,0295 1,5301 0,0451
51,5 0,0661 1,1801 0,078021,8 0,0280 1,5534 0,043459,5 0,0763 1,1174 0,085344 0,0564 1,2484 0,0705
30,3 0,0389 1,4104 0,054831,5 0,0404 1,3936 0,056334,3 0,0440 1,3566 0,059730,5 0,0391 1,4076 0,055164,3 0,0825 1,0837 0,089440,3 0,0517 1,2866 0,066548,3 0,0620 1,2079 0,074833 0,0423 1,3734 0,0581
32,3 0,0414 1,3827 0,057310,8 0,0139 1,8584 0,025741,3 0,0530 1,2759 0,067648,8 0,0626 1,2035 0,075359,8 0,0767 1,1152 0,085533 0,0423 1,3734 0,0581
Summe F 779,6 Diversität (Summe) 1,2901n = 21 log 21 1,3222
0,9757
fi fi/F log (fi/F) (fi/F) log (fi/F)
evenness (D/log 21)