Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Michael Stelzer

Eine Einführung in die

Hierarchische Clusteranalyse (HCA)

Inhalt

1. Problemstellung

2. Agglomerationsmethoden und Algorithmen

3. Anwendungsbeispiele

4. Zusammenfassung

Problemstellung

Cluster: dt.: Traube, Haufen

heuristisches Verfahren: systematische Klassifizierung von Beobachtungen (Personen, Autos, CD‘s ...) heterogene Gesamtheit homogene Teilmenge von Objekten

Anwendung: Sozial + Wirtschaftswissenschaft, Marktforschung, Biologie

Rohdatenmatrix Distanz/Ähnlichkeitsmatrix

Ähnlichkeit/Unähnlichkeit durch Merkmale wie z.B. Alter, Haarfarbe definiert Unähnlichkeit = Distanz (distance): absoluter Abstand Ähnlichkeit = Proximität (similarity): primärer Ähnlichkeitsaspekt

Dendrogramm: binär verzweigter Verwandtschaftsstammbaum Hierarchie

Clusterzahl (CZ): Handhabbarkeit (geringe CZ) Homogenitätsanforderung (große CZ)

Unterscheidung nach Zahl verwendeter Variablen: monothetische Verfahren: nur 1 Variable herangezogen

polythetische Verfahren: mehrere Variablen eingesetzt

Überblick über ausgewählte ClusterAlgorithmen

Clusterverfahren

Hierarchische

Verfahren

PartitionierendeVerfahren

Optimierungsverfahren

divisivagglomerativ

Single

Linkage

Complete

Linkage

Average

Linkage

Centroid Median Ward

Graphentheoretische

Verfahren

Iteriertes

Minimaldistanz

verfahren

Austauschverfahren

Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage

Ablaufschritte und Entscheidungsprobleme der Clusteranalyse

Bestimmung der zu klassifizierenden Objekte

Konkretisierung der Problemstellung der Untersuchung

Analyse und Interpretationder Ergebnisse

Durchführung des Gruppierungsvorganges

Bestimmung derGruppenzahl

Wie unterscheiden sich die ermittelten Cluster? Lassen sich die Ergebnisse sinnvoll interpretieren?

Wie viele Gruppen sollen gebildet werden? Wie verändern sich die Ergebnisse bei verschiedener Gruppenzahl?

Soll ein hierarchisches oder ein partitionierendes Verfahren gewählt werden? Welche Auswirkungen hat ein Wechsel des Algorithmus?

Welches Ähnlichkeits bzw. Distanzmaß soll gewählt werden? Wie sind gemischte Variable zu behandeln?

Sollen qualitative u./o. quant. Merkmale herangezogen werden? Wie groß soll die Zahl der Variablen sein? Ist eine Standardisierung sinnvoll?

Wie lassen sich die Untersuchungsobjekte beschreiben? Wie viele Objekte sollen berücksichtigt werden?

Was ist das Ziel der Untersuchung? Welche Hypothesen sollen getestet werden?

Auswahl derVariablen

Festlegung eines Ähnlichkeits bzw. Distanzmaßes

Auswahl eines Algorithmuszur Gruppierung

Backhaus, Erichson, Plinke, Weiber (2003)Multivariate Analysemethoden, 10. Auflage

Ablaufschritte der agglomerativen hierarchischen Clusterverfahren

Ende

Alle Untersuchungsobjekte

in einerGruppe

Berechnung neuer Abständeund Veränderung der Distanzmatrix

Suche nach den beiden Objekten/Clustern mit der geringsten Distanz

Berechnung derAusgangsdatenmatrix

Start mit der feinstenPartition

Zusammenfassung der ähnlichsten Objekte/Cluster zu einer Gruppe

NEIN

JABackhaus, Erichson, Plinke, Weiber (2003)

Multivariate Analysemethoden, 10. Auflage

Charakterisierung agglomerativer Clusterverfahren (WinSTAT®)

Einfache Verbindung (Single/Simple Linkage): Distanz zweier Gruppen = Distanz beider am dichtesten benachbarten Objekte kontrahierend: viele kleine, wenige große Gruppen + Kettenbildung + Ausreißer

Durchschnittsverbindung (Average Linkage):Distanz zweier Gruppen = mittlere Distanz aller mögl. Verbindungen der Objekte konservativ + Tendenz zur Verbindung Cluster kleiner Varianz gleiche Var.

Zentroidverbindung (Centroid Linkage):Distanz zweier Gruppen = Distanz der Gruppenschwerpunkte konservativ + robust gegenüber Ausreißern

WardMethode (Incremental Sums of Squares) (1963): Distanz zweier Gruppen ~ Änderung der ∑2 der Distanzen innerhalb der Gruppen,die sich bei Zusammenschluss ergeben würde konservativ + homogene, gleich große Cluster + anfällig für Ausreißer

Komplette Verbindung (Complete Linkage):Distanz zweier Gruppen = Distanz beider am weitesten entfernten Objekte dilatierend: kleine, gleich große kompakte Cluster + anfällig für Ausreißer

Charakterisierung agglomerativer Clusterverfahren (XLstat©)

Unweighted Pair Group Method with Arithmetic Mean:Unähnlichkeit zwischen zwei Gruppen ist Mittel der Unähnlichkeiten zwischen denObjekten beider Gruppen guter Kompromiss zwischen Simple u. CompleteLinkage + faire Darstellung der Datenraummöglichkeiten

Weighted Pair Group Method with Arithmetic Mean:mittlere Unähnlichkeit zwischen Objekten zweier Gruppen ist ∑ gewichteterUnähnlichkeiten beiden Gruppen gleiche Gewichtung zugewiesen + ehrlicheRepräsentation des Datensatzes

Flexible Linkage: ßParameter [1,+1]; ß = 0 WPGMA; ß nahe 1 kettenartige Cluster; ß < 0 Ausdehnung des Datensatzes

Strong Linkage:verwendet mittlere Distanzen innerhalb jeder Gruppe + zwischen allen Gruppen sehr kompakte Cluster

Vergleich agglomerativer Clusterverfahren

SPSS®

SPSS®

Die Euklidische Distanz

Quadrierte ED:große Differenzwerte stärker berücksichtigt alskleine Werte Gewichtung

Distanzberechnung bei ausgewählten agglomerativen Verfahren

NPNPNQ

NPNPNQ

NQNPNQ

NQNPNQ

−NP⋅NQ

NPNQ 2

NRNPNRNPNQ

NRNQNRNPNQ

−NRNRNPNQ

1NPNQ

{NP⋅DR,P NQ DR,Q }

1NPNQ

{NP⋅D R,P NQ DR,Q }−NP⋅NQ

NPNQ 2⋅DP,Q

NRNP ⋅DR,P NRNQ ⋅DR,Q ¿

1NRNPNQ

{¿−NR⋅DP,Q }

¿

Gleichung X: D(R,P + Q) = A∙D(R,P) + B∙D(R,Q) + E∙D(P,Q) + G∙|D(R,P) D(R,Q)|

D(R,P): Distanz zw. Gruppen R + PD(R,Q): Distanz zw. Gruppen R + QD(P,Q): Distanz zw. Gruppen P + Q

NR: Zahl der Objekte in Gruppe RNP: Zahl der Objekte in Gruppe PNQ: Zahl der Objekte in Gruppe Q

Backhaus, Erichson, Plinke, Weiber (2003) Multivariate Analysemethoden, 10. Auflage

Distanzberechnung (D(R;P + Q)) nach Gleichung X): Konstante A B E G

Verfahren

0Ward

0,5 (D(R,P) + D(R,Q)) 0,25 ∙ D(P,Q)00,250,50,5Median

0Centroid

00Average Linkage (gewichtet)

0,5 ∙{D(R,P) + D(R,Q)000,50,5Average Linkage (ungewichtet)

0,5 ∙{D(R,P) + D(R,Q) + |D(R,P) (R,Q)|}0,500,50,5Complete Linkage

0,5 ∙{D(R,P) + D(R,Q) |D(R,P) D(R,Q)|}0,500,50,5Single Linkage

XLstat©: Vers. 5.1, Addinsoft, Dr. Thierry Fahmy, Paris, Frankreich (Windows)

WinSTAT®: Vers. 1999.3, R. Fitch Software, Staufen, Deutschland (Windows) Pirouette®: Vers. 3.11, Infometrix Software Inc., Dr. E. Riverside, U.S.A. (Windows)

SPSS®: Vers. 13, SPSS Inc., U.S.A. (Windows + Linux?)

R: Vers. 2.0.1 (15.11.2004) The R Foundation for Statistical Computing, R. Gentleman + R. Ihaka R&R of the Statistics Department Univ. of Auckland (Windows + Linux)

GelCompar® II: AppliedMaths B/BA, Belgien (Windows)

Unistat: Vers. 5, Additive GmbH, Deutschland (Windows) ... ...

Programmpakete

Vorgehensweise in WinSTAT® (I)A

o1A

o2A

o3G

s1G

s2G

s3E

r1E

r2E

r3Fc

1Fc

3Fc

2C

c1C

c3C

c2A

n1A

n2A

n3T

h1T

h3T

h2M

f1M

f3M

f2M

m1

Mm

2M

m3

Tv1

Tv3

Tv2

Hs1

Hs3

Hs2

Af1

Af2

Af3

Vc1

Vc2

Vc3

Mr1

Mr2

Mr3

Tr1

Tr2

Tr3

Pn1

Pn3

Pn2

Ba1

Ba2

Ba3

Or1

Or2

Or3

Pl1

Pl3

Pl2

Pfu1

Pfu3

Pfu2

Pc1

Pc3

Pc2

Sb1

Sb2

Sb3

Pf a

1Pf

b3

Pf b

2Pf

a2

Pf a

3Pf

b1

Pf c

1Pf

c2

Pf c

3A

s1A

s2A

s3H

v1H

v2H

v3C

h1C

h3C

h2Sc

1Sc

2Sc

3

0100200300400500600700800

Dis

tanz

Einstellungen Dialog Clusteranalyse

Ergebnisse Blatt Cluster

Einstellungen Dialog Clustertrennung(1)

(2)

(3)

ClusteranalyseMeßvariable:mm/24hMeanGrayUMeanRedUMeanGreenUMeanBlueUHueTypicalUMeanSaturationUMeanBrightnessUMeanDensityUMeanGrayRMeanRedRMeanGreenRMeanBlueRHueTypicalRMeanSaturationRGrayVariationRMeanBrightnessRBrightVariationRMeanDensityR

Vorgehensweise in WinSTAT® (II)

verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz

1 Gs2 1 Gs3 1 02 Cc1 1 Cc3 1 03 Vc1 1 Vc2 1 04 Tr1 1 Tr2 1 0,015 Mr2 1 Mr3 1 0,016 Mm1 1 Mm2 1 0,017 Tv1 1 Tv3 1 0,018 Af1 1 Af2 1 0,019 Pl1 1 Pl3 1 0,0110 Ao2 1 Ao3 1 0,0111 Sc1 1 Sc2 1 0,0112 Pc1 1 Pc3 1 0,0113 Mm1 2 Mm3 1 0,0114 Mf1 1 Mf3 1 0,0115 Th1 1 Th3 1 0,0216 Pf a1 1 Pf b3 1 0,0217 Mf1 2 Mf2 1 0,0218 Ba2 1 Ba3 1 0,0219 Er1 1 Er2 1 0,0220 Pf c1 1 Pf c2 1 0,0221 Ao1 1 Ao2 2 0,0222 Fc1 1 Fc3 1 0,0223 As2 1 As3 1 0,02

Agglomerationsmethode: Ward

Vorgehensweise in WinSTAT® (III)

27 Ch1 1 Ch3 1 0,0228 Ba1 1 Ba2 2 0,0229 Gs1 1 Gs2 2 0,0330 An1 1 An2 1 0,0331 Hv2 1 Hv3 1 0,0332 Th1 2 Th2 1 0,0333 Tv1 2 Tv2 1 0,0334 Hs1 1 Hs3 1 0,0335 Sb2 1 Sb3 1 0,0436 Cc1 2 Cc2 1 0,0437 Sb1 1 Sb2 2 0,0438 Af1 2 Af3 1 0,0439 Tr1 2 Tr3 1 0,0440 Or2 1 Or3 1 0,0541 Fc1 2 Fc2 1 0,0542 Pfu1 1 Pfu3 1 0,0543 Pn1 1 Pn3 1 0,0544 Pf a1 2 Pf b2 1 0,0545 As1 1 As2 2 0,0646 Pf a2 1 Pf a3 1 0,0747 Pn1 2 Pn2 1 0,0748 Hs1 2 Hs2 1 0,0749 Pc1 2 Pc2 1 0,0850 Vc1 2 Vc3 1 0,0851 Er1 2 Er3 1 0,0952 Pfu1 2 Pfu2 1 0,153 Ch1 2 Ch2 1 0,12

57 Pf a1 3 Pf a2 2 0,1858 Pf a1 5 Pf b1 1 0,3159 An1 2 An3 1 0,3960 Pf a1 6 Pf c1 3 0,8261 Th1 3 Mf1 3 1,1262 Hv1 3 Ch1 3 1,663 Pc1 3 Sb1 3 1,6864 Vc1 3 Mr1 3 2,2165 Th1 6 Mm1 3 2,7166 Pn1 3 Ba1 3 3,5367 Th1 9 Tv1 3 4,1568 Pn1 6 Or1 3 4,5869 Vc1 6 Tr1 3 7,370 Th1 12 Hs1 3 7,3271 Ao1 3 Gs1 3 8,1772 Pfu1 3 Pc1 6 9,6773 Ao1 6 Er1 3 13,2674 As1 3 Hv1 6 13,7975 Af1 3 Vc1 9 15,6376 Ao1 9 Fc1 3 26,977 Pfu1 9 Pf a1 9 28,5578 Af1 12 Pn1 9 33,5779 Ao1 12 Cc1 3 44,6180 Pl1 3 Pfu1 18 47,2581 Th1 15 Af1 21 54,0882 An1 3 Th1 36 118,1183 As1 9 Sc1 3 124,84



Ao1

Ao2

Ao3

Th1

Th3

Th2

Mm

1M

m2

Mm

3M

f1M

f3M

f2T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2Tr

3A

f1A

f2A

f3Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

a1

Pf b

3Pf

b2

Pf a

2Pf

a3

Pf b

1Pf

c1

Pf c

2Pf

c3

Er1

Er2

Er3

Gs1

Gs2

Gs3

Pl1

Pl3

Pl2

Fc1

Fc3

Fc2

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

An1

An2

An3

Sc1

Sc2

Sc3

0

10

20

30

40

50

60

Dis

tanz

Einfache Verbindung (Single/Simple Linkage)

WinSTAT®

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Cc1

Cc3

Cc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Tv1

Tv3

Tv2

Mm

1M

m2

Mm

3H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3A

f1A

f2A

f3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3Fc

1Fc

3Fc

2A

n1A

n2A

n3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

a1

Pf b

3Pf

b2

Pf b

1Pf

a2

Pf a

3Pf

c1

Pf c

2Pf

c3

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

50

100

150

200

250

300

Dis

tanz

Komplette Verbindung (Complete Linkage)

WinSTAT®

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3A

f1A

f2A

f3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

a1

Pf b

3Pf

b2

Pf a

2Pf

a3

Pf c

1Pf

c2

Pf c

3Pf

b1

An1

An2

An3

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

20

40

60

80

100

Dis

tanz

Durchschnittsverbindung (Average Linkage)

WinSTAT®

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3A

f1A

f2A

f3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

a1

Pf b

3Pf

b2

Pf a

2Pf

a3

Pf c

1Pf

c2

Pf c

3Pf

b1

An1

An2

An3

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

1020

30

40

5060

70

Dis

tanz

Zentroidverbindung (Centroid Linkage)

WinSTAT®

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Cc1

Cc3

Cc2

An1

An2

An3

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2A

f1A

f2A

f3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

a1

Pf b

3Pf

b2

Pf a

2Pf

a3

Pf b

1Pf

c1

Pf c

2Pf

c3

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0100200300400500600700800

Dis

tanz

WardMethode (Incremental Sums of Squares)

WinSTAT®

AoGsEr Fc CcAnThMfMm

TvHsAfVcMrTr

Pn BaOrPl PfuPc Sb Pf a + b

Pf cAsHv

ChSc

0,00,10,20,30,40,50,60,70,80,91,0

Distanz

Alternaria sp., As; Aspergillus flavus, Af; Aspergillus niger, An; Aspergillus ochraceus, Ao; Botrytis allii, Ba; Cladosporium cucumerinum, Cc; Cladosporium herbarum, Ch; Eurotium repens, Er; Fusarium culmorum, Fc; Gliocladium sp., Gs; Hormodendrum violaceum, Hv; Hypomyces sp., Hs; Mortierella ramanniana, Mr; Mucor flavus, Mf; Mucor mucedo, Mm; Oidiodendron rhodogenum, Or; Paecilomyces lilacinus, Pl; Penicillium camemberti, Pc; Penicillium funiculosum, Pfu; Penicillium fellutanum (Isolat 1), Pf a; Penicillium fellutanum (Isolat 2), Pf b; Penicillium fellutanum (Isolat 3), Pf c; Penicillium notatum (Fleming Stamm), Pn; Scopulariopsis brevicaulis, Sb; Stachybotrys chartarum, Sc; Trichoderma harzianum, Th; Trichoderma viride, Tv; Trichothecium roseum, Tr; Verticillium cinnabarinum, Vc

Dendrogramm geclusterter Bilddaten von 29 Pilzstämmen (Ward)

WinSTAT®

P. fellutanum

Unweighted Pair Group Method with Arithmetic Mean

XLstat©

Weighted Pair Group Method with Arithmetic Mean

XLstat©

Flexible Linkage

XLstat©

Strong Linkage

XLstat©

Beispiel für die Erstellung eines rooted trees durch aufeinanderfolgende Clusterung von Sequenzen (UPGMA)

I II

III IV

t1=t2=0,5d12

0,5d68t3=0,5d37

t4=t5=0,5d45

Durbin, Eddy, Krogh, Mitchison (2003)Biological sequence analysis, 8. Auflage

d = distance t = edge lengths

Observations (axis F1 and F2: 73 %)

Ao1Ao2Ao3

An1An2An3

Cc1Cc2Cc3

Gs1Gs2Gs3

Th1Th2Th3Af1Af2Af3 As1As2As3Pn1Pn2Pn3

Mm1Mm2Mm3

Fc1Fc2Fc3

Pl1Pl2Pl3

Mf1Mf2Mf3

Hv1Hv2Hv3

Pfu1Pfu2Pfu3

Or1Or2Or3

Hs1Hs2Hs3 Vc1Vc2Vc3

Pc1Pc2Pc3Er1Er2Er3

Pf a1Pf a2Pf a3

Ch1Ch2Ch3Pf b1Pf b2Pf b3

Ba1Ba2Ba3Pf c1Pf c2Pf c3

Tr1Tr2Tr3Sb1Sb2Sb3 Mr1Mr2Mr3

Tv1Tv2Tv3

Sc1Sc2Sc3

5

4

3

2

1

0

1

2

3

4

5

8 6 4 2 0 2 4 6 8 10

axis F1 (59 %) >

a

xis

F2 (

14 %

)

>

Hauptkomponentenanalyse (Principal Components Analysis)

XLstat©

Ober und Unterseite von Pilzkolonien unterschiedlicher Gattung

Alternaria sp. Gliocladium sp.

Paecilomyces lilacinus Penicillium fellutanum

Makroskopische Bestimmung der Diversität von Pilzen

Drei Möglichkeiten der Einordnung:

a) subjektive Betrachtung lebender Kulturen (auf Röhrchen/Platten)

b) subjektive Betrachtung von Fotografien oder digitalen Bildern der Kulturen

c) objektive Auswertung von Bilddaten (Werte für Wachstum und Farben) durch Hauptkomponenten oder Clusteranalyse mit Ausgabe 2 oder 3 dimensionaler Diagramme bzw. von Dendrogrammen

Voraussetzungen für die Clusteranalyse von Bilddaten:

simultane Analyse zu vergleichender Datensätze (z.B. aus zwei Böden) Festlegung der optimalen Clusterebene: nachträgliche Zusammenführung kleiner Cluster sinnvoller als Trennung

großer Cluster

Vergleich der Unterscheidungskraft verwendeter Meßgrößen

1,0 0,60,8 0,4

Density Variation UBright Variation UGray Variation UMean Density UMean Brightness UMean Density OMean Brightness OMean Saturation OMean Saturation UHue Typical UHue Typical OMean Blue UMean Green UMean Gray UMean Red OMean Blue OMean Green OMean Gray OMean Red Umm/24h

Ähnlichkeit

Pirouette®

ElbowKriterium zur Bestimmung der Clusteranzahl

0

100

200

300

400

500

600

700

1 3 5 7 9 11 13 15 17 19 21 23 25

Anzahl der Cluster

Fehl

erqu

adra

tsum

me

0

e

55

Elbow

Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage

Heterogenitätsmaß: Varianzkriterium = Fehlerquadratsumme

Ermittlung der geeigneten Clusterebene: relative Distanz [%] in Dendrogrammen und evenness von Bildtypen in Stichproben

0 , 8 90 , 9 00 , 9 10 , 9 20 , 9 30 , 9 40 , 9 50 , 9 60 , 9 70 , 9 80 , 9 91 , 0 0

0 , 0 0 0 , 2 5 0 , 5 0 0 , 7 5 1 , 0 0 1 , 2 5 1 , 5 0 1 , 7 5 2 , 0 0

R e l a t i v e D i s t a n z [ % ]

even

ness

04 08 01 2 01 6 02 0 02 4 02 8 0

Zahl

der

Bil

dtyp

en

e v e n n e s sZ a h l d e r B i l d t y p e n

00

Cluster I Cluster II

H250 H274

H285 H297

R367 R381

R388

H252 H254

H258 H283

H290 H291

H311 R368

Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen I

Similarity

1.0 0

XLstat©

Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen II

Lucia D®, LaboratoryIMaging

Lucia D®, LaboratoryIMaging

Abschätzung der katabolischen Vielseitigkeit von Bodenpilzen aus der Verteilung aromatenspezifischer Vermehrungseinheiten (CFU)

Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald (W) und Haldenboden (H), ub = unbelastet, b = belastet.CFU = colony forming units.

H b

2H

b1

H b

3W

ub3

W u

b2

A w

b3A

b3A

b2A

b1A

wb2

W u

b1

A w

b1

0

20

40

60

80

100

120

Dis

tanz

0,0

0,5

1,0

1,5

2,0

2,5

Acker wb Acker b Wald ub Halde b

Kat

abol

isch

e Vi

else

itig

keit

CFU

Abschätzung der katabolischen Vielseitigkeit von Böden durchVerrechnung der reziproken Abbauzeiten aromatischer Säuren

Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald (W) und Haldenboden (H), ub = unbelastet, b = belastet.

H b

3H

b2

H b

1A

b3A

b2A

b1W

ub3

W u

b2W

ub1

A w

b3A

wb2

A w

b1

0

20

40

60

80

100

120D

ista

nz0,0

0,5

1,0

1,5

2,0

2,5

Acker wb Acker b Wald ub Halde b

Kat

abol

isch

e Vi

else

itig

keit

Resp

irom

etrie

Ähnlichkeit [%]

Vergleich der Pilzvielfalt von Rhizosphären und EndophytenGemeinschaften bei Raps und Erdbeere am Standort BS (DGGE)

DGGE: Denaturierende Gradienten Gel ElektrophoreseSuperSt.: BandenStandard, bestehend aus 11 PilzisolatenBS6: 6. Probenahme BSW1,3,6,8: Wurzelproben RapsW2,4,5,7: Wurzelproben ErdbeereE: Endophytische PilzeR: Rhizosphärische Pilze

WardMethode

GelCompar®

Im Dendrogramm gesamte Gruppierungs information enthalten Problem: Findung geeigneter Clusterebene

WardMethode als Einstieg: sehr gut

Problem: enormer Arbeits + Zeitaufwand, daher meist nur Annäherungen möglich bei 10 Objekten 115 975 verschiedene Möglichkeiten

Zusammenfassung

Hierarchische Verfahren Nichthierarchische Verfahren (Partitionierendes ClusterVerfahren, Clusterzentrenanalyse)

Start feinste Partitionierung, Vorgabe Startgruppierungjedes Objekt = 1 Cluster

Clusterbildung Fusionierung von Clustern Verschieben/Sortieren der Objekte

Ziel Kriterium erfüllt Kriterium erfüllt

Testung verschiedener Verfahren empfohlen

Gefahr der geschönten Darstellung von Daten

bzw. Verzerrung

Korrekter Vergleich des Artenreichtumsvon Stichproben durch rarefaction

0

10

20

30

40

50

60

70

0 25 50 75 100 125 150 175Zahl der Isolate

Zahl

der

Bil

dtyp

en

unbelastetbelastet

= 49,75

= 38,81

Artenreichtum:

Diversität: ShannonIndex (Shannon und Weaver, 1963)

= Vielfalt; Artenzahl in Lebensgemeinschaft,

wobei S = Zahl der Arten (Bildtypen) N = Zahl der Individuen (Isolate)

ni = Zahl der Individuen je Art bzw. Bildtyp, = Bedeutungswert der Art.

evenness: (Pielou, 1966)

= Gleichmäßigkeit der Verteilung (z.B. von Arten, katabol. Fähigkeiten),

wobei = ShannonIndex, A = Zahl der angebotenen Substrate.

Ökologische Indices

ni

N

d=SN

e=H

log A

H

H=−∑ ni

N × log ni

N

Beispielrechnung Diversität und evenness

Modelle gleicher Arten und Individuenzahl, aber unterschiedlicher Arten

IndividuenzahlBedeutung log Bedeutung Produkt

3 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01115 1 0,0048 2,3222 0,01115 2 0,0095 2,0212 0,01926 2 0,0095 2,0212 0,01926 3 0,0143 1,8451 0,02647 3 0,0143 1,8451 0,02648 4 0,0190 1,7202 0,03289 5 0,0238 1,6232 0,03869 6 0,0286 1,5441 0,0441

10 8 0,0381 1,4191 0,054112 9 0,0429 1,3680 0,058613 12 0,0571 1,2430 0,071014 14 0,0667 1,1761 0,078415 17 0,0810 1,0918 0,088417 22 0,1048 0,9798 0,102619 26 0,1238 0,9072 0,112321 33 0,1571 0,8037 0,126323 40 0,1905 0,7202 0,1372

Summe N 210 Diversität (Summe) 1,0799n = 20 log Artenzahl (20) 1,3010

0,8301

verteilung: Berechnung von Diversität und evenness

ni ni ni/N log (ni/N) (ni/N) log (ni/N)

e = 0,95 e = 0,83 evenness (D/log AZ)

Abbauzeit [h] Bedeutung log Bedeutung Produkt

19 0,0244 1,6131 0,039322,3 0,0286 1,5436 0,044223 0,0295 1,5301 0,0451

51,5 0,0661 1,1801 0,078021,8 0,0280 1,5534 0,043459,5 0,0763 1,1174 0,085344 0,0564 1,2484 0,0705

30,3 0,0389 1,4104 0,054831,5 0,0404 1,3936 0,056334,3 0,0440 1,3566 0,059730,5 0,0391 1,4076 0,055164,3 0,0825 1,0837 0,089440,3 0,0517 1,2866 0,066548,3 0,0620 1,2079 0,074833 0,0423 1,3734 0,0581

32,3 0,0414 1,3827 0,057310,8 0,0139 1,8584 0,025741,3 0,0530 1,2759 0,067648,8 0,0626 1,2035 0,075359,8 0,0767 1,1152 0,085533 0,0423 1,3734 0,0581

Summe F 779,6 Diversität (Summe) 1,2901n = 21 log 21 1,3222

0,9757

fi fi/F log (fi/F) (fi/F) log (fi/F)

evenness (D/log 21)

Documents

Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte