22
Применение кластерного анализа: проблемы В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в нескольких дисциплинах (психология, биология, экономика…), поэтому у большинства методов, существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания. Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также – согласования между ними. Дело в том, что зачастую, отличия в предпосылках использования той или иной метрики весьма невелики, кроме того, не всегда выбор метрики однозначно определяет допустимый метод кластеризации. В такой ситуации для выбора конкретной комбинации «метрика-метод» следует опираться на «рекомендации», которые приходится по крупицам собирать в различных источниках, а также на «здравый смысл». Понимание последнего приходит только после того, как в деталях разберешься в тонкостях каждого конкретного метода и метрики. Обратим внимание также на то, что само понятие «кластер» неоднозначно определено. Да и в однозначном определении нет необходимости – в каждом конкретном исследовании «кластеры» свои. Как правило, руководствуются следующей рекомендацией: внутренняя однородность и внешняя изолированность. Методы кластеризации Выделяют две группы методов кластерного анализа: иерархические и неиерархические. Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Наиболее универсальным является последний. Существуют также центроидные методы и методы, использующие медиану, но Сниат и Сокал 1973 аккуратно показали, что их применение может привести к некоторым весьма нежелательным последствиям. Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правило

Применение кластерного анализа

Embed Size (px)

Citation preview

: , (, , ), , 2 , , , . , . , , , , . , , . , . , . . , : .

: . , , . . , , 1973 , . , . , . , , . , . -. , . , , , .

, , , : . . .

, :

, , . . , , , . . , , . , : . , , . ( , , 90% ).

, , . :

1.

2.

,

3. . ,

4. , , , , , . . , . , , . -, - - . -, , . , . . , - . , ( , , , ) , .

, , .

, , , (, ). , , . .

, , , . . , "", 1979 . "" . : , "" . , , "" , , ..

[9, 118] ( ) ( ), "" ( 1).

:

1. . , , , . , , ,

, , [3].

2. . "" , , , , , .

3. . .

4. - , , . , .

, :

1.

2. : , . , , , , , , , . , .

2 : (.. ) ( , ).

, , , , k- ( k-means). , . k . , k-. , . ( ) , , .

, , .. , . .. , .

k- , .. , . . , k, . PAM (partitioning around metoids).

ISODATA. , .. , , . . , .

.

, , ..

, k- .

. .

-, - , . .

, (, ). , , . , . , , . , . , , (Hierarchical Cluster Analysis).

, . , , : , ,

, ; , ; .

, , : 1. . : ) ; ) , ; ) , . 2. , . - , , . , (). 3. . , : . 4. . . , . , , . 5. .

, :

) ;

) () .

. , , .

, , , G m (m ) () Q1, Q2, , Qm, , Gj

, , , , , .

, G n , (F1), 1 (F2), (F3), (F4) .. 1 ( ) , 2 - , 3 , .. , .

, . , , . , :

xj - j- .

.

, i- j- , () i j , . , i j , - - . d(i , j) (), :

) d(i , j) 0, i j

) d(i, j) = 0, , i = j

) d(i, j) = d(j, i)

) d(i, j) d(i, k) + d(k, j), j; i k - .

d(i, j) i j i j Gi Gj (F1, F2, F3, ..., F).

:

1.

d2(i , j) 2. l1 -

=

d1(i , j) = 3. d (i , j) = sup k = 1, 2, ..., 4. lp

d(i , j) = . l1 . - , lp - 1, 2, 3,.

n 1, 2,..., n p n:

d(i , j) :

, , Gi. Gj. S(i ; j) = Sij , :

1) 0 S(i , j)