57
学科门类: 事学 单位代码:90009 中图分类号:TP391 级:公 开 硕士研究生学位论文 数据场聚类及其实现 一级学科: 学科专业: 研究方向: 指挥自动化理论与技术 培养院所: 指挥自动化学院 生: 指导教师: 中国人民解放理工大学 ○○三年三月

数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

  • Upload
    others

  • View
    24

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

学科门类: 军事学 单位代码:90009

中图分类号:TP391 密 级:公 开

硕士研究生学位论文

数据场聚类及其实现

一级学科: 军 队 指 挥 学

学科专业: 军 事 通 信 学

研究方向: 指挥自动化理论与技术

培养院所: 指挥自动化学院

研 究 生: 赵 卫 伟

指导教师: 李 德 毅

中国人民解放军理工大学

二○○三年三月

Page 2: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

硕士研究生学位论文

数据场聚类及其实现

研 究 生: 赵 卫 伟

指导教师: 李 德 毅

中国人民解放军理工大学

二○○三年三月

Page 3: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

Data Field Clustering and Implementation

A THESIS SUBMITTED TO

PLA UNIVERSITY OF SCIENCE AND TECHNOLODGE

FOR THE DEGREE OF MASTER

Author: Zhao Wei-wei

Supervisor : Prof. LI De-yi

Beijing, March 2003

Page 4: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

I

摘 要

目前随着人工智能和数据挖掘技术的不断深入,数据挖掘技术中的

聚类分析也得到了不断的发展,特别是随着各种数据源的大量涌现,如图

像数据,文本数据,DNA 数据,时间序列数据,Web 数据等等,聚类分

析越来越受到重视,对聚类的研究已经成为数据挖掘领域中一个非常活跃

的研究课题。

本论文提出了一种新颖的数据聚类方法――数据场方法,论文着眼于

数据聚类问题,从聚类问题的机理出发,分析人类的聚类行为,认为人类

的聚类行为是一个动态聚类,这种动态性体现在人类可以从不同的观察角

度来观看同一堆数据,从而得到不同的聚类结果。将人类的这种聚类行为

建立在发现状态空间理论上,分析该空间中概念子空间和特征子空间内不

同客体之间的非线性相互作用,引入物理学中场论的思想,产生了数据场

方法。论文以数据场方法为理论基础,利用面向对象编程技术完成了一个

聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任

意形状聚类、抗噪声等优点,将数据场方法应用于实际的网络入侵检测中,

可以克服以往训练数据中存在有入侵数据的问题。

关键词:聚类 发现状态空间 数据场 面向对象编程

Page 5: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

II

ABSTRACT

As data mining is under vigorous development, data clustering has

been made progress markedly. Recently many data resources have

been brought out, such as image data, text resource, time series data, DNA data and Web document resource, which drives the research of

data clustering field, Currently clustering is a challenging research field .

A novelty data clustering method , data field , is brought out in the

thesis. We focus on the problem in data clustering, and study the

mechanism of data clustering. By investigating the clustering action of

human being, we find out that it is a dynamic process, human being can

observe the same data at different point of view and reach different

conclusion. The data field method is based on discovery state space

theory and field theory in physics, which analysis the nonlinear

interaction of different objects in attribute subspace or feature subspace.

This thesis takes data field method as footstone, and utilize Object

Oriented programming to accomplish a clustering software. Using this

clustering software, we validate the efficiency of this method by four

instances: arbitrary shape clustering, data clustering with large noises,

classify Iris data set and intrusion detection in network environment.

Keywords: data clustering, discovery state space, data field, Object

Oriented programming

Zhao Wei-wei

Directed by Prof. Li De-yi

Page 6: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

III

目 录 第 1章 前 言 … … … … .… … … … … … … … … … … … … … … … … … .1

1.1 研究背景 … … … ..… … … … … … … … … … … … … … … … … … ...1

1.2 论文的研究范围和主要内容 … … … … … … … … … … ...… … … ..2 1.3 论文的基本结构 … … … ...… … … … … … … … … … … … … … … ..3

第 2 章 聚类研究的重要性 … … … … … … … .… … … … … … … … … … … .4

2.1 引言 … ...… … … … … … … … … … … … … … … … … … … … … … ..4

2.2 聚类分析的衡量标准 … … … … … … … … … … … … … … … … … .5

2.3 主要的聚类方法 … … ..… … … … … … … … … … … ...… … … … … 6

2.3.1 划分方法聚类 .… ..… … … … … … … … … … … … … … … … … 6

2.3.2 层次方法聚类 .… ..… … … … … … … … … … … … … … … … … 7

2.3.3 基于密度聚类 … … … … ...… … … … … … … … … … … … … … 8

2.3.4 基于模型聚类 … . . . … … … … … … … … … … … … … … … … … 8

2.4 本章小结 … … … … … … … … … … … … … … ...… … … … … … ..… 9

第 3 章 基于数据场的聚类方法 … … … … … … … … … … … … … … … … 10

3.1 引言 … … … … … … … ..… … … … … … … … … … … … … … … … .10

3.2 发现状态空间 … … … … … ..… … … … … … … … … … … … … … .10

3.2.1 概念空间 … .… … … … … … … … … … … … … … … … … … … 12

3.2.2 特征空间 … .… … … … … … … … … … … … … … … … … … … 12

3.2.3 信息粒度 … … … … … … … .… … … … … … … … … … … … … 13

3.3 数据场和数据场聚类 … … … … … … … … … ...… … … … … … … 14

3.3.1 数据场的基本思想 … .… … … … … … … … … … … … … … … 14

3.3.2 数据场的聚类算法 … … … … … … … … … … … … .… … … … 15

3.4 数据场应用举例 … … … … … … ...… … … … … … … … … … … … 15

3.5 参数讨论 … … … … . . . … … … … … … … … … … … … … … … … … 16

3.5.1 辐射因子σ ...… … … … … … … … … … … … … … … … … … 16

3.5.2 等势线间距ξ … ..… … … … … … … … … … … … … … … … … 17

3.6 数据场与支持向量机、非参数统计之间的关系… … … … ...… … 18

3.7 本章小结 … … … … … … … … … … … … … … … … … … … … ...… .19

第 4 章 数据聚类仪的设计和实现 … … … … … … … … … … … … … … .… 20

Page 7: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

IV

4.1 引言 … … … … … … ...… … … … … … … … … … … … … … . … … .20

4.2 设计方案 … … … … … … … … … … … … … … … … … … … … … .21

4.2.1 数据读入和预处理模块 ...… … … … … … … … … … … … … 21

4.2.2 数据场运算模块 … ...… … … … … … … … … … … … … … … 22

4.2.3 数据场显示模块 … ...… … … … … … … … … … … … … … … 23

4.2.4 软件结构 … … … … … … … … … … … … … ...… … … … … … 23

4.3 设计关键技术 … … … … … … … … … … … … … … … … … … … .24

4.3.1 等势线绘制算法 … ...… … … … … … … … … … … … … … … 24

4.3.2 三维曲面的绘制 … … … … … … … … ...… … … … … … … … 25

4.4 聚类仪的具体实现 … … … … … … … … .… … … … … … … … … 26

4.5 本章小结 … … … … … … … … … … … … … … … … … … … … … .29

第 5 章 数据聚类仪应用 … … … … … … … … … … … … … … … … … ..… 30

5.1 引言 … … … … … … … … … … … … … … … … … … … … … … … .30 5.2 应用 1:发现任意形状的聚类 … … … … … … … … … … … … … .30

5.3 应用 2:抗噪声聚类 … … … … … … … … … … … … … … … … … .32

5.4 应用 3:Iris 数据聚类 … … … .… … … … … … … … … … … … … ..33

5.5 应用 4:入侵检测 … … … … … … … … … … … … … … … … … … ..36

5.5.1 提取聚类中心 … ...… … … … … … … … … … … … … … … … 37

5.5.2 提取运动路径 … … … … … … … … … ...… … … … … … … … 37

5.5.3 检测算法 … … … … … … … … … … … … … … … … … ...… … 39

5.6 本章小结 .… … … … … … … … … … … … … … … … … … … … … 41

第 6 章 结束语 … … … … … … … … … … … … … … … … … … … ..… … … 42

6.1 全文总结 … … … … … … … … … … … … … … … … … … … … … .42

6.2 今后的工作 … … … … … … … … … … … … … … … … … … … … .42

参考文献 … … … … … … … … … … … … … … … … … … … … ...… … … … .44

研究生期间发表的论文 … … … … … … … … … … … … … ...… … … … … .49

致 谢 … … … … … … … … … … … … … … … … … … … … ...… … … … .50

Page 8: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

1

前 言

1.1 研究背景

随着社会的发展,数据量急剧膨胀,数据的时效性和复杂性远远超过

了当前的信息处理能力。信息化和全球化是二十一世纪的最大特征,在网

络技术的推动下,近十几年来,人们生产和搜集数据的能力大幅度地提高,

而数据获得和生产能力大大超过数据处理的能力。在数据生产、传输能力

远远大于数据分析能力的今天,人们被数据淹没,人们却饥饿于知识。于

是一个新的口号出现了:“要学会抛弃信息”。人们不再仅仅满足于简单地

获得数据,而希望摆脱繁琐的数据处理、分析,直接获得较高层次上的信

息——知识。数据开采和知识发现(Data Mining and Knowledge Discovery)

技术也因此应运而生,并蓬勃发展,越来越显示出强大的生命力。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、

随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用

的信息和知识的过程。这个过程从大量的数据中挖掘出人们感兴趣的知

识,把人们对数据的应用从低层次的末端查询工作提高到为各级经营决策

者提供决策支持。

还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、

数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作

是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,

如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,

甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可

以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用

于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的

维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研

究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的

学者和工程技术人员。

KDD一词首次出现在 1989年 8月举行的第十一届国际联合人工智能

学术会议上。到目前为止,由美国人工智能协会(AAAI)主办的 KDD国际研讨会已经召开了八次,规模由原来的专题讨论会(Workshop)发展

Page 9: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

2

到国际学术大会,由二三十人发展到六七百人,研究重点也逐渐从发现方

法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的

相互渗透。其它各内容的专题会议也把数据开采和知识发现列为议题之

一,成为当前计算机科学界的热点。

特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是

面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观

乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现

事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖

掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知

识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事

物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;

预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示

事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发

现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同

层次决策的需要。数据挖掘的各项实用技术成为进一步研究的热点,而时

间序列数据、空间数据、Web 数据、多媒体数据挖掘等都成为其重要组成

部分。

本论文主要讨论数据挖掘技术中的聚类研究,聚类分析能够发掘数据

内在的分布模式,既可以作为一种挖掘手段,也可以作为一种预处理技术。

本论文的研究工作得到了下列研究课题的支持:

Ø 国家自然科学基金资助项目——数据开采中的知识表示和知识发现

方法研究,项目编号:69975024。

Ø 国家重点基础研究发展规划(973 计划)—— 数据开采和知识发现

的理论与方法研究,项目编号为:G19980305084。

1.2 论文的研究范围和主要内容

本论文提出了一种新颖的数据聚类方法――数据场方法,并使用该方

法完成了一个聚类软件。论文着眼于数据聚类问题,从聚类问题的机理出

发,分析人类的聚类行为,认为人类的聚类行为是一个动态过程,这种动

态性体现在人类可以从不同的观察角度来观看同一堆数据,从而得到不同

的聚类结果。将人类的这种聚类行为建立在发现状态空间理论上,分析该

Page 10: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

3

空间中概念子空间和特征子空间内不同客体之间的非线性相互作用,引入

物理学中场论的思想,产生了数据场方法。

本文的研究内容主要包括以下几个方面:

1. 数据场:提出了数据场的概念,对数据场的定义、各参数的意义

都作了详细的探讨。

2. 使用数据场方法设计一个交互式的聚类软件,该聚类软件提供对

一维数据、二维数据的可视化聚类,提供多种数据场势函数形式

方便用户的选择。

3. 利用该工具对数据进行聚类,验证数据场聚类方法的有效性。

1.3 论文的基本结构

论文由四部分构成:

第一部分:绪论 第一部分由前两章组成,概要地阐述了论文的基本情况和技术背景。

其中,第一章介绍了研究背景以及论文的主要研究内容和基本结构,第二

章综述了当前的研究现状、主要技术以及面临的主要问题,并提出了解决

策略。

第二部分:数据场和数据场聚类仪的设计

第二部分包括第三章和第四章,该部分是本论文的主要部分。第三章

引入了本论文的理论基础――数据场方法,该章介绍了发现状态空间理

论,给出了数据场的定义,并讨论了影响数据场聚类的两个主要参数,以

及和支持向量机、Parzen窗理论的联系和区别。第四章介绍数据场聚类仪

的实现方案,以及设计过程中的关键技术。

第三部分:数据场聚类仪的应用

第三部分即第五章,介绍了数据场的应用,包括 5.2 节对任意形状的

聚类;5.3 节对带噪声数据的聚类;5.4 节使用聚类方法对分类数据进行聚

类――Iris 数据聚类;5.5 节将数据场聚类用于网络入侵检测。

第四部分:结束语

最后,论文的第四部分即第六章对全文做了总结,列举了论文的主要

研究内容和贡献点以及数据场的主要优势,并探讨了进一步研究的方向。

Page 11: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

4

第2章 聚类研究的重要性

2.1 引言

数据聚类是数据挖掘中一个重要的手段。数据聚类是根据数据之间的

“相似程度”将数据划分成不同的数据集合,使得这些数据集合内部对象

之间相似度大,而数据集合之间的差别大。聚类问题是无指导学习的,它

同分类问题最大的不同就是:在分类问题中,我们知道训练样例的分类属

性,而在聚类中,需要我们在训练例中找到这个分类属性。

聚类分析是人类的一个重要行为。人类就是不断通过改进意识中的聚

类模式来识别各类事物的。目前聚类分析已经广泛应用于包括模式识别、

数据分析、图像处理、市场分析等领域,通过聚类分析,我们能识别密集

和稀疏的区域,进而发现全局的分布模式,以及数据属性之间有趣的相互

关系。例如在市场分析中,聚类能够帮助市场分析人员从客户的基本信息

中获取各类不同的用户群,从而指导市场营销的策略;在模式识别上,通

过聚类可以提取不同模式之间的共性特征,然后利用这些特征,用于识别

同类模式和不同类模式;在生物信息学中,聚类可以指导生物的分类,可

以通过对基因进行分类,获取对不同种群生物的特征的认识。聚类分析在

空间数据挖掘、web 文档分类、离群点检测等方面也发挥着重要的作用。

目前随着人工智能和数据挖掘技术的不断深入,聚类分析得到了不断

的发展,特别是随着各种数据源的大量涌现,如图像数据、文本数据、

DNA 数据、时间序列数据、Web 数据等等,对聚类的研究已经成为数据

挖掘领域中一个非常活跃的研究课题。本章将主要介绍目前聚类分析的各

种方法和新技术,并给出了衡量聚类能力的主要指标。

聚类分析既可以作为其它算法的预处理过程,这些算法对聚类处理后

的数据进行分析,它又能够作为一个独立的工具获取数据分布的情况,观

察各个簇的特点,然后集中对特定的某些簇做进一步分析,本论文就是将

聚类作为一种独立的工具进行研究和设计的。

Page 12: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

5

2.2 聚类分析的衡量标准

在人工智能和数据挖掘领域中,存在着大量将数据进行划分的问题,

这些问题常常是没有先验知识的,这些问题的解决都需要聚类分析的参

与,随着大量、不同类型数据的涌现,对聚类分析的能力也提出了挑战,

下面是评价聚类分析能力的几个衡量标准[韩 01]:

1) 处理大量数据的能力:许多聚类算法在小于 200 个数据对象的小

数据集合上工作很好,但是随着数据对象的增加,这些聚类算法

的处理能力就会下降,因此一个好的聚类方法需要处理大量数据

集合。

2) 处理不同类型数据的能力:当前的聚类算法一般只是针对某种数

据类型,但是聚类作为一种分析工具,应该能够为不同类型数据

进行分析,从而提供一个较普适的模型。

3) 能够发现任意形状聚类的能力:许多聚类算法采用欧氏距离来决

定相似度,这种度量方式趋向于发现球(超球)簇,而现实中有

着大量各类形状的簇,因此需要聚类能够发现任意形状的簇。

4) 处理噪声的能力:现实的数据中不可避免的存在各类噪声,这些

噪声的出现不应该对聚类产生较强的影响,但是有些聚类算法对

噪声是敏感的,所以导致了较差的结果。

5) 处理高维数据的能力:当前的数据集合具有各类不同属性,这就

使得数据处于高维空间中,人们对于三维以下的数据聚类情况能

够较好的判别聚类结果的好坏,但是在高维情况下,考虑到数据

分布可能很稀疏,而且高度倾斜,所以聚类这样的数据对象是一

个具有挑战性的课题。

6) 聚类结果的可解释性:聚类是为分析数据服务的,人们期望通过

聚类从数据中抽取给出某种特定语义的解释,也就是聚类的结果

应该是可解释的,可理解的和可用的。

以上六条标准是衡量聚类能力的几个主要指标,当然还有其它的衡量

Page 13: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

6

标准,如基于约束的聚类、聚类参数领域知识的最小化等等,本论文主要

使用以上六条衡量对数据聚类仪进行评价。

2.3 主要的聚类方法

目 前 主 要 的 聚 类 方 法 可 以 划 分 为 四 种 类 型 : 划 分 方 法

[Mac67,KR90,Hua98],层次方法 [ZRL96,KHK99],基于密度的方法

[EKSX96,ABKS99,HK98],基于模型的方法。该小节除了回顾经典的聚类

算法,还对近几年内出现的聚类算法进行了介绍。

2.3.1 划分方法聚类

划分方法的聚类将给定集合 X 内 n个数据对象划分到 k 个集合中去,

使得集合内部的相似度大,集合之间的相似度小。相似度的定义是划分的

关键,一般是定义形如以下的目标函数,采用启发式方法使得目标函数值

最小,当然最小是很难达到的,一般是较优的解。

∑∑= =

−=K

k

N

nnknk xxdu

NJ

1 1

2 )(1

其中 k 为要聚类集合的个数, nku 是第 n个数据点隶属于第 k 个集合

的程度, kx 是第 k 个集合的中心点, nx 是第 n个数据点, d 是距离函数。

最为经典也是最常用的划分聚类算法是 k-平均算法和 k-中心点算法,

k-平均算法是让 ∑=

=KK

iik xx

1

, 1=nku ,其中 KK 是第 k 个聚类中数据的个数。

而 k-中心点算法是不断更新类中心点 kx ,使得 kx = optx , Xxopt ∈ 更新的

原则是使代价函数减小。这两种算法适用于发现凸面形状的簇,在抗噪声

能力上 k-中心点算法比 k-平均算法有更好的效果,但是执行代价也比 k-

平均算法要高,此外这两种方法都要用户事先制定聚类的个数 k。

Page 14: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

7

经典的划分聚类算法在数据量少的情况下工作良好,但是在大数据量

情况下效率很低,为了适应大数据量,提出了基于主存的算法,该算法根

据数据点隶属于簇的程度识别数据的三个区域:可压缩的区域,必须在主

存中区域,可废弃的区域,这样就将基于二级存储的算法变为基于主存的

算法。

目前出现很多划分算法的加强算法,例如改进 nku 的值,使得

]1,0[∈nku ,这样就出现了模糊划分聚类算法,还有一种基于 KPCA 的划

分聚类算法,该算法通过核函数将数据空间映射到特征空间,在特征空间

使用划分聚类的目标函数进行聚类,由于特征空间的维数高于数据空间的

维数,有时甚至是无穷维的,所以要对特征空间上的数据进行分析主成分,

从而实现降维的目标,该算法能够发现各类形状的簇,解决了划分聚类只

能处理凸面簇的缺点。

2.3.2 层次方法聚类

层次方法对给定数据集合进行层次的分解。根据分解的方法可以分为

凝聚的层次方法和分裂的层次方法,这两种方法只是分解的策略不同,其

基本思想是相同的。层次聚类困难在于如何制定一个合并或者分裂的标

准,因为一旦合并或者分解,下一步操作是在这个基础之上进行的,所以

一旦前一步聚类稍微有偏差,可能聚类的效果就会很差,这就是所谓“差

之毫厘,谬以千里”。如何改进这种算法的质量,一个较好的方法就是将

其它聚类技术集成到层次聚类里面来,这就引起了 BIRCH[ZRL96],

CURE,ROCK,Chameleon[KHK99]等算法的出现。BIRCH算法采用 CF

树结构对对象进行层次划分,然后采用其它聚类算法对聚类结果求精,但

是该算法只能处理球形簇,为了解决 BIRCH这个缺点,提出了 CURE 算

法,CURE 采用了一种新颖的层次聚类思想,选择基于质心和基于代表对

象方法之间的中间策略,不采用单一的对象来代表一个簇,而是选择数据

空间中固定数目的、具有代表性的对象来代表簇,代表点是通过簇中分散

对象,通过收缩因子来得到的,可以看出 CURE 方法采用了模拟物理现

象的方法来选择簇中的代表点。ROCK 算法是一个凝聚层次聚类算法,它

Page 15: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

8

通过聚类的互连性和用户定义的阀值来合并两个簇,聚类的互连性定义为

两个簇交叉链的数量。Chameleon算法扩展了 ROCK 的互连性的思想,定

义相对互连性和相对近似性来决定两个簇的形似度,该算法在发现任意形

状的聚类与 CURE 算法相比具有更强的能力。最近出现了 SyMP 算法,

该算法进一步发展了 CURE 的思想,它不是采用固定的数据点来代表簇,

而是使用一个正态分布来代表簇,该算法采用了基于主存的算法,在大数

据量,任意形状的聚类中产生了良好的效果。

2.3.3 基于密度聚类

基于密度的算法是为了解决任意形状的聚类而提出并发展起来的,这

类方法将簇看成是被低密度空间分割的高密度对象区域。较为经典的基于

密 度 的 聚 类 算 法 是 DBSCAN[EKSX97] , OPTICS[ABKS99] ,

DENCLUE[HK98]算法,下面对这三种基于密度的算法原理进行阐述。

DBSCAN 将高密度的区域划分为簇的聚类方法,它定义了一个数据

点的ε 邻域和核心对象, ε 邻域是指在半径 ε 内的数据点,如果一个数据

的ε 邻域内至少含有 MinPts 个数据那么称该数据为核心对象,定义密度

可达和密度相连的定义,那么一个数据簇就是基于密度可达的最大密度相

连的对象的集合。使用该方法有一个缺点就是对参数的设置是敏感的,为

了解决这个问题,提出了 OPTICS 算法。在真实的数据中,数据密度的分

布是不均匀的,单靠一个密度参数来衡量数据空间中的密度分布是远远不

够的,所以 OPTICS 采用了两个参数来衡量一个数据周围的密度。一个是

核心距离,该距离是使得该数据成为核心数据的最小ε ,另一个是可达距

离,是指该数据相对于一个核心数据的距离,OPTICS 创建数据库中对象

的一个次序,存储每个对象的核心距离和一个适当的可达距离,基于次序

信息提取聚类。DENCLUE 是一个基于一组密度分布函数的聚类算法,该

算法用数据函数描述每个点的影响,并通过确定密度吸引点来确定聚类。

2.3.4 基于模型聚类

基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适

应度。基于模型的聚类方法主要有:统计学习方法、神经网络方法和小波

Page 16: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

9

变换聚类。

统计学习聚类是采用统计学理论进行的聚类算法,在决定聚类时使用

概率度量,概率描述用于描述导出的度量。COBWEB[FIS87]就是一种使

用统计方法进行聚类的算法,它的输入对象使用分类属性-值来描述,并

以一个分类树的形式创建层次聚类。分类树中的每个节点对应一个概念,

包含了概念的一个概念描述,使用分类树对一个对象进行分类,采用了一

个部分匹配函数来沿着“最佳”匹配节点的路径在树中向下移动。

神经网络方法是将每个簇描述为一个标本,标本作为聚类的“原型”,

不一定对应一个特定的数据,根据某些距离度量,新的对象被分配到与其

最相似的簇中,比较著名的神经网络聚类算法有:竞争学习和自组织特征

映射。神经网络的聚类方法需要较长的处理时间和复杂的数据复杂性,所

以不适用于大型数据的聚类。

小波变换聚类是使用信号处理中小波变换技术,将数据变换到以不同

分辨率层次下数据之间相对距离构成的空间中,然后在这个空间中寻找高

密度区域完成聚类。小波变换聚类能够抗噪声的影响,并具有运算速度快

等特点,所以该算法能够处理带噪声的大型数据库。

最近出现了一些新的模型聚类算法,如使用 SV(支持矢量)方法的

聚类算法,该算法将数据空间变换到高维特征空间中,使用核函数计算高

维空间中数据相似度。还有一些算法采用模拟方法进行聚类,如

SPC(SuperMagnet cluster)算法模拟物理中磁性体在不同温度下吸引情况

来完成聚类,SyMP 算法模拟 IF(Integrate-and-Fire)振荡器自组织特性

来完成聚类等等,这些算法的出现为聚类算法带来了新的思想。

2.4 本章小结

本章中我们介绍了数据聚类的目的和重要性,然后给出了衡量一个聚

类算法好坏的判别标准,最后介绍了当前数据挖掘中主要的聚类方法,并

对它们聚类的基本思想进行了阐述,指出了各自的长处和缺点,从下章开

始我们将介绍一种新颖的数据聚类算法,该算法具有较好的聚类特性。

Page 17: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

10

第3章 基于数据场的聚类方法

3.1 引言

聚类是将数据对象按照其相似程度分成多个类或簇,在同一个簇中的

对象之间具有较大的相似度,而不同簇之间的对象之间差别较大,因此如

何衡量对象之间的相似度,是关系到聚类效果的重要因素。目前的很多聚

类算法都是从建立对象之间的相似度模型来进行聚类的,一旦聚类对象之

间的相似度衡量标准建立了,那么对象的聚类也就完成了,例如划分聚类

中的目标函数,基于密度聚类 DBSCAN 中的ε 邻域和核心对象,基于模型

聚类中使用的数学模型等等,但是现实世界中人类的聚类行为并不象这些

聚类算法那样,人类的聚类行为是一个动态的过程,这种动态性体现在人

类可以从不同的观察角度来观看同一堆数据,从而得到不同的聚类结果,

这就好像是地图中使用的比例尺一样,同一个地区,可以使用不同的比例

尺来看,但这个地区在不同比例尺下的表现形式是不一样。虽然目前的层

次聚类算法考虑到了人类聚类行为的层次,但是它在聚类的过程中还是使

用了传统的聚类方法来实现簇之间的凝聚和分离,所以我们需要一种能够

模拟人类这种动态聚类的算法,本章主要介绍基于数据场的聚类方法,该

方法从数据挖掘的机理出发,在发现状态空间理论基础上将物理学中场理

论思想引入聚类,从而产生了数据场聚类。

3.2 发现状态空间

发现状态空间[李 94]是发现系统实施多种发现算法的运作空间,在

一个平面基底—知识基上逐步抽象。知识基是原始数据库经数据汇集处理

后得到的二维表。它汇集了原始数据库中和发现任务相关的所有数据的总

体特征, 是知识发现状态空间的基底,也可以认为是最初始的知识模板。

状态空间三个方向轴的含义:属性方向—对属性之间关系的认识和发现;

宏元组方向—对各宏元组之间一致性和差异性的认识和发现;知识模板方

向—反映属性值的概念粒度的增大。如果概念层次上升,则从微观逐步到

宏观,知识模板上升到抽象级别更高的知识模板。数据挖掘和知识发现的

Page 18: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

11

过程,就是在特征空间的不同属性值,随着每个属性中的原始数据值用该

属性的概念空间中不同粒度的概念表示,而带来的特征空间中客体的整体

分布的变化形态和各种组合状态。例如,呈现出不同的聚类特性和类谱系

图;又例如,属性之间呈现出不同的关联规则。从较细的粒度世界跃升到

较粗的粒度世界,是对客体群的抽象,可以使问题简化,数据处理量大大

减少,这一过程称为数据简约或归约。因为不同的属性的泛概念层次树是

不同的,因此,客体群组合状态是多种多样的,通常可以由发现任务去决

定。

随着抽象度的提高,属性方向和宏元组方向的概括性也就增大,知识

模板的物理尺寸就越来越小。具有平面特性的这种知识基随着归纳(抽象

级)的提高,可以按照发现任务在作不同的组合、浓缩。每一个中间状态

的知识基都对应着一个归纳空间表,它是在这一抽象级别上知识和知识属

性的几何表示。整个归纳过程形成归纳状态空间。在归纳的过程中,总是

会有用其粒度较低的概念描述的一些客体无法被归纳进去,而成为离群体

和例外的情况存在,所以每次概念提升都会有一些特殊情况。因而在整体

上始终可表示为“规则加例外”。图 3-1 表示发现状态空间中知识归纳的

过程,用离散的线条表示相应层次上的例外。

图 3-1 发现状态空间示意图

属性方向

元组方向

模版方向

Page 19: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

12

人类的认知过程是对复杂对象关系的中观、宏观的知识发现过程,是

对象所在的特征空间的微观数据通过用自然语言表述的不同抽象度概念

的非线性相互作用下涌现(突现)的自组织特性。因此发现状态空间=概

念空间+特征空间,特征空间中的每个属性值与该属性的概念空间相联系。

3.2.1 概念空间

概念空间是指同一类概念的数域。例如,当讨论语言变量—年龄这个

范畴内的不同语言值时,如 10 岁左右、少年、青少年、中年、晚年等等

概念,常常要明确它们在数域上所表现出的内涵和外延,以及相互之间的

等价(相似)关系或从属(包含)关系。因此,不同信息粒度之间的概念

在概念空间会形成层次的结构。

一个基本概念反映出来的信息粒度,可以用这个概念的云[李 95]的

数字特征——期望值、熵和超熵来度量。期望值反映了云图的中心坐标位

置,熵反映了云团的大小,用来作为信息粒度的度量单位,超熵反映了云

团的抱团程度,用来作为云滴凝聚程度的度量。显然,“中年人”的熵比

“30 岁左右”的熵要大,也就是说“中年人”的信息粒度比“30 岁左右”

大。

通常情况下,分布在概念空间的许许多多云滴形成概念空间的势,并

自然形成概念的层次结构。当我们讨论语言变量“时间”这个范畴内的不

同语言值时,如 2天左右、最近几天、近来几个月、近期、远期等概念;

又如不同年龄的人——儿童、少年、青少年、中年、晚年等概念,常常要

明确它们所指的内涵和外延,也就是要弄清楚是大概念还是小概念,粗概

念还是细概念,以及相互之间的相似关系或从属(包含)关系。因此,不

同信息粒度之间的概念在概念空间会形成泛概念树结构。

3.2.2 特征空间

上节提及的概念空间用于表示同一属性范畴的不同概念。当我们讨论

由多个属性描述的复杂客体(也可称为对象、事物、案例、记录、元组等

等)群时,常常用特征空间作为讨论问题和发现知识的更大范畴。N个属

Page 20: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

13

性或特征构成 N维空间,这时,每一个客体成为特征空间的一个点,成千

上万的客体在特征空间构成成千上万个点。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应

用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信

息和知识的过程。从数据挖掘的这个定义,我们可以看出数据挖掘是一个

从数据到概念再到规则的抽象过程,它的工作对象是数据。从这个角度上

说,数据挖掘应该是以“数据”为中心的。当然现实的数据并非是一点规

律也没有的,这种先验知识能够加速数据挖掘的进程,但是这些先验知识

存在于某个特定的领域或方面,而数据挖掘是一门科学,它应该跨越领域

的概念,这也就是说,它挖掘的对象大多并不存在先验知识。因此,我们

认为知识是通过特征空间中的数据客体来体现的,客体之间存在某种影

响,知识正是通过这种客体间的相互影响来体现的。我们正是通过定义这

种相互影响函数来挖掘知识的。

3.2.3 信息粒度

粒度(Granularity)原本是一个物理学的概念,是指“微粒大小的平

均度量”,在这里被借用作为对概念的抽象度的度量。人类智能的一个公

认特点是人们能够从极不相同的粒度上观察和分析同一问题,各有各的用

处。人们不仅能够在同一粒度的世界上进行问题求解,而且能够很快地从

一个粒度世界跳到另一个粒度世界,往返自如;甚至具有同时处理不同粒

度世界的能力。这正是人类问题求解的强有力的表现。现实生活中人们总

是从一定的认知高度对事物进行分析,这种认知高度涵盖了从微观到宏

观:从较细的粒度世界跃升到较粗的粒度世界,是对信息或知识的抽象,

可以使问题简化,数据处理量大大减少,这一过程称为数据简约或归约,

也就是说,用粗粒度观察和分析信息,就是增加观察距离,忽略细微的差

别,寻找共性,共性常常比个性更深刻,可以求得宏观的把握;反过来,

缩短观察距离,用细粒度观察和分析信息,发现纷繁复杂的表象,更准确

地区分差别,个性要比共性丰富,但是不能完全进入共性之中。通过概念

提升, 就是增加观察距离,可以发现更普遍的知识。我们将观察距离的变

化更为形象地称为摄影中的伸缩镜头。通过拉镜头,属性方向和宏元组方

Page 21: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

14

向的概括性加大;知识模板的物理尺寸减小。从较细的粒度跃升到较粗的

粒度世界,是对数据的抽象和归约。从而忽略细微的差别,寻找共性,也

就是发现特征空间的宏观知识;反之通过推镜头,在发现空间的某个抽象

层次上,缩短观察距离,用较细粒度观察和分析信息,发现纷繁复杂的表

象,更准确地区分差别;从而发现特征空间的微观知识。

3.3 数据场和数据场聚类

3.3.1 数据场的基本思想

我们将特征空间和概念空间中客体之间的这种相互作用进行归纳,并

结合物理学中场论思想,引入数据场。数域空间中的每一个数据点,对整

个数域空间都有影响力,就如同物理学中的质点和电荷在引力场空间和电

场空间中一样。模仿这种相似性,定义数据之间的影响函数,就可以将数

域空间映射到数据场空间。势函数刻画出数据之间的关系,整个数域空间

中数据分布可以通过势函数的叠加反映。

数据场中的客体之间通过势函数相互影响,一般距离“近”的客体之

间相互影响强,反之距离“远”的客体之间相互影响弱。按照这个原则,

我们选择势函数的原则如下:

对于任意平方可积函数 g(x),满足:

∫∫ ∈≥

dbayxdxdyygxgyxf

],[,0)()(),( , ),( ),( yxdyxf 为 的单调递减函数,

),( yxd 为 x,y之间的距离函数。

常用的势函数形式为高斯势函数: )2

),(exp(),(

2

2

σyxd

yxf −= ,σ 为参

数;距离函数 ),( yxd 一般为欧氏空间距离。

定义了势函数以后,我们就可以刻画数据场空间的势值分布,并根据

势值的分布进行聚类。我们选取势值的局部最大值作为聚类中心,因为这

Page 22: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

15

些局部极值体现了局部数据(归属同一簇)的整体特性。这样在数据场空

间中就形成了很多的“山峰”,这些“山峰”体现了数据在数据场空间中

势值的概率分布,划分这些“山峰”就可以完成对数据的聚类。

3.3.2 数据场的聚类算法

定义 1:数据集中的势函数(influence function of data set)

对于数据集 DxRD n ∈∈ , ,则数据集在向量空间 nR 内某一点 y 所产

生的势如下:

∑ ∈=

DxD yxfyV ),()(

定义 2: 数据场中某一点 y 的梯度(gradient)为:

∑ ∈−=

DxD yxfyxyG ),()()(

局部最大势值点可以使用爬山法求出,在爬山的过程中使用定义 2中

的梯度做为每次爬升的方向,给出一定的步长和误差精度,就可以完成局

部最大特征点的求取;然后对两个交叠的“山峰”,根据其山谷线将两个

“山峰”划分开。由于两个交叠的“山峰”具有不同的势密度分布,所以

它们的分界线应该是两个“山峰”之间的山谷线。我们选取两个“山峰”

的峰值坐标,在两个峰值坐标之间查找势值最小值的位置(即鞍部位置),

由于“山谷”是势值下降最快的方向,所以从这个位置出发,运用下山法

可以找出山谷线,然后根据山谷线划分两个交叠的类。

3.4 数据场应用举例

当我们进行数据挖掘时,将数据库中的一条记录按照其 N个属性,把

这条记录映射到数据场中的一个特定数据对象上,成千上万的记录在数据

场中是成千上万个数据对象,整体上呈现出抱团特性,可以通过嵌套的等

势线(面)--自然的拓扑结构,形成聚类和类谱图。

下图 3-1 显示了使用云产生的 1200 个数据对象的二维散点图:

Page 23: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

16

从图中可以看出该数据集合有四组数据组成,分别是 A,B,C,D。现在使用数据场对这个数据集合进行聚类(图 3-3),通过等势线的分布我

们可以得出图 3-4 的类谱系图,这样不仅可以从数据中找出各种簇,而且

可以揭示各个簇之间的关系:

3.5 参数讨论

下面介绍数据场的两个重要的参数:辐射因子σ 和等势线间距ξ 。我

们还是以上面数据集合为例,来说明这两个因子对聚类结果的影响。

3.5.1 辐射因子σ

下图 3-5显示了不同σ 值下对数据集合的聚类情况,从聚类效果上看,

随着σ 值的不断减小,聚类的抱团性质减弱,比较极端的情况,当σ →0

A B

C

D

A

B

C

D

图 3-2 数据散点图 图 3-3 数据场视图

A

B

C

D

图 3-4 类谱图

说明: 图 3-4 中横线的长度代表两簇之间的紧

密程度,短线表示关系密切,粗线表示关系较

远。从等势线分布看:簇 A 和簇 B 聚成一类、

簇 C 和簇 D 聚成一类,但是 AB 之间要比 CD

之间的紧密程度小,然后 ABCD 聚成一个大

类。

Page 24: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

17

时,每个数据点自成一类,当σ → ∞的时候,全体数据点聚成一类。

从图 3-5 可以看出,不同的σ 值对聚类是有影响的,σ 影响着聚类的

个数,随着σ 的增大,聚类的个数也随着减少,从 4→3→2→1。

从图中,可以清楚地看到聚类的过程,数据参数σ对数据场的影响:

1)σ 太小,各个数据点之间没有影响,不呈现抱团特性;

2)σ 太大,数据场中的势相差很小,不利于分类;

3)σ 的取值与数据点的数目和分布有关。

4)只要数据集有足够的规模,聚类结果不会对σ的取值很敏感。

5)通过改变σ 的值,我们能够从不同观测层面上看同一组数据,从而

体现人类的动态聚类特性。

3.5.2 等势线间距ξ

等势线的间距也影响着聚类的效果,这种影响可以从下图 3-6 看出:

图 3-5 辐射因子σ 对聚类的影响

A B

C

D

A B

C

D

A B

C

D

A B

C

D

σ =0.005 σ =0.08

σ =0.1 σ =0.2

Page 25: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

18

等势线的条数影响着聚类的精度,也就是说等势线间距ξ 影响聚类的

精度,如果ξ 较小,那么等势线条数就多,对数据场聚类刻画的就详细,

反之则粗。

图 3-6 中当等势线条数为 11 时,簇 C 和簇 D 合为一个类,当等势线

条数为 47 的时候,簇 C 和簇 D 分类,这表明ξ 的选择对聚类效果精度是

有作用,但是这种影响是人为带来的,一个合适的ξ 可以避免这种情况的

发生。

3.6 数据场与支持向量机、非参数统计之间的关系

数据场在势函数定义上采用了 Mercer 条件作为选择标准,而支持向

量机方法也采用了这种函数作为内积的标准,下面讨论一下数据场方法与

支持向量机之间的异同。

聚类问题和分类问题是人类生活中的两个基本问题,它们之间最大的

区别就是聚类是无监督的,不依赖于预先定义的类和带类标的训练实例。

支持向量机来源于统计学习理论,而统计学习理论是针对小样本下的机器

学习产生的,面向的是分类问题,支持向量机就是建立在统计学习理论上,

用来解决小样本问题下分类问题的具体应用,它的基本思想是通过某种变

换,将低维数据映射到高维空间中,在高维空间用线性划分的方法完成分

类,由于这种映射是不明确的,所以它采用了内积的方法实现这种映射。

图 3-6 等势线间距ξ 对聚类的影响

A B

C

D

A B

C

D

等势线条数=11 等势线条数=47

Page 26: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

19

借助于 Heilbert-Schmidt 原理,只要符合 Mercer 条件的函数都可以完成这

种映射。由于支持向量机需要得到划分曲线,所以需要带标号的数据用来

训练。

数据场方法是模拟物理中场论的思想,认为两个客体之间存在某种相

互作用,通过模拟这种相互作用就可以利用物理上客体在场空间上的自组

织现象完成对数据的聚类,在模拟这种函数时,我们利用 Mercer 函数是

核函数的特点。该方法不需要带类别的数据,所以可以用于聚类分析,它

与支持向量机都采用了符合 Mercer 条件的函数,但是数据场指出该函数

必须是客体之间距离的递减函数,而支持向量机并没用此要求。

数据场聚类形式上与非参数估计方法中的 Parzen 窗方法相似,但是

Parzen窗方法并没用给出选择窗函数的原因和方法,而数据场从物理学的

角度给出了一种解释方法,并使用泛函中 Mercer 函数作为窗函数的选择

条件,丰富了 Parzen窗方法。 总之,数据场方法吸收了支持向量机和统计学中的一些思想,在它今

后的发展中,我们将会更深入的研究物理场的特点,从而不断丰富统计学

习的内容。

3.7 本章小结

本章主要引入了本论文的理论基础――数据场方法,该方法是建立在

人类聚类行为的基础上,认为人类的聚类行为是一个动态的过程,所以我

们引入了发现状态空间理论,并在该状态空间的两个子空间:特征空间和

属性空间中结合物理中场的概念,产生了数据场方法,通过给出影响函数

和梯度等形式化描述,就可以用来完成数据的聚类,接着给出了数据场的

一个应用,并结合这个例子,分析了影响数据场聚类的两个主要参数。最

后我们讨论了数据场方法与支持向量机和 Parzen窗的关系。

Page 27: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

20

第4章 数据聚类仪的设计和实现

4.1 引言

引入了数据场的方法,本章将介绍如何使用该方法来设计一个可交互

的、可视化的、能够处理多种数据类型的数据聚类软件。目前的数据聚类

大多要求具有与用户进行交互的能力,一个好的聚类方法应该为用户提供

一个良好的交互手段,使得用户和系统之间的通信更加顺畅,当前一个较

常用的方法是可视化技术,用户可以通过可视化控件,调节某些设定参数,

来寻求较好的聚类结果。可视化技术也是近几年内数据挖掘中较常用的方

法,使用诸如盒状图、三维立方体、数据分布图、曲线、曲面和各种颜色

来显示数据聚类的结果,能够更好地为用户呈现聚类的结果。目前一些数

据挖掘软件大都采用可视化技术来呈现处理的结果,如 DBMiner

Technology公司开发的 DBMiner,SAS 公司的 Enterprise Miner,SGI 公司

的 MineSet,特别是 MineSet 使用了强大的图形工具来实现数据和数据挖

掘的可视化。一个好的数据挖掘产品也应该具有处理包括数据、图像、语

音等数据类型的能力,目前市场上大多数数据挖掘系统能够处理诸如基于

记录的数据、或者是带有数字、分类和符号属性的数据,所以考察一个挖

掘产品的数据处理能力是非常重要的。数据场聚类仪就是使用数据场方法

进行聚类的软件实现方法,该软件使用面向对象的 DELPHI 语言设计完

成,具有交互的、可视化的、处理多种数据类型的能力。它具有处理一维

数据、二维数据和图像数据的能力,能够以等势线和等势曲面的形式表现

聚类结果,并提供处理单个数据对象归属的能力。在 4.2 节中我们介绍了

聚类仪的设计方案,在 4.3 节介绍了设计过程中几个关键技术,在 4.4 节

介绍聚类仪的具体实现。

Page 28: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

21

4.2 设计方案

数据场方法进行数据聚类分析和特征提取,主要是利用数据场的良

好人机交互性能,较强的抗噪声能力,为用户提供一种能够处理多种数据

形式的聚类工具。聚类仪采用面向对象技术设计,分为三个功能模块:数

据读入和预处理模块、数据场运算模块、数据场显示模块。三个功能模块

之间的关系如图 4-1 所示。

4.2.1 数据读入和预处理模块

该模块主要完成数据的读入和预处理,为数据场运算模块提供处理好

的数据。由于聚类仪能够处理一维数据、二维数据和图像数据,所以该模

块要对这些数据分别处理,并标记数据的维数,以便为下一步的运算模块

提供指示。预处理过程是将数据规范化,消除各属性之间差异,该模块提

供最小-最大规范化方法。

图 4-2 显示了数据读入和预处理模块的流程图:

注:

图 4-1 功能模块关系图

数据读入和预处理模块

数据场运算模块 人机交互

数据场显示模块 控制流

数据流

Page 29: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

22

4.2.2 数据场运算模块

该模块对预处理模块送来的数据进行运算,形成数据场。由于预处理

模块提供的数据类型即可能是一维的,也可能是二维的。所以该模块应该

对这两种数据分别进行处理。 对于一维数据,由于数据已经规范化到[0,1]区间,所以我们只要在

图像数据 一维数据

数据

判断数据的维数

二维数据

根据数据类型开启

对应的选择项

数据规范化

读入数据并标

记数据类型

保存到全局链表

图 4-2 数据读入和预处理流程图

Page 30: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

23

[-1,2]区间上就能够很好的体现出数据场的形状,在该区间上选择采样点,

计算采样点的势值,最后将各个采样点的势值送入数据场显示模块。对于

二维数据场,由于数据已经规范化到单位空间内,所以我们在该空间上划

分网格,并计算每个网格点上的势值,然后将计算后的数据送入数据场显

示模块。

该模块在计算数据场的时候,需要用户指定所要使用的势函数,本软

件提供三种势函数形态:高斯函数,指数函数,方波函数,当用户改变势

函数时,需要调用该模块重新计算各个采样点的势值。

4.2.3 数据场显示模块

数据场显示模块完成数据场的显示工作,数据场主要通过曲线(一维

数据)、等势线(二维数据)和三维曲面(二维数据)形式来表现。

该模块识别数据场运算模块送入的数据类型,如果数据类型是一维数

据,只需要使用曲线方式完成数据场的显示,如果数据类型是二维数据,

那么既可以采用等势线方式来显示,也可以采用曲面方式显示,所以该模

块应该对不同数据类型采用相应的显示方法。

为了能够方便和用户交互,该模块必须能够响应来自用户的动作,比

如用户改变了势函数的参数以及等势线的条数。数据场显示模块除了提供

了响应参数改变的动作,也提供了一些显示设置功能,比如为了方便观察

三维曲面,提供了曲面的旋转功能。除此之外该模块还提供了对单个数据

点的处理功能,当用户想了解某个数据点归属情况时,该模块显示出这个

数据点所属的类中心点和它隶属于这个类的隶属度。

4.2.4 软件结构

图 4-3 显示了本聚类软件的结构图,图中:

菜单--提供三个菜单选择项:势函数选择菜单;数据选择菜单;

数据场选择菜单。势函数选择菜单提供势函数的选择,目前提供三种势函

数形态:高斯函数,指数函数,方波函数。数据选择菜单负责提供原始数

据的显示和分布,主要采用表格方式显示原始数据和二维分布图显示数据

分布情况。数据场选择菜单负责形成数据场,它根据原始数据的维数选择

合适的数据场表现形式,例如对一维数据主要采用二维数据场表现形式,

Page 31: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

24

对于二维数据主要采用二维数据场和三维数据场表现。

按钮--对应于菜单,提供方便快捷的操作。主要包括:原始数据表

格显示按钮,原始数据分布图显示按钮,一维数据场显示按钮,二维数据

场显示按钮,三维数据场显示按钮,帮助按钮。

显示控制--为用户提供调节参数和显示方式等功能。主要包括:势

函数参数调节,数据场显示调节。

事件处理--接受用户界面传入的事件,并根据事件性质决定相应的

操作。

数据场运算--当事件涉及势函数参数变化时,要调用该模块进行运

算。

4.3 设计关键技术

本聚类软件设计过程中需要解决两个关键的技术:等势线和三维曲线

的绘制。等势线和三维曲线的绘制速度是关系到软件效率的重要问题,因

此需要特别关注。

4.3.1 等势线绘制算法

从理论上讲,可以根据各个节点已知的势值拟合一个三维光滑曲面,

某条等势线是这个三维曲面上所有势值等于这条等势线势值的点构成的

曲线。但是这种方法工作量是很大的。本文采用的是一种基于线性插值原

理的快速等势线生成算法[孙 95]。

该算法根据应变应力场在单元内部是线性分布的特性,指出对于一个

用户界面 菜单 按钮 显示控制

事件处理 数据场运算

图 4-3 软件结构图

Page 32: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

25

四边形单元,某条等势线与该单元所有棱边的交点只可能是零个、二个或

者四个,因此可以判断任何一个四边形单元上是否有等势线穿过。保存有

等势线存在的单元。完成了判断工作,然后在所保存的单元上使用某种搜

寻算法对等势线进行跟踪,并将跟踪到的等值点记录下来,最后将记录的

等值点连接起来就绘制完成了一条等势线。对于多条等势线的绘制,重复

上面的“判断-跟踪-连接”的步骤。

从上面的算法可以看出,等势线的绘制是建立在应变应力场特点上

的,所以当数据场的参数变化到很小的时候,等势线分布已不满足上面的

假设,需要一些额外的处理。

4.3.2 三维曲面的绘制

三维曲线的绘制主要包括以下几个功能:三维坐标的绘制,三维曲面

的绘制,曲面的旋转,曲线的缩放。

三维曲线的绘制涉及到计算机图形学中图形变化,也就是如何用二维

图形表示三维形体,如何通过图形的平移、旋转、比例变化等几何变换完

成三维图形的图形变换。

几何图形的表示是在一定的坐标系中进行的,计算机图形学中有以下

几种坐标系:用户坐标系、观察坐标系、设备坐标系。用户坐标系是一个

右手三维坐标系,主要用来定义整图或者更高层的图形结构。观察坐标系

是一个左手坐标系,它主要用于指定裁减空间和定义观察平面。设备坐标

系是一个右手三维空间,用来在图形设备上指定窗口和视图区。我们采用

的是用户坐标系,将三维图形投影到二维观察平面上。三维空间中某个点

在观察平面上的投影是通过观察角度、观察距离和坐标轴的旋转角度来计

算的,所以坐标轴的绘制首先要指定图形的输出空间,然后将该空间上的

顶点坐标投影到观察平面上,在观察平面上连接定点坐标就完成了坐标轴

的绘制。

三维曲面的绘制方法也是通过投影来完成,为了有效的操纵和存储曲

面上的点,需要将曲面封装成一个类。曲面的旋转是通过改变观察角度和

坐标轴的旋转角度后将曲面的点重新投影实现的,聚类仪提供了上、下、

左、右四种旋转方式。曲面的缩放是通过改变观察距离实现的,所以每次

缩放动作都要将原曲面上的点重新作投影。

Page 33: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

26

4.4 聚类仪的具体实现

按照 4.2 节的设计方案,就可以完成对聚类仪的设计。聚类仪包括菜

单项、快捷按钮、数据显示和数据场显示四个部分。菜单项包含势函数选

择菜单;数据选择菜单;数据场选择菜单。势函数选择菜单提供势函数的

选择,目前提供三种势函数形态:高斯函数,指数函数,方波函数。数据

选择菜单负责提供原始数据的显示和分布,主要采用表格方式显示原始数

据表和二维分布图显示数据分布情况。数据场选择菜单负责形成数据场,

它根据原始数据的维数选择合适的数据场表现形式,例如对一维数据主要

采用二维数据场表现形式,对于二维数据主要采用二维数据场和三维数据

场表现。为方便用户操作,提供了快捷按键,它与菜单选项对应,根据数

据类型开启或者关闭相应的按钮,例如一维数据只开启数据列表按钮,数

据分布按钮和一维数据场视图,而二维数据则开启数据列表按钮,数据分

布按钮,二维数据场视图和三维数据场视图。数据显示部分为用户提供原

始数据列表和数据分布图,它们被数据分布按钮控制。数据场显示部分根

据数据类型实现不同的数据场视图,该视图提供参数选择滑动条和一些辅

助选项,用户可以改变滑动条上的参数从而交互的完成聚类过程,辅助选

项帮助用户方便观察聚类效果。图 4-4 显示了数据场的外观图,图 4-5 显

示了一维数据场聚类的情况,图 4-6 显示了二维数据场聚类的情况,图 4-7

显示了人脸图像的三维聚类情况。

Page 34: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

27

图 4-4 数据场聚类仪外观图

图 4-5 一维数据聚类情况

Page 35: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

28

图 4-6 二维数据聚类情况

图 4-7 人脸图像三维聚类

Page 36: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

29

4.5 本章小结

本章介绍了聚类仪的具体实现方法,首先介绍了软件的设计方案,根

据功能不同,将聚类仪分为三个模块:数据读入和预处理模块,数据场运

算模块和数据场显示模块,接着介绍了设计过程中两个关键的技术:等势

线和三维曲面的绘制,最后结合聚类仪的四个实例图展示了聚类仪的具体

实现。

Page 37: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

30

第5章 数据聚类仪应用

5.1 引言

本章我们将介绍数据聚类仪的具体应用,由于数据场聚类具有很多良

好的性质,所以本章将主要借助聚类仪来介绍数据场的性质。本章对数据

场的四个特性进行介绍,主要包括:5.2 节对任意性质的聚类;5.3 节带

噪声数据的聚类;5.4 节使用聚类方法对分类数据进行聚类――Iris 数据

聚类;5.5 节将数据场聚类用于网络入侵检测。

5.2 应用 1:发现任意形状的聚类

根据第二章,我们已经知道能够发现任意形状簇是衡量一个聚类算法

能力重要方面,由于目前很多聚类算法采用欧式距离来决定相似度,所以

这种度量方式趋向于发现球(超球)簇。数据场聚类是从原始数据分布特

征出发,根据物理学中场方法,发掘数据内部相似性,从而可以发现任意

形状簇。本节主要介绍数据场对任意形状簇的聚类。

为了显示数据场能对任意形状进行聚类的性质,我们用不同的聚类方

法对同一组数据进行聚类,然后分析不同方法聚类的好坏。

图 5-1 显示了一组人造试验数据,图中可以看出有四簇数据,其中数

据性质有成 S 形的,有长条形的,有圆形的,有近似弧形的。一个好的聚

类算法能够对识别这几种性质的簇。

图 5-1 试验数据

Page 38: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

31

为了进行比较,我们选用了三种算法:K-均值算法,模糊 C-平均

算法和单链接层次聚类算法。实验环境是在 PIII 处理器,Windows2000

操作系统,运用 Matlab6.1 编程实现的。其中在使用单链接层次聚类算法

时,由于运算时间较长,我们对数据进行了过滤,随机从测试数据中选择

2000 个数据点。以上三种聚类算法均需要指定聚类的个数,在本试验中

我们指定该参数为 4。从图 5-2 中我们可以看出 K-均值算法不能将四簇

数据分开,它仅仅对数据进行了划分而没用考虑簇的形状。模糊 C-平均

算法能够识别长条形状和球形的簇,但是对 S 形状的簇不能识别。单链接

层次聚类算法能够识别该试验数据中个各种簇,但是将数据聚类成了三个

簇,不能很好地将交叠两个簇分离,而数据场聚类方法能够较好的识别四

种形状的簇,并且不需要预先指定类的个数。

单链接层次聚类 数据场聚类

K-均值 模糊 C-平均

图 5-2 聚类效果比较

Page 39: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

32

5.3 应用 2:抗噪声聚类

现实应用的数据都是包含噪声的,噪声的存在会或多或少的影响聚类

的结果。好的聚类算法应该具有抗噪声的能力,这种能力越强算法的鲁棒

性越好。数据场方法对噪声数据具有较强的适应能力,特别是当噪声率很

大的情况下仍然能够很好的实现聚类。

为了显示数据场在噪声情况下的聚类效率。我们使用下面的方法进行

测试。首先产生一组数据,然后在这组数据中加入噪声,噪声率从 20%到

120%不等,使用数据场形成聚类。从图 5-3 中我们看出噪声率越大,噪声

数量就越多,特别是当噪声数据超过正常数据时,人眼是很难分辨出正常

数据,但是数据场聚类能够很好的适应大噪声情况,在人眼不可分辨的情

况下聚类正常数据,从而使得在大噪声情况下聚类成为可能,同时通过聚

类也能够有效剔除噪声数据,提取正常有效数据。

由于噪声数据的存在,如何选择一个指标来衡量哪些数据是噪声哪些

数据是正常数据,就显得很重要。我们知道噪声数据的概率密度分布,当

nN ∞→ 的时候是趋近于一个常数 C的,所以下面的等式成立。

0)(2

1suplim

2=−

∞→CxV

NNd

nNN πσ

[SCHU70]

噪声率 25% 50% 80% 120%

图 5-3 数据场对不同噪声率的聚类情况

Page 40: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

33

其中 )(2

12

xVN

Nd

n πσ是噪声的概率密度, )(xVN 是数据场高斯势函

数, nN 是噪声的个数。

所以我们的提取准则就必须要大于噪声所产生的势值,也就是说必须

选择势值大于d

nN 22πσ ,由于dd

n NN 22 22 πσπσ < ,所以我们近似

认为如果一个数据点的势值小于d

N 22πσ ,那么该数据点就是噪声。

有了噪声判断依据,我们使用该依据对上面试验的数据进行去噪处

理,选择有效数据,表 5-1 显示了不同噪声情况下,提取有效数据的正确

率和提取数据的个数。

噪声率 25% 50% 80% 120%

提取正确率 96.3% 92.8% 91.7% 90.4%

提取个数 1069 1093 1159 1262

从表中我们可以看出使用数据场聚类进行有效数据提取正确率比较

高,特别是当噪声数据掩盖了正常数据的时候,仍然有 90%的有效数据得

到了提取。数据场提取的正确率随着噪声率的增加而减少,随着噪声率的

增加,噪声落在有效范围内的概率也增加了,这就造成了有些噪声已经变

成了有效数据。

5.4 应用 3:Iris 数据聚类

本小节我们介绍使用聚类仪对 Iris 数据进行聚类的例子,众所周知

分类问题和聚类问题最大的区别就是分类问题是有监督的,而聚类是无监

督,也就是聚类不依赖于预先定义的类和带类标号的训练实例。使用数据

场实现聚类是利用原始数据分布形成场的特性实现的,该方法减少了分类

过程中的人为因素,而是通过原始数据来完成的,本节就以模式识别领域

中经典的测试用例 Iris 数据来说明数据场的无监督聚类方法。

Iris 数据集合包含 150 个实体,有 4个属性(花片长度,花片宽度,

萼片长度,萼片宽度)。这 150 个实体分为 3类,每个类有 50 个实体。其

表 5-1 不同噪声率下提取有效数据的情况

Page 41: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

34

中一个类是线性可分的,其余两类有交叠。为了可视化方便我们首先提取

4个属性中前 2个主要属性(3,4 维属性),我们对数据进行变换,将 iris

数据采用极坐标变换,并进行归一化处理。按照发现状态空间理论,我们

首先从一个层面对数据进行聚类,选择σ =0.2,聚类结果为 2 类,如图

5-4(a)所示。然后我们从细粒度上对 iris 数据进行观察,减小σ 值,

当σ =0.054 时,两个交叠的类可以分开,其中错误划分了 3 个实例和 1

个离群点,如图 5-4(b)所示。

上面试验中的划分依据是根据不同簇之间的势值密度分布不同,从而

找出两簇势值交叠曲线或曲面,根据这些曲线或曲面实现对两个交叠的簇

的划分的,表 5-2 给出了查找划分曲线的算法。

输入:两个局部最大值 yx, ,运动步长 step,精度 eps;

输出:划分曲线 neigh;

function partition(x,y,step,eps)

图 5-4(a) 图 5-4(b)

图 5-4:iris 数据的数据场聚类结果。(a)显示了σ =0.2 情况下的聚类效果,虚线是两

类的划分曲线;(b)显示了σ =0.054 情况下的聚类效果,虚线是划分曲线。从图中我

们可以看出第二类中有一个实例被误划到第三类中,第三类中有两个实例被误划到第

二类,第一类中有一个实例偏离了聚类中心成为离群点。

表 5-2 查找划分曲线的算法

Page 42: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

35

begin

;*'; stepxyxy

xcxc−−

+==

while )()'( cVcV DD ≤

;*';' stepxyxy

cccc−−

+==

;'; cdcd == //找到山谷上的一个点;

while )'()( dVdV DD ≥ do

begin

计算在 xk的梯度方向kxx

D

D

xGxG

==∇||)(||

)(;

d’= d;

d = d+∇ *step;//记录运动路径;

end;//爬山找到鞍点

while( epsdVD ≤)( )&&( epsdVD ≤)'( )//从鞍点开始同时向两个方向下山

begin

;||)(||

)(';

||)(||)(

'dxD

Ddx

D

D

xGxG

xGxG

== =∇=∇

);',( ddneigh←

;'*'';* stepddstepdd −∇=∇−=

end;

output(neigh);

end;

Page 43: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

36

当增加数据维数进行聚类时,通过表 5-3 我们可以发现分类效果会降

低,这主要由于引入了不可分属性所造成的,所以在聚类过程中并不是说

属性越多聚类效果就越好,相反而应当选取那些对聚类有重要影响的属

性。图 5-5 显示了数据场无监督聚类同其它聚类算法的误判率比较。

选取的属性 σ 值 误分个数

3,4 0.054 4

2,3,4 0.06 6

1,2,3,4 0.83 14

从图 5-5 我们可以看出数据场聚类在聚类效果上优于其它非监督的

聚类算法:在选取两个属性的情况下,文献[TS00]中的信息论方法导致了

5个实例的误分,文献中[BWD97]的 SPC 算法产生了 15 个实例的误分,文

献[BHS00]的 SVM 算法产生了 4个实例的误分。

5.5 应用 4:入侵检测

在基于异常的入侵检测过程中,我们必须处理大量的网络数据,如何

有效的对这些数据进行聚类,直接关系到入侵检测的效率。基于异常的入

侵检测就是通过分析已有数据,从中分析出正常用户的行为集合,然后通

过检测未知的数据与这些行为集合的“偏离”程度,来检测入侵行为的。

目前在入侵检测的训练过程阶段存在着一个重要的问题,就是如何处理训

练数据集中存在的入侵行为,有效的识别这些差别关系到后续检测效率的

一个关键问题。基于数据场的聚类算法的基本思想是寻找数据场中势分布

中局部最大值,通过计算各个局部中心特征点的势值,从而识别出正常的

行为和异常的行为,然后记录计算局部最大势值时运动路径,以该路径为

特征,用于入侵检测。因此具体的检测方案包括:1.提取聚类中心;2.

提取运动路径;3.检测算法。

表 5-3 不同属性情况下的误分比较

选取属性个数

误分个数

0

5

10

15

20

2 3 4

数据场 SVM SPC 信息论方法

图 5-5 聚类算法比较

Page 44: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

37

5.5.1 提取聚类中心

确定了数据场空间中势的分布,我们可以使用爬山法求出势的局部最

大值,算法描述如表 5-4 所示。

输入:初始点x;step 步长;

输出:中心点 cen;运动路径 Neig;中心点的势值 local;

begin

x0=x;k=0;

while )()( 1 kDkD xVxV ≥+ do

begin

计算在 xk的梯度方向kxx

D

D

xGxG

==∇||)(||

)(;

xk+1=xk+∇ *step;

Neig← xk;//记录运动路径;

end;

cen=xk;//中心点;

local= )(cenVD ;//中心点的势值;

end;

5.5.2 提取运动路径

数据场空间中聚类是通过数据之间的相互作用完成的,一个数据点在

其它数据点影响下向着一个聚类中心前进,这就象电场空间中的自由电荷

运动情况一样,但是在数据场空间中,如果使用这种方法计算每个数据点

的归属情况无疑是不现实的,因为要判断一个数据的归类就要计算空间中

其它数据对该数据点的影响,而一个有效地入侵检测方法的时间复杂度不

应该超过 O(n2),所以必须对数据进行预先的处理,以减少判断次数。我

表 5-4 求势的局部最大值

Page 45: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

38

们采用预先处理的方法将数据点划分为“疏密”不同的数据子空间,对每

个“密”的数据子空间中使用爬山算法计算该数据子空间的特征,这样就

有效地减少了计算的复杂度,表 5-5 显示了运动路径提取的算法。

输入:“密”数据子空间 },...,{ 1 kCCC = ;“疏”数据子空间 },...,{ 1 hSSS = ; O=φ ;

输出:各个簇中的运动路径 Neig;各个簇的中心点 cen

Begin

//计算各个“密”数据子空间中的中心点,运动路径和中心点的势值

For i=1 to k do

Begin

tmp=mean(Ci);

[ceni,Neigi,locali]=climbing(Tmp,step);

end

//合并特征集合

For i=1 to k-1 do

For j=i+1 to k do

Begin

if Abs(ceni-cenj)<=detal1 then

begin

ceni=(ceni+cenj)/2;

Neigi=NeigiU Neigj;

locali=max(locali,localj);

delete cenj,localj,Neigj.

end;

end;

//检测离群点

for i=1 to h

for j=1 to kNeig // kNeig 为 Neigk中元素的个数; k 属于合并特征集

合后特征集合的个数;

表 5-5 运动路径提取的算法

Page 46: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

39

if Abs(Neigk(j)-mean(Si))<detal2 //计算“疏”数据空间与各个特征集合之

间距离。如果小于设定的 detal2 则删除该集合。

Begin

S=S-Si;

Neigj ← mean(Si);//把 mean(Si)加入 Neigj集合

end

else

O ← mean(Si);//否则加入离群集合

end

end

end

5.5.3 检测算法

由于入侵数据少于正常的数据个数,所以入侵数据聚类出的中心点的

势值较正常数据的势值较小,所以通过比较 3.3.2 提取的各个中心点的势

值大小就可以识别出训练集合中的入侵数据,这里我们使用了一种比较简

单的识别方法,对中心点的势值进行排列,从小的势值开始累加,直到累

加势值超过了 5%(由于正常数据的个数远大于异常数据的个数,5% 的比

例可以很好的反映这种事实)。我们将这些中心点和离群点标记为异常,

其余的标记为正常数据。识别了训练集合中正常数据和异常数据后,就能

使用特征集合使用下面的算法进行检测了。

输入:待检测的样本 t;错误容忍参数 r;

输出:是否为入侵;

初始化:det=fasle;

for i=1 to kNeig //k 属于合并特征集合后特征集合的个数;

if abs(Neigk(i)-t)<r then det=true; // t 属于 Neigk;

if det then 根据 Neigk的类型判别;

表 5-6 检测算法

Page 47: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

40

else 新类型;O ← t;//发现新类型;

路径提取算法的时间耗费为 O(k’m+cn)(c 为常量,n是维数,m 为数

据点的个数,k’为依赖于σ 和 step 的常数),检测时间耗费为O( Neig )。

我们使用上面的算法对 KddCup99 的数据链接记录进行测试,表 5-7 显示

了从训练集合中提取类型为 udp,服务为 private 的各个中心特征向量,按照

5.5.2 的方法识别出正常数据簇和异常簇,通过计算正常数据簇是聚类 1,

聚类 2,聚类 3;异常数据簇:聚类 4,聚类 5,聚类 6 和离群 1,离群 2。

表 5-8 显示了训练集合和测试集合的识别率。

实验结果显示了检测效率不是太高(69.3%),这主要归因于我们在训

练过程中使用不带标记的训练数据,并假设异常数据和正常数据“相距”

较远,但是在实验过程中我们分析发现这种假设并不能很好的反映正常数

据和异常数据的分布,例如 snmpgetattack 攻击和正常的数据报非常相似,

再就是 KDDcup99 给出的数据集合是通过模拟产生的,该数据集合中包含

类型 接收字

节个数

发送字

节个数

错误分段

的个数

链接同一主机

的链接个数

… 不同服务的

链接比例

势值

聚类1 1.000 0.984 0.000 0.003 … 0.002 14680

聚类2 0.990 0.001 0.000 0.002 … 0.002 3972

聚类3 0.506 0.359 0.000 0.999 … 0.891 563

聚类4 0.267 0.002 0.999 0.098 … 0.197 16.5

聚类5 0.010 0.005 0.000 0.175 … 0.997 163

聚类6 0.449 0.006 0.000 0.007 … 0.006 234

离群1 0.267 0.000 1.000 0.075 … 0.040 ---

离群2 0.000 0.000 0.000 0.002 … 0.000 ---

误报率 检测率

训练数据 0.5% 67.4%

测试数据 0.43% 69.3%

表 5-7 聚类中心和离群点特征

表 5-8 实验结果

Page 48: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

41

的异常数据比较多(类型为 udp 的训练集合中 snmpgetattack 攻击的数量

竟达到了 7700 多个,占总数据量的 34%)。这些原因都是实验检测效率不

太高的原因。即使是这样,本算法也表现了较好的效果。

5.5 本章小结

本章我们利用数据聚类仪介绍了数据场方法的应用,数据场聚类具有

能够处理任意形状的聚类、抗噪声等能力,利用数据场聚类能够进行无监

督的分类,其效果较其它方法相比具有较低的误分率。将数据场聚类应用

于入侵检测,能够克服以往检测方法中无法处理训练集合含有的入侵实例

的缺点,具有较好的识别率。

Page 49: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

42

第6章 结束语

6.1 全文总结

目前随着人工智能和数据挖掘技术的不断深入,聚类分析得到了不断

的发展,特别是随着各种数据源的大量涌现,聚类分析也得到不断的重视

和研究,对聚类的研究已经成为数据挖掘领域中一个非常活跃的研究课

题。本论文以数据场聚类及其软件实现作为主要研究内容,并以此方法作

为理论基础,通过软件编程实现了该聚类算法,本论文主要对以下问题进

行了研究:

1. 数据场方法:本文从数据挖掘的机理出发,通过研究发现

状态空间理论中属性空间和特征空间内客体之间的相互

作用,结合物理学中场的思想,提出了数据场。本论文注

重研究数据场概念,数据场势函数的定义以及影响数据场

聚类的两个重要参数:辐射因子和等势线间距,给出了选

择势函数的依据和数据场聚类算法。

2. 实现了一个以数据场方法为理论基础的聚类软件。通过面

向对象语言实现了一个可视化、交互型的聚类软件,本软

件能够处理一维数据、二维数据的聚类和人脸图像的特征

提取。

3. 使用数据场方法和数据聚类工具验证该方法的有效性,我

们介绍了数据场方法的四种应用:对任意形状的聚类;抗

噪声数据聚类;对经典分类数据 Iris 进行聚类和网络入侵

检测。通过实验说明数据场方法能够对任意形状、有噪声

的数据进行有效的聚类,当数据场用于网络入侵检测时,

可以克服以往训练数据中存在有入侵数据的问题。

6.2 今后的工作

数据场聚类是一种新颖的聚类方法,虽然它在应用过程中显示了优越

Page 50: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

43

性,但是还存在以下几个方面需要近一步讨论和研究:

1. 数据场的若干问题,目前我们只是通过引入势函数来

描述数据场的属性,通过等势线或等势面来显示数域

空间中的势场分布,从而揭示了数据分布的总体特征。

除了势场,其中还有很多问题值得进一步研究,如数

据场中的梯度场、散度场和旋度场等问题。

2. 高维数据的可视化问题,当前应用数据场方法对数据

及数据挖掘的可视化都仅限于三维以下,本论文中的

聚类软件目前还没有集成对高维数据的可视化方法,

需要在以后的研究中不断完善。

3. 高维聚类算法的效率问题,目前高维数据聚类的运算

效率还不是太高,还需要近一步降低运算的效率。

数据挖掘中的聚类问题是当前研究的热点问题,本文只做了一些算法

的理论性工作和模型研制工作,在该领域以后的研究过程中,希望得到更

多同行的关注和参与。

Page 51: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

44

参考文献

[ABKS99] M.Ankerst,M.Breunig, H. -P.Kriegel, and J.Sander. OPTICS:Ordering points to

identify the clustering structure. In Proc.1999 ACM-SIGMOD Int. Conf.

Management of Data(SIGMOD’99),pages 49-60,Philadelphia,PA,June 1999.

[AIS93] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets

of items in large databases. Proceedings of the ACM SIGMOD Conference on

Management of data, pages 207-216, 1993.

[AIS93A] R. Agrawal, T. Imielinski, and A. Swami. Database mining: A performance

perspective. IEEE Transactions on Knowledge and Data Engineering, Vol. 5, No. 6,

Dec. 1993.

[ASH96] R. Agrawal, J. Shafer. Parallel mining of association rules: Design,

Implementation, and Experience. Technical Report FJ10004, IBM Almaden Research

Center, San Jose, CA 95120, Jan. 1996.

[BBR97] R. J. Bayardo. Brute-force mining of high confidence classification rules. In

Proc. 3rd International Conference on Knowledge Discovery and Data Mining (KDD),

Aug. 1997.

[BHS00]A. Ben-Hur, D. Horn, H.T. Siegelmanm, and V. Vapnik. A support vector

clustering method. In International Conference on Pattern Recognition,2000.

[BLE98] Barnett V, Lewis T. Outliers in statistical data, John Wiley,1994.

[BMS96] S. Brin, R. Motwani, and C. Silverstein. Beyond market baskets: generalizing

association rules to correlations. Proceedings of the ACM SIGMOD, pages 255-276,

1996.

[BMU97] S. Brin, R. Motwani, J. D. Ullman, and S. Tsur. Dynamic Itemset counting and

implication rules for market basket data. In ACM SIGMOD International Conference

On the Management of Data. 1997.

[BRA99] K. Beyer and R. Ramakrishnan. Bottom-up computation of sparse and iceberg

cubes. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD'99),

pages 359?70, Philadelphia, PA 1999.

[BWD97]M. Blatt, S. Wiseman, and E. Domany. Data clustering using a model granular

magnet.Neural Computation,9:1804-1842,1997.

Page 52: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

45

[DGM97] G. Das, D. Gunopulos and H. Mannila. Finding Similar Time Series. In Proc.

1997 1st European Symposium on Principles of Data Mining and Knowledge

Discovery (PKDD'97), pages 8800, Trondheim, Norway, June 1997. [EMS98] Edith

Cohen, Mayur Datar and Shinji Fujiwara. Interesting Associations without Support

Pruning. 1998.

[EKSX97] M.Ester, H. -P. Kriegel, and X.Xu. Knowledge discovery in large spatial

databases:Focusing techniques for efficient class identification. In Proc.4th Int. Symp.

Large Spatial Databases(SSD’95),pages 67-82,Portland,ME, Aug.1995.

[ESK00] E. Eskin. Anomaly detection over noisy data using learned probability

distributions. Proceedings of the International Conference on Machine Learning,

2000.

[FIS87] D.Fisher. Improving inference through conceptual clustering. In Proc. 1987

AAAI Conf.,pages461-465,Seattle, WA,July 1987.

[FPS96] U.Fayyad, G.Piatetsky, and P.Smyth. Knowledge discovery and data mining:

toward a unifying framework. In Proc. 2nd International Conference on Knowledge

Discovery and Data Mining(KDD), Aug. 1996.

[FPS96A] U. Fayyad, G. Piatetsky-shapiro, P. Smyth, and R. Uthrusamy (Eds.). Advances

in Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, CA, 1996.

[GKM97] D. Gunopulos, R. Khardon, H. Mannila, and H. Toivonen. Data mining,

hypergraph traversal, and machine leaning. In Proc. PODS, 1997.

[GMS97] D. Gunopulos, H. Mannila, and S. Saluja. Discovering all most specific

sentences by randomized algorithm. In Proc. International Conference of Database

Theory (ICDT), Jan. 1997.

[HUA98] Z.Huang. Extensions to the k-means algorithm for clustering large data sets

with categorical values.Data Mining and Knowledge Discovery,2:283-304,1998.

[HCC92] J. Han, Y. Cai, and N. Cercone. Knowledge discovery in database: an attribute-o

riented approach. In Proc. 18th VLDB. Sept. 1992.

[HKA01] J. Han and M. Kamber. Data Mining: Concepts and Techniques. San Francisco:

Morgan Kaufmann Publishers. 2001.

[HK98] A.Hinneburg and D.A.Keim. An efficient approach to clustering in large

multimedia databases with noise. In Proc. 1998 Int Conf. Knowledge Discovery and

Page 53: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

46

Data Mining(KDD’98),pages 58-65,New York,Aug.1998.

[HKC99] Tzung-Pei Hong, Chan-Sheng Kuo, Sheng-Chai Chi, “A Fuzzy Data Mining

Algorithm for Quantitative Values”, 1999 3rd Inter. Conf. on Knowledge-Based

Intelligent Information Systems, Adelaide, Australia

[HKI00] Jiawei Han, Michelline Kamber. Data Mining Concepts and Techniques, 2000, 8,

363-365.

[HKK97] E. Han, G. Karypis, and Vipin Kumar. Scalable parallel data mining for

association rules. In Proc. SIGMOD, May 1997.

[HPC00] J. Han, J. Pei, B. Mortazavi-Asl and Q. Chen. FreeSpan: Frequent

Pattern-Projected Sequential Pattern Mining. In Proc. 2000 Int. Conf. Knowledge

Discovery and Data Mining (KDD'00), 355-359, Boston, MA, Aug. 2000.

[HPD01] J. Han, J. Pei, G. Dong and K. Wang. Efficient Computation of Iceberg Cubes

with Complex Measures. In Proc. (2001) ACM-SIGMOD Int. Conf. on Management

of Data (SIGMOD'01), Santa Barbara, CA, May 2001.

[HPE00] J. Han and J. Pei. Mining frequent patterns by pattern-growth: methodology and

implications.

[HPM00] J. Han, J. Pei, B. Mortazavi-Asl, Q. Chen, U. Dayal and M. Hsu. FreeSpan:

Frequent Pattern-Projected Sequential Pattern Mining. In Proc. 2000 Int. Conf.

Knowledge Discovery and Data Mining (KDD'00), 355-359, Boston, MA, Aug. 2000.

[HPY00] J. Han, J. Pei and Y. Yin. Mining Frequent Patterns without Candidate

Generation. In Proc. 2000 ACM-SIGMOD Int. Conf. Management of Data

(SIGMOD'00), pages 1-12, Dallas, TX, May 2000.

[HSW93] M. Houtsma and A. Swami. Set-oriented mining of association rules. Research

Report RJ 9567, IBM Almaden Research Center, Oct. 1993.

[JDU88] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice Hall, 1988

[JDU91] Jackson, DuBois. An Expert System Application for Network Intrusion

Detection. 1991.

[KHC97] M. Kamber, J. Han and J. Chiang. Metarule-guided Mining of

Multi-Dimensional Association Rules Using Data Cubes. In Proc. 1997 Int. Conf.

Knowledge Discovery and Data Mining (KDD'97), pages 207-210, Newport Beach,

California, Aug. 1997.

Page 54: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

47

[KHK99] G.Karypis, E.-H.Han and V.Kumar. CHAMELEMON:A hierarchical clustering

algorithm using Dynamic modeling.COMPUTER,32:68-75,1999.

[KMR94] M. Klemettinen, H. Mannila, P. Ronkainen, H. Toivonen, and A. I. Berkamo.

Finding interesting rules from large sets of discovered association rules. In Proc. 3rd

International Conference on Information and Knowledge Management, Nov. 1994.

[KNG98] Knorr E M, Ng R. Algorithms for Mining Distance-Based Outliers in Large

Datasets, Proc. 24th Int. Conf. On VLDB, New York, NY, 1998, pp. 392-403.

[KR90] L.Kaufman and P.J.Rousseeuw. Finding Groups in Data: An Introduction to

Cluster Analysis. New York: John Wiley&Sons,1990.

[KPR98] J. Kleinberg, C. Papadimitriou, and P. Raghavan. Segmentation problems.

Proceedings of the 30th Annual Symposium on Theory of Computing, ACM. 1998.

[LAN92] L. Lankewicz. A Non-Parametric Pattern Recognition to Anomaly Detectio.

PhD.Thesis, 1992.

[MAN97] H. Mannila. Methods and problems in data mining (a tutorial). In Proc. of

International Conference on Database Theory (ICDT), Jan. 1997.

[MAC67] J.MacQueen.Some methods for classification and analysis of multivariate

observations. Proc.5th Berkeley Symp.Math.Statistical Association,83:715-728.

[MAC89] MacQueen J.: ”Some Methods for Classification and Analysis of Multivariate

Observations”, 5th Berkeley Symp. Math. Statist. Prob., Vol. 1, pp. 281-297.1992.

[MAX90] Maxion. Anomaly Detection for Diagnosis. FCTS, 1990.

[Rob97]S.J.Roberts.Non-parametric unsupervised cluster analysis. Pattern

Recognition,30(2):261-272,1997.

[SCHU70] Schuster E. F.: Note on the uniform convergence of density estimate, Ann.

Math. Statist 41,1970.

[WT96] K. Wang and J. Tan. Incremental Discovery of Sequential Patterns. In (1996)

ACM-SIGMOD Data Mining Workshop: Research Issues on Data Mining and

Knowledge Discovery (SIGMOD'96), pages 95-102, Montreal, Canada, May 1996.

[ZAK01] M. J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. In

Proc. of Machine Learning Journal, special issue on Unsupervised Learning (Doug

Fisher, ed.), Vol. 42 Nos. 1/2, pages 31-60, Jan/Feb 2001.

[ZLO98] M. J. Zaki, N. Lesh and M. Ogihara. PLANMINE: Sequence Mining for Plan

Page 55: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

48

Failures. In Proc. (1998) 4th International Conference on Knowledge Discovery and

Data Mining (KDD'98), pages 369-373, New York, August 1998.

[ZRL96] T.Zhang,R.Ramakrishman,and M. Livny. BIRCH:An efficient data clustering

method for very large databases,In Proc.1996 ACM-SIGMOD Int.Conf Management

of Data(SIGMOD’96),pages 103-114,Montreal, Canada,June 1996.

[ZPL97] M. J. Zaki, S. Parthasarathy, and W. Li. A localized algorithm for parallel

association mining. 9th Annual ACM Symposium on Parallel Algorithms and

Architectures, Newport, Rhode Island, June 1997.

[ZPO97] M. J. Zaki, S. Parthasarathy, M. Ogihara, and W. Li. New algorithms for fast

discovery of association rules. In Proc. 3rd International Conference on Knowledge

Discovery and Data Mining (KDD), Aug. 1997. [边 00] 边肇祺,张学工等. 模式识别(第二版). 北京:清华大学出版社,2000

[孙 95]孙家广, 杨长贵. 计算机图形学, 清华大学出版社,1995.

[邸99] 邸凯昌. 空间数据挖掘和知识发现的理论与方法. 武汉测绘科技大学博士研

究生学位论文, 1999.

[杜00] 杜鹢. 数据挖掘中关联规则的研究与应用. 解放军理工大学博士研究生学位

论文, 2000.

[范99] 范建华.基于云理论的数据开采技术及其在指挥自动化系统中的应用. 通信

工程学院博士研究生学位论文, 1999.

[李 94]李德毅. 发现状态空间理论. 小型微型计算机系统, 1994, 15(11) , p.1-6

[李 95]李德毅 , 孟海军, 史雪梅. 隶属云和隶属云发生器. 计算机研究与发展,

1995.6.

[李 01] 李德毅,王晔,吕辉军. 知识发现机理研究. 全国第九届人工智能年会,2001.

[韩 01] 韩家炜,坎伯.数据挖掘:概念和技术.机械工业出版社,2001,8.

Page 56: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

49

研究生期间发表的论文

1. 赵卫伟、李德毅,基于云模型的入侵检测方法,计算机工程与应用,

已录用。

2. 赵卫伟,基于网络的异常入侵检测方法,计算机工程与应用(增刊),

2002。

3. 李兴生,赵卫伟,一种基于类别的连续属性离散化方法,第 2 届 Rough

Set 国际会议。

4. 赵卫伟,初宁,基于 Linux平台的蓝牙协议栈实现分析,计算机工程,

2002。

Page 57: 数据场聚类及其实现 - defence.org.cn · 聚类软件,并将该聚类软件应用于聚类分析中,结果表明该方法具有对任 ... clustering software, we validate

中 国 人 民 解 放 军 理 工 大 学 硕 士 学 位 论 文

50

致 谢

首先,作者要向导师李德毅院士表示由衷的感激之情。李老师那渊博

的学识、富于创新的精神、敏捷的思维能力、实事求是的治学态度以及豁

达的胸怀、执着的人生信念、宽以待人的品质都深深地影响着我,使学生

叹服,且终生受益。李老师常说“师傅领进门,修行在个人”。然而从师

两年来,我的每一点进步都倾注了李老师无数的心血。正是他那敏捷的思

维、宽广的知识和对问题的透彻理解和分析,使我得以在学术和技术等方

面不断成长。本硕士论文是在李德毅院士的悉心指导下完成的,从选题、

研究方法到实验结果分析论证等各个环节,他都准确地把握了方向,及时

纠正了错误的思路。李老师不仅在学术上对我精心培养,严格要求,而且

在生活上给予了我热心和无私的关怀。在本文完成之际,谨向尊敬的导师

再次致以最诚挚的谢意!感谢您一年多来对学生的辛勤栽培。此外,我还

要衷心地感谢敬爱的娄子勤师母,您母亲般的关怀使我虽身处异乡,仍能

感受到家的温暖。

作者要衷心感谢解放军理工大学的江光杰教授、肖军模教授等曾经指

导过我和帮助过我的老师们。感谢研究生办公室和研究生队的领导和同学

们,感谢他们给予作者的热诚关心和帮助。

作者要向研究小组的全体成员表示深深的感谢,范建华博士、梁铁柱

博士、淦文燕博士、李兴生博士、张勇博士、王晔硕士、吕辉军硕士和陈

罡硕士、赵东宁硕士等都曾给予作者宝贵的指导和支持,与他们的每一次

讨论和交流,都使我受益匪浅。

作者要衷心感谢总参六十一研究所科技处和总体部为作者提供了良

好的工作和实验环境。感谢总参六十一研究所研究生班的全体同学。感谢

韩柯博士、孟海军硕士等对我的悉心指导和亲切关心,感谢所有关心过我

的领导、老师、亲人和朋友们。

最后,作者要感谢我最亲爱的父母,感谢他们的养育之恩和对我一如

既往的支持。正是他们的关心、理解和大力支持才促使我顺利完成学业。

谨以此文献给我最敬爱的父亲、母亲。