49
.nju.edu.cn Web的图结构分析 龚,南京大学

Web的图结构分析

Embed Size (px)

DESCRIPTION

计算机软件新技术国家重点实验室“青年学者论坛”学术报告 (May 11, 2012)

Citation preview

.nju.edu.cn

Web的图结构分析

程龚,南京大学

Gong Cheng (程龚) [email protected] 2 of 49

ws .nju.edu.cn

Web的

图结构分析

语义Web的

图结构分析

Gong Cheng (程龚) [email protected] 3 of 49

ws .nju.edu.cn

Web的

图结构分析

语义Web的

图结构分析

Gong Cheng (程龚) [email protected] 4 of 49

ws .nju.edu.cn

网页与超链接

Gong Cheng (程龚) [email protected] 5 of 49

ws .nju.edu.cn

Web的图结构 (Web graph)

南京大学

院系

计算机科学与技术系

Gong Cheng (程龚) [email protected] 6 of 49

ws .nju.edu.cn

分析Web图结构的意义(1)

最受关注的网页有哪些?

网页

排序

Gong Cheng (程龚) [email protected] 7 of 49

ws .nju.edu.cn

分析Web图结构的意义(2)

只通过跟随超链接能够浏览到多少网页?

网页

抓取

Gong Cheng (程龚) [email protected] 8 of 49

ws .nju.edu.cn

分析Web图结构的意义(3)

浏览到某个网页平均要跟随多少次超链接?

网站设计

Gong Cheng (程龚) [email protected] 9 of 49

ws .nju.edu.cn

以及,等等……

分析Web图结构的意义(n)

Gong Cheng (程龚) [email protected] 10 of 49

ws .nju.edu.cn

Web图结构的采样——网页抓取

Gong Cheng (程龚) [email protected] 11 of 49

ws .nju.edu.cn

采样质量的评价

普遍性:俗

多样性:杂

广泛性:多

Gong Cheng (程龚) [email protected] 12 of 49

ws .nju.edu.cn

分析指标(1)——入度 (In-degree)

2

3

4

1

1

1

Gong Cheng (程龚) [email protected] 13 of 49

ws .nju.edu.cn

入度分布

平均入度:4.51~7

1999, @Nature 2007, @TOIT

Gong Cheng (程龚) [email protected] 14 of 49

ws .nju.edu.cn

幂率分布 (Power-law distribution)

axxf

bxxf loglog

Gong Cheng (程龚) [email protected] 15 of 49

ws .nju.edu.cn

无标度网络 (Scale-free network)

xfxfcxaccxacxf

axxf

Gong Cheng (程龚) [email protected] 16 of 49

ws .nju.edu.cn

分析指标(2)——出度 (Out-degree)

1

2

2

2

3

2

Gong Cheng (程龚) [email protected] 17 of 49

ws .nju.edu.cn

出度分布

1999, @Nature 2007, @TOIT

幂率分布幂率分布

Gong Cheng (程龚) [email protected] 18 of 49

ws .nju.edu.cn

分析指标(3)——强连通分支 (Strongly connected component)

Gong Cheng (程龚) [email protected] 19 of 49

ws .nju.edu.cn

强连通分支的规模分布

2000, @WWW

Gong Cheng (程龚) [email protected] 20 of 49

ws .nju.edu.cn

Web的蝴蝶结结构 (Bow tie)

2000, @WWW

Gong Cheng (程龚) [email protected] 21 of 49

ws .nju.edu.cn

分析指标(4)——弱连通分支 (Weakly connected component)

Gong Cheng (程龚) [email protected] 22 of 49

ws .nju.edu.cn

弱连通分支的规模分布

2000, @WWW

Gong Cheng (程龚) [email protected] 23 of 49

ws .nju.edu.cn

弹性 (Resilience)

2000, @WWW

Gong Cheng (程龚) [email protected] 24 of 49

ws .nju.edu.cn

分析指标(5)——距离 (Distance)

Gong Cheng (程龚) [email protected] 25 of 49

ws .nju.edu.cn

平均距离

存在路径的概率:<25%

存在路径时的平均距离

尊重边的方向:16

忽略边的方向:7

2000, @WWW

Gong Cheng (程龚) [email protected] 26 of 49

ws .nju.edu.cn

小世界网络 (Small-world network)

NL log

Gong Cheng (程龚) [email protected] 27 of 49

ws .nju.edu.cn

最大距离/直径 (Diameter)

SCC的直径:≥28

全图的直径:~905

2000, @WWW

Gong Cheng (程龚) [email protected] 28 of 49

ws .nju.edu.cn

其它常用的分析指标

度相关系数 (Degree correlation)

频繁图模式 (Frequent graph patterns)

聚类系数 (Clustering coefficient)

社区结构 (Community structure)

……

Gong Cheng (程龚) [email protected] 29 of 49

ws .nju.edu.cn

Web的

图结构分析

语义Web的

图结构分析

Gong Cheng (程龚) [email protected] 30 of 49

ws .nju.edu.cn

语义Web

学校

隶属于

院系学生

就读于

是一种本体

(模式层)

实例

(数据层)

是一个 是一个 是一个

南京大学 南大计算机系 张航

隶属于

定义域

值域定义域

值域

就读于

Gong Cheng (程龚) [email protected] 31 of 49

ws .nju.edu.cn

分析对象

本体的图结构

实例的图结构

学校

隶属于

院系学生

就读于

是一种定义域

值域定义域

值域

南京大学 南大计算机系 张航

隶属于 就读于

Gong Cheng (程龚) [email protected] 32 of 49

ws .nju.edu.cn

本体的图结构

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 33 of 49

ws .nju.edu.cn

分析指标(1)——入度

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 34 of 49

ws .nju.edu.cn

入度分布

平均入度:5.72

2008, @ISWC

Gong Cheng (程龚) [email protected] 35 of 49

ws .nju.edu.cn

分析指标(2)——出度

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 36 of 49

ws .nju.edu.cn

出度分布

2008, @ISWC

Gong Cheng (程龚) [email protected] 37 of 49

ws .nju.edu.cn

分析指标(3)——强连通分支

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 38 of 49

ws .nju.edu.cn

强连通分支的规模分布

2008, @ISWC

Gong Cheng (程龚) [email protected] 39 of 49

ws .nju.edu.cn

分析指标(4)——弱连通分支

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 40 of 49

ws .nju.edu.cn

弹性

2008, @ISWC

Gong Cheng (程龚) [email protected] 41 of 49

ws .nju.edu.cn

分析指标(5)——距离

学校

隶属于

院系学生

就读于

Gong Cheng (程龚) [email protected] 42 of 49

ws .nju.edu.cn

平均距离

存在路径时的平均距离:10.05

2008, @ISWC

Gong Cheng (程龚) [email protected] 43 of 49

ws .nju.edu.cn

最大距离/直径与有效直径 (Effective diameter)

最大距离/直径:48

有效直径 (Effective diameter):23

2008, @ISWC

Gong Cheng (程龚) [email protected] 44 of 49

ws .nju.edu.cn

实例的图结构

南京大学 南大计算机系 张航

Gong Cheng (程龚) [email protected] 45 of 49

ws .nju.edu.cn

度分布、最大连通分支与有效直径

平均度:3.44

最大连通分支:88.13%

有效直径:11.53

南京大学 南大计算机系 张航

2010, @ESWC

Gong Cheng (程龚) [email protected] 46 of 49

ws .nju.edu.cn

Take-home messages

Gong Cheng (程龚) [email protected] 47 of 49

ws .nju.edu.cn

结论

Web

无标度网络

蝴蝶结结构

高弹性

小世界网络

语义Web

无标度网络

未知结构

低弹性

小世界网络

Gong Cheng (程龚) [email protected] 48 of 49

ws .nju.edu.cn

图结构分析的一般步骤

采样数据——多、杂、俗

建立图模型——含义明确

选择分析指标——有实际意义

执行分析——算法高效

解释、比较分析结果

推测图的生成模型

Gong Cheng (程龚) [email protected] 49 of 49

ws .nju.edu.cn

相关论文

Web的图结构分析

R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999)

A. Broder et al. Graph structure in the Web. WWW (2000)

D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet

Technology 7 (2007)

语义Web的图结构分析

G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008)

W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010)