.nju.edu.cn
Web的图结构分析
程龚,南京大学
Gong Cheng (程龚) [email protected] 2 of 49
ws .nju.edu.cn
Web的
图结构分析
语义Web的
图结构分析
Gong Cheng (程龚) [email protected] 3 of 49
ws .nju.edu.cn
Web的
图结构分析
语义Web的
图结构分析
Gong Cheng (程龚) [email protected] 4 of 49
ws .nju.edu.cn
网页与超链接
Gong Cheng (程龚) [email protected] 5 of 49
ws .nju.edu.cn
Web的图结构 (Web graph)
南京大学
院系
计算机科学与技术系
Gong Cheng (程龚) [email protected] 6 of 49
ws .nju.edu.cn
分析Web图结构的意义(1)
最受关注的网页有哪些?
网页
排序
Gong Cheng (程龚) [email protected] 7 of 49
ws .nju.edu.cn
分析Web图结构的意义(2)
只通过跟随超链接能够浏览到多少网页?
网页
抓取
Gong Cheng (程龚) [email protected] 8 of 49
ws .nju.edu.cn
分析Web图结构的意义(3)
浏览到某个网页平均要跟随多少次超链接?
网站设计
Gong Cheng (程龚) [email protected] 9 of 49
ws .nju.edu.cn
以及,等等……
分析Web图结构的意义(n)
Gong Cheng (程龚) [email protected] 10 of 49
ws .nju.edu.cn
Web图结构的采样——网页抓取
Gong Cheng (程龚) [email protected] 11 of 49
ws .nju.edu.cn
采样质量的评价
普遍性:俗
多样性:杂
广泛性:多
Gong Cheng (程龚) [email protected] 12 of 49
ws .nju.edu.cn
分析指标(1)——入度 (In-degree)
2
3
4
1
1
1
Gong Cheng (程龚) [email protected] 13 of 49
ws .nju.edu.cn
入度分布
平均入度:4.51~7
1999, @Nature 2007, @TOIT
Gong Cheng (程龚) [email protected] 14 of 49
ws .nju.edu.cn
幂率分布 (Power-law distribution)
axxf
bxxf loglog
Gong Cheng (程龚) [email protected] 15 of 49
ws .nju.edu.cn
无标度网络 (Scale-free network)
xfxfcxaccxacxf
axxf
Gong Cheng (程龚) [email protected] 16 of 49
ws .nju.edu.cn
分析指标(2)——出度 (Out-degree)
1
2
2
2
3
2
Gong Cheng (程龚) [email protected] 17 of 49
ws .nju.edu.cn
出度分布
1999, @Nature 2007, @TOIT
幂率分布幂率分布
Gong Cheng (程龚) [email protected] 18 of 49
ws .nju.edu.cn
分析指标(3)——强连通分支 (Strongly connected component)
Gong Cheng (程龚) [email protected] 19 of 49
ws .nju.edu.cn
强连通分支的规模分布
2000, @WWW
Gong Cheng (程龚) [email protected] 20 of 49
ws .nju.edu.cn
Web的蝴蝶结结构 (Bow tie)
2000, @WWW
Gong Cheng (程龚) [email protected] 21 of 49
ws .nju.edu.cn
分析指标(4)——弱连通分支 (Weakly connected component)
Gong Cheng (程龚) [email protected] 22 of 49
ws .nju.edu.cn
弱连通分支的规模分布
2000, @WWW
Gong Cheng (程龚) [email protected] 23 of 49
ws .nju.edu.cn
弹性 (Resilience)
2000, @WWW
Gong Cheng (程龚) [email protected] 24 of 49
ws .nju.edu.cn
分析指标(5)——距离 (Distance)
Gong Cheng (程龚) [email protected] 25 of 49
ws .nju.edu.cn
平均距离
存在路径的概率:<25%
存在路径时的平均距离
尊重边的方向:16
忽略边的方向:7
2000, @WWW
Gong Cheng (程龚) [email protected] 26 of 49
ws .nju.edu.cn
小世界网络 (Small-world network)
NL log
Gong Cheng (程龚) [email protected] 27 of 49
ws .nju.edu.cn
最大距离/直径 (Diameter)
SCC的直径:≥28
全图的直径:~905
2000, @WWW
Gong Cheng (程龚) [email protected] 28 of 49
ws .nju.edu.cn
其它常用的分析指标
度相关系数 (Degree correlation)
频繁图模式 (Frequent graph patterns)
聚类系数 (Clustering coefficient)
社区结构 (Community structure)
……
Gong Cheng (程龚) [email protected] 29 of 49
ws .nju.edu.cn
Web的
图结构分析
语义Web的
图结构分析
Gong Cheng (程龚) [email protected] 30 of 49
ws .nju.edu.cn
语义Web
学校
隶属于
院系学生
就读于
人
是一种本体
(模式层)
实例
(数据层)
是一个 是一个 是一个
南京大学 南大计算机系 张航
隶属于
定义域
值域定义域
值域
就读于
Gong Cheng (程龚) [email protected] 31 of 49
ws .nju.edu.cn
分析对象
本体的图结构
实例的图结构
学校
隶属于
院系学生
就读于
人
是一种定义域
值域定义域
值域
南京大学 南大计算机系 张航
隶属于 就读于
Gong Cheng (程龚) [email protected] 32 of 49
ws .nju.edu.cn
本体的图结构
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 33 of 49
ws .nju.edu.cn
分析指标(1)——入度
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 34 of 49
ws .nju.edu.cn
入度分布
平均入度:5.72
2008, @ISWC
Gong Cheng (程龚) [email protected] 35 of 49
ws .nju.edu.cn
分析指标(2)——出度
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 36 of 49
ws .nju.edu.cn
出度分布
2008, @ISWC
Gong Cheng (程龚) [email protected] 37 of 49
ws .nju.edu.cn
分析指标(3)——强连通分支
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 38 of 49
ws .nju.edu.cn
强连通分支的规模分布
2008, @ISWC
Gong Cheng (程龚) [email protected] 39 of 49
ws .nju.edu.cn
分析指标(4)——弱连通分支
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 40 of 49
ws .nju.edu.cn
弹性
2008, @ISWC
Gong Cheng (程龚) [email protected] 41 of 49
ws .nju.edu.cn
分析指标(5)——距离
学校
隶属于
院系学生
就读于
人
Gong Cheng (程龚) [email protected] 42 of 49
ws .nju.edu.cn
平均距离
存在路径时的平均距离:10.05
2008, @ISWC
Gong Cheng (程龚) [email protected] 43 of 49
ws .nju.edu.cn
最大距离/直径与有效直径 (Effective diameter)
最大距离/直径:48
有效直径 (Effective diameter):23
2008, @ISWC
Gong Cheng (程龚) [email protected] 44 of 49
ws .nju.edu.cn
实例的图结构
南京大学 南大计算机系 张航
Gong Cheng (程龚) [email protected] 45 of 49
ws .nju.edu.cn
度分布、最大连通分支与有效直径
平均度:3.44
最大连通分支:88.13%
有效直径:11.53
南京大学 南大计算机系 张航
2010, @ESWC
Gong Cheng (程龚) [email protected] 46 of 49
ws .nju.edu.cn
Take-home messages
Gong Cheng (程龚) [email protected] 47 of 49
ws .nju.edu.cn
结论
Web
无标度网络
蝴蝶结结构
高弹性
小世界网络
语义Web
无标度网络
未知结构
低弹性
小世界网络
Gong Cheng (程龚) [email protected] 48 of 49
ws .nju.edu.cn
图结构分析的一般步骤
采样数据——多、杂、俗
建立图模型——含义明确
选择分析指标——有实际意义
执行分析——算法高效
解释、比较分析结果
推测图的生成模型
Gong Cheng (程龚) [email protected] 49 of 49
ws .nju.edu.cn
相关论文
Web的图结构分析
R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999)
A. Broder et al. Graph structure in the Web. WWW (2000)
D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet
Technology 7 (2007)
语义Web的图结构分析
G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008)
W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010)