30
复杂网络研究:结构、流动与可视化 吴令2013-9

复杂网络研究 结构 流动_与可视化

Embed Size (px)

DESCRIPTION

network analysis and visualization

Citation preview

Page 1: 复杂网络研究 结构 流动_与可视化

复杂网络研究:结构、流动与可视化

吴令飞

2013-9

Page 2: 复杂网络研究 结构 流动_与可视化

1.复杂网络的基本研究格局

2. 点击流网络

3. 网络可视化

Page 3: 复杂网络研究 结构 流动_与可视化

为什么要研究复杂网络?

复杂网络提供了描述各种系统的统一方法,从而使得对复杂系统普适规律的讨论

变得可能。原本非常不同的动力学问题,现在都成了点和线的结构问题。

为什么可以这样做呢?

Cyber Aurora

NASA

Page 4: 复杂网络研究 结构 流动_与可视化

走不通的还原主义科学路

物理学望远镜 + 开普勒行星运动三大定律

1600

化学各种化学仪器 + 门捷列夫发布化学周期表

1867

生物学 X射线衍射+ 沃森与克里克发现DNA结构

1953

社会科学 互联网 + 大规模人类活动定律

1999

Anderson (1972) 说,More is different。但我觉得,他说得还不够透彻。

More is different, but massive is simple。

网络科学

演生论的新科学路

高能物理 凝聚态物理

事实上,复杂网络代表着一种新的科学思维

Page 5: 复杂网络研究 结构 流动_与可视化

抽象层级

Data

Mechanics

Pattern/Law

Principle

参考了王雄, 2012, “物理规律的四重境界:从经验世界到理念世界”

第谷:火星轨迹数据可以用大圆套小圆解释

开普勒:行星三大定律

牛顿:万有引力

爱因斯坦:引力几何化 理念世界

经验世界

物理学 复杂系统科学

生物、城市、网站等各种复杂系统被表达为网络数据

发现网络的普适规则

建立网络动力学模型

Dynamics of networks& Dynamics on networks

网络动力学的

几何化 or 逻辑化

从科学的四重境界看复杂网络的发展

me

Page 6: 复杂网络研究 结构 流动_与可视化

1998

复杂网络研究时间线

1999 2000197819561938 20042002 2005 20111949 200920081959

Social science

Ecology & Biology

Computer science

Math & Physics

social network

semantic network, hyperlink network

food web, vascular network

all kinds of networks

2012

Burst

Page 7: 复杂网络研究 结构 流动_与可视化

幂律度分布 加速增长

小世界

Data

Pattern

Law

Mechanics

偏好依附模型Albert & Barabasi, 1999

随机重连模型

Watts & Strogatz , 1998增长随机几何图模型

Zhang, 2013ER随机图

Renyi & Erdos, 1959

Principle?

高聚类系数

Page 8: 复杂网络研究 结构 流动_与可视化

Erdos, P., & Rényi, A. (1959). On random graphs. Publicationes Mathematicae Debrecen, 6, 290-297.

Watts, D. J., & Strogatz, S. H. (1998). Collective dynamics of “small-world”networks. Nature, 393(6684), 440-442.

Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. Science, 286(5439), 509.

Zhang, J. (2012). Growing Random Geometric Graph Models of Super-linear Scaling Law. arXiv, 1212.4914.

Page 9: 复杂网络研究 结构 流动_与可视化

实证网络

小世界

高聚类系数

幂律度分布

加速增长

ER随机图

Renyi & Erdos, 1959

偏好依附模型Albert & Barabasi, 1999

随机重连模型

Watts & Strogatz , 1998

双曲空间模型

Papadopoulos, 2012

考虑到这仅仅是个科普讲座,其他一些潜力尚未完全展现的理论分

支,如Song et al. (2005)调节小世界与分形的矛盾的网络模型等,暂不

介绍。

Kronecker图模型

Leskovec et al, 2010增长随机几何图模型

Zhang, 2013

流网络的加

速增长

me

科学游戏:建立自己的城,攻占别

人的城,不断扩张理论王国的领土

时间

Erdos

Watts

Barabasi

Leskovec

Jiang Zhang

Page 10: 复杂网络研究 结构 流动_与可视化

网络研究的发展方向:网络的动力学(Dynamics of networks)与网络上的动力学(Dynamics on networks)将会结合起来,研究流动与结构的相互影响。

Adrian Bejan

Constructal law: 自然界的流系统不断优化自己的结构以便让流更快通过。

城市交通-人流 河盆-水流 肺叶-气流 网站-点击流

Page 11: 复杂网络研究 结构 流动_与可视化

1.复杂网络的基本研究格局

2. 点击流网络

3. 网络可视化

Page 12: 复杂网络研究 结构 流动_与可视化

注意力动力学:观察创造世界

“你未看此花时,此花与汝同归于寂;你既来看此花,则此花颜

色一时明白起来,便知此花不在你心外。”——王阳明

注意力流

信息生产

Page 13: 复杂网络研究 结构 流动_与可视化

一个点击流示例网络 一个实际的点击流网络

2003-12-01的Delicious数据,节点是tag,连边是用户在tag之间的流动

基本变量

PV: 网络连边上的总流量

UV: 网络与外界的流量交换

L=PV/UV:网络的平均流长度/节点从源到汇的平均首达时间

Ti: 通过第i个信息资源的流量

Di: 第i个信息资源与外界的流量

交换

Pi=Di/TI:第i个信息资源上用户

的流失概率

发现存在基本方程

流在时间上的增长律

流在空间上的耗散律

可看做网络社区对用户的“黏度”

Page 14: 复杂网络研究 结构 流动_与可视化

从真实世界到虚拟世界的流动:互联网社区的新陈代谢理论

Kleiber’s law描述了不同物种的能量消耗与体积的普适规律。

West等人以能量流的输运为核心建立了生物学的新陈代谢理论。

Bettencourt等将这个理论用于描述人类城市的能源消耗与经济产出。

我们将这个理论用于描述网站的注意力消耗与信息产出之间的关系。

科学图景:国家,物种和网站,都可以看做一般流系统。货币、能量、注

意力在其中流进流出,满足新陈代谢的一般方程。

已在PloS One, Physical Review E, European Physical Journal B等期刊上发表数篇论文,研

究结论被New Scientist,Science Daily,Springer Selection等科学杂志报道。

Page 15: 复杂网络研究 结构 流动_与可视化

在百度贴吧的点击流网络得到验证的流规

律。

贴吧点击流的加速增长(宏观-网络)

点击流在帖子上的低耗散(介观-节点)

用户注意力随时间的快速下降(微观-流)

新进展:假设Di服从指数为-alpha的幂律,则存在如下关系

Page 16: 复杂网络研究 结构 流动_与可视化

一个以time-similarity偏好空间为背景的用户点击流模型

similarity

time

关键参数:

r:用户的搜索能力

P:用户评论的概率

t1

t2

规则:用户在当前时间线进入系统,并进行随机游走。在游走的每一步,如果半径r范围内有帖子,则消费该帖,并以概

率P发表评论顶贴或发表新帖,然后继续游走,否则死亡。

t2

Page 17: 复杂网络研究 结构 流动_与可视化

在百度贴吧的点击流网络得到验证的流规

律。

贴吧点击流的加速增长(宏观-网络)

点击流在帖子上的低耗散(介观-节点)

用户注意力随时间的快速下降(微观-流)

模型表现

Page 18: 复杂网络研究 结构 流动_与可视化

1.复杂网络的基本研究格局

2. 点击流网络

3. 网络可视化

Page 19: 复杂网络研究 结构 流动_与可视化

数据可视化的作用:加深对现象的理解

1. 将复杂的信息组织到一起。

2. 辅助进行数据分析。

好的可视化既美又传递信息,差的可视

化两者只占一个,或者都不占。

Page 20: 复杂网络研究 结构 流动_与可视化

美:使用重力算法保证

点在合适的位置,使用语言信息修订节点位置

并染色。

信息:网站在互联网世

界中的影响力。

网站流量

Page 21: 复杂网络研究 结构 流动_与可视化

期刊关系

美:使用Spring算法保证点在合适的位置,使

用学科信息对节点染

色。

信息:学科之间的关

系。

Page 22: 复杂网络研究 结构 流动_与可视化

飞机航线美但不传递有效信息

Page 23: 复杂网络研究 结构 流动_与可视化

传递信息但很丑

Page 24: 复杂网络研究 结构 流动_与可视化

电影相似度网络

电影-标签网络

使用可视化来帮助判定电影聚类的效果

Page 25: 复杂网络研究 结构 流动_与可视化

affinity cosine dice euclidean matching

随机数据

使用可视化(radial dendrogram)来帮助判定分层聚类的效果

电影数据

Page 26: 复杂网络研究 结构 流动_与可视化

电影分层聚类结构:失败的可视化(长得丑)

一个帮助工程师探索聚类层次的交互可视化平台

Page 27: 复杂网络研究 结构 流动_与可视化

百度贴吧星系:失败的可视化(信息传递不明确)

Page 28: 复杂网络研究 结构 流动_与可视化

谢谢!

[email protected]

Page 29: 复杂网络研究 结构 流动_与可视化

10个吧144小时内每小时网络的UV与PV

fx组合 阿森纳 爱情 耽美 鬼

九阴 手办买卖 校花的贴身高手 邪恶 最终进化

xbox360 cba itouch5

3个吧30天内不断累积的用户在时间上的游走步长分布

Page 30: 复杂网络研究 结构 流动_与可视化

L = 10

r = 3

r = 3

0 1 2 3 4 5 6 7 8 9

0

1

2

3

4

5

6

1. 在x=[0,L-1],y=r上随机选一点(淡绿格);

2. 从这一点出发开始沿着网格随机游走一步;

3. 在随机游走的每一步x’,y’(深蓝格),核对r步游走范围内(淡蓝格)是否已有城市(深绿格),如果有则重复2,

如果没有则停止游走,并记录该随机游走(深蓝格)的在x=[0,L-1],y=r上的投影位置。

(x0, y0)

(x1, y1)(x2, y2)