Upload
wlf850927
View
1.039
Download
5
Embed Size (px)
DESCRIPTION
network analysis and visualization
Citation preview
复杂网络研究:结构、流动与可视化
吴令飞
2013-9
1.复杂网络的基本研究格局
2. 点击流网络
3. 网络可视化
为什么要研究复杂网络?
复杂网络提供了描述各种系统的统一方法,从而使得对复杂系统普适规律的讨论
变得可能。原本非常不同的动力学问题,现在都成了点和线的结构问题。
为什么可以这样做呢?
Cyber Aurora
NASA
走不通的还原主义科学路
物理学望远镜 + 开普勒行星运动三大定律
1600
化学各种化学仪器 + 门捷列夫发布化学周期表
1867
生物学 X射线衍射+ 沃森与克里克发现DNA结构
1953
社会科学 互联网 + 大规模人类活动定律
1999
Anderson (1972) 说,More is different。但我觉得,他说得还不够透彻。
More is different, but massive is simple。
网络科学
演生论的新科学路
高能物理 凝聚态物理
事实上,复杂网络代表着一种新的科学思维
抽象层级
Data
Mechanics
Pattern/Law
Principle
参考了王雄, 2012, “物理规律的四重境界:从经验世界到理念世界”
第谷:火星轨迹数据可以用大圆套小圆解释
开普勒:行星三大定律
牛顿:万有引力
爱因斯坦:引力几何化 理念世界
经验世界
物理学 复杂系统科学
生物、城市、网站等各种复杂系统被表达为网络数据
发现网络的普适规则
建立网络动力学模型
Dynamics of networks& Dynamics on networks
网络动力学的
几何化 or 逻辑化
从科学的四重境界看复杂网络的发展
me
1998
复杂网络研究时间线
1999 2000197819561938 20042002 2005 20111949 200920081959
Social science
Ecology & Biology
Computer science
Math & Physics
social network
semantic network, hyperlink network
food web, vascular network
all kinds of networks
2012
Burst
幂律度分布 加速增长
小世界
Data
Pattern
Law
Mechanics
偏好依附模型Albert & Barabasi, 1999
随机重连模型
Watts & Strogatz , 1998增长随机几何图模型
Zhang, 2013ER随机图
Renyi & Erdos, 1959
Principle?
高聚类系数
Erdos, P., & Rényi, A. (1959). On random graphs. Publicationes Mathematicae Debrecen, 6, 290-297.
Watts, D. J., & Strogatz, S. H. (1998). Collective dynamics of “small-world”networks. Nature, 393(6684), 440-442.
Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. Science, 286(5439), 509.
Zhang, J. (2012). Growing Random Geometric Graph Models of Super-linear Scaling Law. arXiv, 1212.4914.
实证网络
小世界
高聚类系数
幂律度分布
加速增长
ER随机图
Renyi & Erdos, 1959
偏好依附模型Albert & Barabasi, 1999
随机重连模型
Watts & Strogatz , 1998
双曲空间模型
Papadopoulos, 2012
考虑到这仅仅是个科普讲座,其他一些潜力尚未完全展现的理论分
支,如Song et al. (2005)调节小世界与分形的矛盾的网络模型等,暂不
介绍。
Kronecker图模型
Leskovec et al, 2010增长随机几何图模型
Zhang, 2013
流网络的加
速增长
me
科学游戏:建立自己的城,攻占别
人的城,不断扩张理论王国的领土
时间
Erdos
Watts
Barabasi
Leskovec
Jiang Zhang
网络研究的发展方向:网络的动力学(Dynamics of networks)与网络上的动力学(Dynamics on networks)将会结合起来,研究流动与结构的相互影响。
Adrian Bejan
Constructal law: 自然界的流系统不断优化自己的结构以便让流更快通过。
城市交通-人流 河盆-水流 肺叶-气流 网站-点击流
1.复杂网络的基本研究格局
2. 点击流网络
3. 网络可视化
注意力动力学:观察创造世界
“你未看此花时,此花与汝同归于寂;你既来看此花,则此花颜
色一时明白起来,便知此花不在你心外。”——王阳明
注意力流
信息生产
一个点击流示例网络 一个实际的点击流网络
2003-12-01的Delicious数据,节点是tag,连边是用户在tag之间的流动
基本变量
PV: 网络连边上的总流量
UV: 网络与外界的流量交换
L=PV/UV:网络的平均流长度/节点从源到汇的平均首达时间
Ti: 通过第i个信息资源的流量
Di: 第i个信息资源与外界的流量
交换
Pi=Di/TI:第i个信息资源上用户
的流失概率
发现存在基本方程
流在时间上的增长律
流在空间上的耗散律
可看做网络社区对用户的“黏度”
从真实世界到虚拟世界的流动:互联网社区的新陈代谢理论
Kleiber’s law描述了不同物种的能量消耗与体积的普适规律。
West等人以能量流的输运为核心建立了生物学的新陈代谢理论。
Bettencourt等将这个理论用于描述人类城市的能源消耗与经济产出。
我们将这个理论用于描述网站的注意力消耗与信息产出之间的关系。
科学图景:国家,物种和网站,都可以看做一般流系统。货币、能量、注
意力在其中流进流出,满足新陈代谢的一般方程。
已在PloS One, Physical Review E, European Physical Journal B等期刊上发表数篇论文,研
究结论被New Scientist,Science Daily,Springer Selection等科学杂志报道。
在百度贴吧的点击流网络得到验证的流规
律。
贴吧点击流的加速增长(宏观-网络)
点击流在帖子上的低耗散(介观-节点)
用户注意力随时间的快速下降(微观-流)
新进展:假设Di服从指数为-alpha的幂律,则存在如下关系
一个以time-similarity偏好空间为背景的用户点击流模型
similarity
time
关键参数:
r:用户的搜索能力
P:用户评论的概率
t1
t2
规则:用户在当前时间线进入系统,并进行随机游走。在游走的每一步,如果半径r范围内有帖子,则消费该帖,并以概
率P发表评论顶贴或发表新帖,然后继续游走,否则死亡。
t2
在百度贴吧的点击流网络得到验证的流规
律。
贴吧点击流的加速增长(宏观-网络)
点击流在帖子上的低耗散(介观-节点)
用户注意力随时间的快速下降(微观-流)
模型表现
1.复杂网络的基本研究格局
2. 点击流网络
3. 网络可视化
数据可视化的作用:加深对现象的理解
1. 将复杂的信息组织到一起。
2. 辅助进行数据分析。
好的可视化既美又传递信息,差的可视
化两者只占一个,或者都不占。
美:使用重力算法保证
点在合适的位置,使用语言信息修订节点位置
并染色。
信息:网站在互联网世
界中的影响力。
网站流量
期刊关系
美:使用Spring算法保证点在合适的位置,使
用学科信息对节点染
色。
信息:学科之间的关
系。
飞机航线美但不传递有效信息
传递信息但很丑
电影相似度网络
电影-标签网络
使用可视化来帮助判定电影聚类的效果
affinity cosine dice euclidean matching
随机数据
使用可视化(radial dendrogram)来帮助判定分层聚类的效果
电影数据
电影分层聚类结构:失败的可视化(长得丑)
一个帮助工程师探索聚类层次的交互可视化平台
百度贴吧星系:失败的可视化(信息传递不明确)
10个吧144小时内每小时网络的UV与PV
fx组合 阿森纳 爱情 耽美 鬼
九阴 手办买卖 校花的贴身高手 邪恶 最终进化
xbox360 cba itouch5
3个吧30天内不断累积的用户在时间上的游走步长分布
L = 10
r = 3
r = 3
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
1. 在x=[0,L-1],y=r上随机选一点(淡绿格);
2. 从这一点出发开始沿着网格随机游走一步;
3. 在随机游走的每一步x’,y’(深蓝格),核对r步游走范围内(淡蓝格)是否已有城市(深绿格),如果有则重复2,
如果没有则停止游走,并记录该随机游走(深蓝格)的在x=[0,L-1],y=r上的投影位置。
(x0, y0)
(x1, y1)(x2, y2)