Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
复杂网络的结构和功能 M.E.J.Newman
Depart ment of Physics, University of Michigan, Ann arbor, MI 48109, USA and
Santa Fe Institute, 1399 Hyde Park Road, Santa Fe, NM 87501, USA
翻译:杨波 万阳松 韩丽川 校对:陈忠 编辑:陈晓荣
上海交通大学复杂系统与智能管理研究中心 上海 200052
近年来,受到因特网、社会网络、生物网络等网络形式系统的经验研究的启发,研究者们
提出了许多技术和模型,可以帮助我们理解和预测这些系统的行为。在此,我们回顾总结
一些研究进展,包括小世界效应、度分布、群聚以及网络相关等概念、随机图模型、网络
生长和偏好连接的模型、以及发生在网络上的动态过程。
内容
Ⅰ 引言
A 网络类型
B 其它文献资料
C 论文框架
Ⅱ 现实世界网络
A 社会网络
B 信息网络
C 技术网络
D 生物网络
Ⅲ 网络的属性
A 小世界效应
B 传递性或群聚属性
C 顶点度分布
1.无标度网络
2.最大顶点度
D 网络弹性
E 混合模式
F 顶点度相关性
G 群落结构
H 网络导航
I 其它网络属性
Ⅳ随机图
A Poisson随机图
B 一般随机图
1.配置模型
2.例子:幂律度分布
3.有向图
4.二部图
5.度相关
V 指数随机图和马尔柯夫图
Ⅵ 小世界模型
A 群聚系数
B 度数分布
C 平均路径长度
Ⅶ 网络生长模型
A Price模型
B Barabasi-Albert模型
C Barabasi-Albert模型的推广
D 其他生长模型
E 顶点拷贝模型
Ⅷ 发生在网络上的过程
A 渗流理论和网络弹性
B 传染过程
1.SIR模型
2.SIS模型
C 网络搜索
4
1.穷举网络搜索
2.有导向的网络搜索
3.网络导航
D 网络相变
E 其它网络上过程
Ⅸ总结和未来研究方向 参考文献
致谢(见原文)
Ⅰ 引言 网络是顶点(有时也称为结点)以及边(顶点或结点之间的关联)的集合(图 1)。网络形式的系统(在
很多数学文献中也称为“图”)随处可见,例如,因特网、万维网、社会网络、组织网络、公司间商务
关系网络、神经网络、新陈代谢网络、食物网、分布网络如血管分布或邮政运输路线分布、论文之间相
互引述而形成的网络,以及其它种种形式(图 2)。本论文评述了在诸如上述之网络系统的结构和功能
方面,近期(或部分前期)所进行的研究工作情况。
图 1 一个包含 8个顶点和十条边的小网络
图 2 本篇综述中主要提及的三种类型的网络。(a)反映淡水湖中物种捕食关系的食物网[272],图由 Neo Martinezh 和
Richard Williams 提供 ;(b)反映私人研究机构中科学家之间合作关系的网络[171];(c)个体之间性接触网络,见
Potterat 等人的研究[342]。
数学中以图论形式开展的网络研究是离散数学的基柱之一。欧拉 1735 年提出的著名的七桥问题解
是网络理论首个真正的证明并得到广泛引用。二十世纪期间,网络发展成为一个重要的知识实体。
在社会科学中网络也得到广泛研究。社会学中典型的网络研究包括调查问卷发放,问卷要求被调查
5
人详细描述与其他人的互动关系。利用问卷调查结果可以重新构建一个网络,其中顶点代表个人,边代
表人与人之间的作用关系。典型的社会网络研究包括中心性研究(所谓中心性即存在与其它个体联系最
为紧密的个体或存在具有最强影响力的个体),以及连通性研究(研究个体是否通过网络彼此发生联系,
以及如何发生联系)。
近年来,网络研究的焦点出现了一个重要的新变迁,即从对单个的含顶点数少的图以及图中个体顶
点或边的属性分析转变为对含大量顶点数的图的统计属性进行研究。这一新研究方法很大程度上得益于
计算机和通讯网络的出现,使得人们能够收集和分析远大于以前的规模的数据。过去,研究对象可能是
只有数十个顶点的网络,极端情况下也不过数百个顶点。如今,包含数百万个甚至数亿个顶点的网络也
屡见不鲜。网络规模的变化迫使我们相应地改变我们的分析方法。许多过去在小型网络研究中可能被问
及的问题已经不能够简单地在很多大型网络中适用了。社会网络的分析者可能会问,“网络中哪个顶点,
在被删除的情况下将证实其对网络的连通性最为关键?”但此类问题,对于多数包含有数百万个顶点的
网络来说,已几乎没有意义,在这种网络中删除单个顶点根本不会产生很大的影响。另一方面,对大型
网络而言,提出下面的问题是合理的,即“假定要对网络连通性产生实质影响,需要删除百分之多少的
顶点?”。此问题甚至是对于非常大型的网络而言也是具有现实意义的。
然而,近年来网络研究方法出现变化还有另一个常被忽视的原因,其重要性也不能被低估。对于只
有数十个或数百个顶点的网络而言,我们用实际的点和线就可以相对直接地画出网络图(图 2),并通
过观察图来回答有关网络结构的特定问题。这也是自网络研究领域开创以来,分析家们首要采用的方法
之一。人眼是一种非常强大的分析工具,用目光对网络图进行观察是一种了解其结构的极好方式。然而,
这一方法对于一个拥有百万个或上亿个顶点的网络来说却不起作用。仅凭一人之力不能够做到既描绘出
一个包含百万个顶点的网络图,同时又能够使其有意义,即使动用现代的 3D 计算机绘图工具也做不到
这点,从而要想通过眼睛观察进行直接地分析也是不可能的。近期在大型网络量化的统计方法方面的研
究进展在很大程度上是在进行一种尝试,试图发现可取代眼睛观察在二十世纪网络分析中作用地位的方
法。统计方法回答如下问题,“如何在不能够对网络作出实际观察的情况下得知这一网络的形象?”
本篇综述的首要目的有三个:第一,确定表征网络系统结构和行为的统计属性,如路径长度和度分
布,并对如何度量这些属性提出适当的方法建议;第二,构建能够帮助理解这些属性意义的网络模型—
—理解统计性质何以如此,彼此间又有何联系;第三,在已知结构属性和控制个体顶点的局部规则的基
础上,预测网络系统的行为。举例而言,网络结构是如何影响因特网上通讯的,其对网上搜索引擎的工
作方式有何影响作用,其对社会或生物系统动态的影响作用又如何。正如我们将看到的,科学界从大批
学科中汲取思想,从而为前两个目的的实现,即网络结构的属性描述和建模,开创出良好的开端。而另
一方面,有关结构对系统行为的影响作用的研究尚处于初期阶段,该领域中的关键理论进展还需进一步
观望。
A 网络类型
顶点和边的集合仅是网络类型中最简单的一种。有很多远较其复杂的网络类型存在(图 3)。例如,
网络中可能存在不止一种类型的顶点或边。并且,顶点或边可能会有很多属性与之相关联,如数值属性
或其它。以社会网络为例,顶点可以代表不同性别、国籍、地域、年龄、收入等的人。边可以代表相互
间的友谊,但也可以代表相互间的敌意,或者是职业上的交往,又或者是代表空间上的接近。边可以带
权重,如刻画二人相互认识程度的权重,也可以是仅有一个方向的边。由有向边构成的图称为有向图。
代表个人之间电话或电子邮件信息传递的图就是有向图,因为对每一条信息而言,它都是单方向传递的。
有向图可以是有环的,即图中包含边的闭合回路,也可以是无环的,即图中不包含边的闭合回路。有一
些网络,如食物网,就近似于是但又不完全是无环网络。
6
图 3 网络各种类型的例子:(a)仅包含单一类型顶点和单一类型边的无向网络;(b)包含众多不同类型顶点和边的网络;
(c)包含权重不同的顶点和边的网络;(d)每条边均有一个方向的有向网络;
图中还可能有超边——连接两个以上顶点的边。包含超边的图称为超图。超边可以用于刻画社会网
络中的家族关系,例如,n个个体由于属于同一直系家族而相互关联,就可用一条连接它们的 n边来刻
画。图也可用多种方式进行自然分割。二部图中有很多这样的例子。二部图包含两种类型不同的顶点,
边仅存在于不同类型的顶点之间。所谓的隶属网络就是二部图,图中人们通过共同的群体成员关系而相
互关联,二种类型的顶点代表人和群体。此外,图也可随时间而发生变化,添加或删除顶点或边,或者
定义在这些顶点和边上的值发生改变。除上述情况外,还存在很多具有其它复杂程度的网络。目前为止,
针对网络的研究远没有完备,有很多可能性还需要作深入探讨。本篇综述所涉及的文献中有关于这些变
化作出的描述,此处我们将给出部分实例。
不幸的是,网络研究用语会和其他来自不同领域的研究者的习惯术语相混淆。为避免出现(或至少
是减弱)这一混淆,我们在表Ⅰ中给出了在本综述中用到的某些术语的解释。
B 其它文献资料
近期出现了很多其它的有关此领域的评论,读者可能会希望查阅。Albert 和 Barabasi[13]以及
Dorogovtsev 和 Mendes[120]刊发了大量的学术评论,集中针对物理学文献。二者都将更多的注意力投
入于生长图模型,对此我们在综述第七节有所论述。一些持其它观点的短评见 Newman[309]和
Hayes[189,190]的文章,此两人关注所谓的“小世界”模型(见综述第六节),以及 Strogatz 的文章[387],
他对网络形式的动态系统的行为进行了有趣的探讨。
有很多书也值得一读。Dorogovtsev 和 Mendes 的书[122]是在他们前述评论基础上的扩充,书中再
次聚焦于生长图的模型。由 Bornholdt 和 Schuster[70]以及由 Pastor-Satorras 和 Rubi[330]编辑的书
中收集了一些著名研究者写下的各专题的文章,目前很多专题的详细研究内容在此书中都能够找到。
Newman 等人的书[320]收集了他们以前发表的论文,以及评论。
三本流行的有关网络研究的书也值得注意。Albert-Laszlo Barabasi 的《连接:网络新科学》[31]
对网络研究的近期进展情况作出了个人评述,书中特别关注他本人对无标度网络的研究。Duncan Watt
的《六度:关联时代的科学》[414]给出了社会学家对新旧发现的看法,部分具有一定历史意义。Mark
Buchanan 的《核心——小世界和极富创造力的网络科学》[76]从一名社会新闻工作者的角度给出了对
此领域的有趣描述。
此外更远一些来说,在一些特定领域还有很多有关网络研究的书。图论方面被广泛引用的书是
Harary[188]和 Bollobas[62]所著。社会网络理论家中著有有关网络研究的书见于 Wasserman 和
Faust[409]以及 Scott[363]。Ahuja 等人所著的书[7]是了解网络算法的有效信息来源。
7
===============================================================================
顶点(vertex,pl.vertices):网络的基本单元,也称为 site(物理学用)、结点 node(计算
机科学用)或演员 actor(社会学用)。
边(edge):连接两个顶点的线。也称为 bond(物理学用)、link(计算机科学用)、tie(社
会学用)。
有向(directed)/无向(undirected):一条边如果仅有一个方向可通行则称为有向边(如
两点之间的单行道),一条边如果仅有两个方向均可通行则称为无向边。有向边,有时也称为
弧(arc),可以比作是指向目标的箭矢。一个图若其中所有边均为有向边,则此图为有向图。
无向图也可视为是有向图,图中相关联的边等同于是有向图中的两条有向边。
度(degree):与一个顶点相关联的边的条数。注意,顶点度并不等同于与此顶点邻接的顶点
的个数,因为任两个顶点之间可能有多于一条的边存在。近来一些文章中,度被指为顶点的
“关联性(connectivity),但我们避免使用这种用法,因为关联性一词在图论中已有其它的
含义。有向图中每个顶点都有一个出度和入度,分别是指入边和出边的条数。
组元(component):一个顶点所属的组元是指,从此顶点出发沿着有图中边所构成的路径可
以到达的顶点集合。有向图中一个顶点同时有入组元和出组元,分别是指沿着有图中边所构
成的路径可以到达此顶点的顶点集合,以及此顶点出发沿着有图中边所构成的路径可以到达
的顶点集合。
最短路(geodesic path):最短路是指经由网络从一个顶点道另一个顶点的最短路径。注意,
两个顶点之间的最短路可能是并且经常是不止一条。
直径(diameter):网络的直径是指任两个顶点之间最短路径的最长长度(长度是指包含的边
数)。一些学者也用此术语来表示图中平均最短距离,虽然严格意义上说这两个量区别非常大。
==============================================================
表Ⅰ 本论文中用到的某些术语
C 论文框架
本综述框架如下。第二节论述了有关网络结构的经验研究情况,包括社会网络、信息网络、技术网
络和生物网络。第三节论述了在很多网络中都能够观察到的一些共同属性,回答如何度量这些属性的问
题,以及解答他们为何被认定对网络系统的运作起到重要作用。第四到第七节是本篇综述的中心,描述
了有关网络数学建模方面的研究工作,包括随机图模型和它们的一般性模型、指数随机图、p*模型和
Markov图、小世界模型及其变异模型、生长图模型包括偏好连接模型及其变异模型。论文第八节讨论发
生在网络上的过程的研究进展,包括网络传播过程、网络故障、相变模型、以及诸如随机布尔网络和元
胞自动机的动态系统。论文第九节给出结论,并指出未来研究方向。
Ⅱ 现实世界网络 本节我们来看看有关不同类型网络结构的研究。近来关于网络的数学研究工作的开展很大程度上是
由实际网络属性的观察所推动,试图对它们进行建模,因此对于本文而言收集网络数据明显应是起点。
同时,观察来自于不同种类网络的数据也是有意义的举措。近来此领域研究的主要突破之一是对来自不
同科学分支的网络的对比研究,重点是针对这些网络中的大部分所具有的共同属性以及反映这些属性的
数学进展,这一工作的激励源泉特别要提到 Watts 和 Strogatz[416]1998 年突破性的论文。本文我们将
针对四个松散的网络类别进行总结:社会网络,信息网络,技术网络和生物网络。
8
A 社会网络
社会网络是人或人的群体的集合,这些人之间具有某一接触或相互作用模式[363,409]。个体之间
友谊模式[296,348],公司之间商业关系模式[269,286],以及家族之间联姻模式[327]这些都是过去已
被研究的例子1。在众学科中,社会科学拥有的对现实世界网络进行实质的定量研究的历史最长
[162,363]。与此主题有关的早期研究中特别值得一提的包括:Jacob Moreno在二十世纪 20 年代和 30
年代对小群体中的友谊模式进行的研究[296];Davis等人所谓的“南方女性研究[103],其关注 1936
年美国南方一个未具名的城市中妇女的社交圈;Elton Mayo及同事对二十世纪 30 年代后期芝加哥工厂
工人的社会网络进行的研究[357];Anatol Rapoport的数学模型[346],他是强调顶点度分布在所有类
型的网络,而不仅是在社会网络中具有重要性的首批科学家之一,也可能他就是第一人;Rapoport和其
他人对校童的友谊网络进行的研究[149,348]。最近,有关商业团体的研究[167,168,269]和性接触模型
的研究[45,218,243,266,303,342]吸引了特别的注意。
另一组重要的实验是著名的Milgram“小世界”实验[283,393]。这些实验并未重建实际网络,但它
们告诉我们有关网络结构的东西。实验要求参与者把一封信2传给他们熟悉的人之一使这封信最后传到
指定目标个体,藉此来探明熟人网络中路径长度的分布。实验中大多数信都被弄丢了,但有大约四分之
一的信到达了目标人,这种情况下平均传过人之手仅有约六人。这一实验是流行的“六度分离”概念的
起源,虽然“六度分离”这个词在Milgram的文章中并没有出现,它是由Guare在几十年后造出来的[183]。
Garfield撰写了一篇关于Milgram的研究和源自于Milgram的研究的简短但有价值的早期述评[169]。
传统的社会网络研究经常遭遇不准确、主观性和小样本的问题。除了一些精巧的间接研究,如
Milgram 的研究外,通常是通过利用问卷或面谈的方式直接询问参与者来进行数据收集的。这些方法工
作量大,因此限制了能被观察的网络规模的大小。此外,调查数据受到回答方的主观偏见影响;例如一
位回答者定义其朋友的方式与另一回答者相比可能有相当的不同。虽然在消除可能的不一致源头方面投
入了很多努力,但一般认为这些研究中的大多数都存在大的、本质上无法控制的错误。Marsden 撰写了
有关这些问题的述评[271]。
由于这些问题的存在,很多研究者转向用其它方法来探究社会网络。一个丰富且相对可靠的数据源
是协作网络。它们是典型的隶属网络,在其中参与者按一种或另一种方式分群合作,并且个体对之间的
联系是通过共同的群成员资格建立的。此种类型网络一个经典而意义不甚大的例子是电影演员的协作网
络,这在在线因特网电影数据库中有详细记载3。该网络中演员在电影里合作,两位演员如果他们一同
在电影中出现则认为他们之间有联系。很多学者对该网络的统计属性进行了研究[4,20,323,416]。此种
类型网络另一些例子包括公司董事网络,其中两位董事如果他们属于同一个董事会则是关联的
[104,105,269];学术合作网络,其中个体如果他们曾合作过一篇或多篇论文则是关联的
[36,43,68,107,182,279,292,311,312,313];同时露面网络,其中个体如果他们在同一处被提及则是关
联的,特别是在网页上[3,227]或在报纸文章上[99](见图 2b)。
另一个关于人们之间个人联系的可靠数据源是某些种类的通讯记录。例如,我们可构建一网络,在
其中两个人之间的每条(有向)边代表从一个人到另一个人的通过邮寄递送的信或包裹。就我们目前所
知,有关此类网络的研究目前还没有发表过,只是发表过一些相似的东西。Aiello 等人[8,9]对由 AT&T
长途网络一天内的通话所构建的网络进行了研究。此网络中顶点代表电话号码,有向边代表从一个号码
向另一个号码呼叫。尽管只是一天,这个图就非常庞大了,有约五千万个顶点,目前是继万维网图之后
1 偶尔也有关于动物的社会网络的研究,例如海豚[96],这里不论及虚构人物的网络,如托尔斯泰的《安娜·卡列尼娜》
中的主角[244]或Marvel Comics的超级英雄[10]。 2 实际上是一个包含几个文档的文件夹。 3 http://www.imdb.com
9
研究的最大图之一。Ebel 等人[136]利用 email 服务商保留的日志文件重新构建了 Kiel 大学五千名学
生之间的 email 通讯模式。此网络中顶点代表 email 地址,有向边代表从一个地址向另一个地址传送的
信息。有关 email 网络的研究还见 Newman 等人的文章[321]和 Guimera 等人的文章[185],Smith 针对
“即时信息传送”系统构建了相似网络[371],Holme 等人相似网络的构建是针对因特网社区网址的
[196]。Dodds 等人[110]进行的是 Milgram 小世界实验的 email 版本实验,其中要求参与者传递一条
email 信息给他们的朋友中的一人,为了最终将信息传给某一选定的目标个体。实验的回应率相当低,
但记录下来了几百个完全信息链,这足够来进行各种统计分析了。
B 信息网络
第二种网络类别是我们将称之为信息网络的类别(有时也称为“知识网络”)。信息网络经典之例是
学术论文之间的引文网络[138]。大部分学术论文都经由相关主题的其它文章来引用以前做的工作。这
些引用就形成了一个网络,在其中顶点代表论文,从论文 A到论文 B的有向边代表 A引用 B。则引文网
络的结构反映了存储在它的顶点上的信息的结构,即术语“信息网络”,当然论文的引用模式也有社会
的方面因素在内[420]。
引文网络是非循环的(见第一节 A),因为论文仅能引用已写好的其它文章,而不能引用还没写的
文章。因此,网络中所有的边都同时向后指,使得闭合环不可能存在,或至少是极少存在(见图 4)。
作为科学研究的对象,引文网络的很大优势在于可获得丰富且准确的数据。发行模式的定量研究至
少可以追溯到 1926 年Alfred Lotka的所谓的科学生产力规律的极具创造性的发现,它指出,个体科学
家撰写的论文数的分布服从幂律。即,撰写过 k篇论文的科学家的人数减少到 k α−,α 为某常量。(事
实上,这一结果也可推广到文科和人文学科。)有关引用模式的认真研究开始于二十世纪 60 年代,当经
过Eugene Garfield和其他开创者在目录度量学领域的工作使大型引文数据库成为可用。因引用而形成
的网络在Price早期论文中有所讨论[343],其中作为结果之一,作者首次提出,网络的入度和出度分布
都服从幂律,这是一个深远的发现,我们在第三节C中有进一步讨论。从那以后,出现了很多其它的有
关引文网络的研究,这些研究利用从引文数据库中获得的更好的资源。特别值得一提的是Seglen[364]
和Redner[351]所做的工作4。
图 4 两个研究得最成功的信息网络。左边:学术论文引文网络,其中顶点代表论文,有向边代表一篇论文被另一篇论文
引用。由于论文只能够引用那些在它们之前的文章(图中位置更低的部分),所以图是非循环的——没有闭合环。右边:
万维网,一个由因特网上可获得的文本页面构成的网络,其中顶点代表页面,有向边代表超链接。万维网上没有限制环
的出现,因此一般而言它是循环的。
信息网络另一个非常重要的例子是万维网,它是一个由包含各种信息的网页所构成的网络,这些网
页由从一张页面到另一张页面的超链接联结[203]。不要将万维网和因特网相混淆,后者是一个由通过
4 引用模式研究的一项有趣的发展是自动引用“爬行者”的开发,它从在线论文构建引文网络。例子包括Citeseer(http://citeseer.nj.nec.com/),SPIRES(http://www.slac.stanford.edu/spires/hep/)和Citebase(http://citebase.eprints.org)。
10
光缆和其它数据连接物联结在一起的计算机形成的网络5。不像引文网络,万维网是循环的;不存在地
址的自然排序,没有限制闭合环的出现(图 4)。万维网自从二十世纪 90 年代首次出现以来,有相当多
的研究是有关它的,特别有影响力的包括Albert等人的研究[14,34],Kleinberg等人的研究[241]以及
Broder等人的研究[74]。万维网也具有幂律分布的入度和出度(第三节C),以及各种其它的有趣的属性
[2,14,74,158,241,254]。
关于万维网要注意的重要一点就是,我们的有关万维网的数据来自于网络“爬行”,其中是通过从
其它页面跟踪超链接而找到网页的[74]。因此,我们得到的万维网的网络结构描绘必定带有偏倚。页面
仅当有另一张页面指向它的时候才会被发现6,并且一次爬行仅覆盖了万维网一部分(所有爬行都是这
样),指向一些网页的其它页面越多,这些网页就越可能被发现[263]。这说明了,比方说,我们可能低
估了拥有低入度的网页所占的比例7。这一行为与引文网络的行为形成对比。一篇论文即使它从未被引
用过,它也能出现在引文索引中(事实上索引中的大多数论文都从未被引用过)。
对信息网络其它一些例子进行的研究较少。例如,Jaffe 和 Trajtenberg[207]研究了美国专利之间
的引用网络,它在某些方面类似于学术论文之间的引用。很多学者对点对点网络进行了研究[5,6,205],
它是计算机虚拟网络,允许局域网和宽带网计算机用户之间共享文件。Knuth[244]研究了辞典中单词类
别之间关系的网络,最近还有其它不同学者对此进行了研究[234,304,384]。此网络可被看作为信息网
络——辞典使用者在这一网络上“冲浪”,从一个词到另一个词,寻找准确捕捉到了他们脑海中的思想
的特定词。然而,它也能被看作为代表语言结构的概念网络,或甚至可能是被用于描绘语言的心智构造。
还有很多其它的语义词网络也得到研究[119,157,369,384]。
偏好网络提供了一个双向信息网络的例子。偏好网络有两种顶点,分别代表个体和他们的偏好物,
如书或电影,每一个体通过一条边和他们喜欢的书或电影连结起来。(偏好网络也可加权重来显示喜欢
或不喜欢的程度。)偏好网络一个被广泛研究的例子是电影偏好的Eachmovie数据库8。这种网络构成了
协作渗流算法和介绍人系统的基础,这些技术用于在比较个体偏好和其他人偏好的基础上预测新的喜好
和厌恶[176,352,367]。协作渗流技术获得了相当大的商业成功,包括产品推销和目标广告,特别是同
在线零售商一起。偏好网络也可被视作是社会网络,不仅把人与物连接在一起,还把人和与之有相似偏
好的其他人连接在一起。这一方法偶尔在文献中被采用[227]。
C 技术网络
网络的第三种类别是技术网络,这是人造网络其设计的典型目的是分配一些商品或资源,如电或信
息。电力格子是一个很好的例子。这是一个高伏电压三相传输线的网络,跨越一个国家或者国家的一部
分(与地方上低伏电压 a.c.电力传输线相对比,后者跨越的是个别附近的几个地方)。有关电力格子的
统计研究有一些学者作过,例如,Watts 和 Strogatz[412,416]和 Amaral 等人[20]。有研究的其它分配
网络包括航空路线网络[20],和道路网络[221],铁路网络[262,366]以及人行交通网络[87]。河流网络
被视为是分配网络的自然出现形式(实际上是一个托收网络)[111,270,353,356],就像第二节 D 中讨
论的血管网络一样。电话网络和诸如邮局或包裹递送公司使用的那些递送网络也都属于这一一般性类
别,并且在学术研究者之前就有相关企业进行了研究。(此处我们区分开来电线和电缆的物理电话网络
以及在第二节 A中讨论的谁呼叫谁的网络。)电子电路[155]介于分配网络和通讯网络之间。
5 而万维网主要是一个信息网络,像引文网络一样,其结构也有社会方面的因素在内[3]。 6 严格的说这不总是正确的。一些万维网搜索引擎允许公众成员递交页面作为数据库中内容,这样的页面无需是其它任何页面链接的目标。然而,此种页面也形成了所有万维网页面的一个非常小的部分,且当然的是此处所讨论的偏倚也定
存在。 7 图 6中所示万维网的顶点度分布在低入度值处轻微减少,这可能反映了这种偏差。 8 http://research.compaq.com/SRC/eachmovie/
11
另一个研究得非常广泛的技术网络是因特网,即,计算机之间物理连接网络。由于因特网上计算机
的数量庞大且经常变动,因此对此网络结构的研究通常是粗略的,针对路由器——网络上控制着数据运
动的有特殊目的的计算机,或“自治系统”——即计算机群,群中联网是局部处理的,而群之间数据在
公共因特网上流动。单个公司或大学的计算机可能形成一个自治系统——此自治系统经常利用域名进行
简单联系。
事实上,对因特网上物理连接网络不容易观察,因为其基础结构部分是受很多分割开的组织控制的。
因此典型做法是,研究者通过从点对点数据通道的大型样本中推理来重构网络。所谓的“踪迹路线”程
序能够报告网络顶点的顺序,即数据包在两个点之间游走时经过的顺序,如果我们假设网络中沿着这样
一条路径上任意两个连续顶点之间存在一条边,那么足够大数目的路径样本将为我们提供整个网络的一
个相当全面的描绘。然而,可能存在一些从未被抽样的边,因此依上重构出来的东西虽然较好,但不能
够完美的代表因特网的真实物理结构。其他一些学者也对因特网结构进行了研究,包括 Faloutsos 等人
[148],Broida 和 Claffy[75]和 Chen 等人[86]。
D 生物网络
很多生物系统可以被表示成网络。生物网络的典型例子可能是代谢路径网络,它是代谢基质和代谢
产物的刻画,如果一已知代谢反应存在,其作用于给定基质并产生指定产物,两者之间由有向边连接。
我们中的多数人都可能在某种状况下看过被很多分子生物学家钉在墙上的代谢路径巨图9。一些学者对
代谢网络的统计学属性进行了研究,例如,Jeong等人[214,340],Fell和Wagner[153,405],以及Stelling
等人[383]。一个不同的网络是蛋白质之间的力学物理相互作用网络(与代谢物中的化学反应相对),它
经常被指为蛋白质相互作用网络。很多学者对相互作用网络进行了研究[206,212,274,376,394]。
生物网络另一种重要的类别是基因调节网络。基因表达式,即基因编码蛋白质的转录和翻译产物,
能够被其它蛋白质的存在所控制,包括催化剂和抑制剂,因此基因组自身形成了一个开关网络,顶点代
表蛋白质,有向边代表蛋白质产物对其它顶点蛋白质的依赖。调节网络的统计结构近来得到不同学者的
研究[152,184,368]。实际上,基因调节网络是首批人们试图对其进行大规模建模的网络化动态系统之
一。Kauffman 对随机布尔网的早期研究[224,225,226]是此领域的经典,几十年来都领引着近代的发展。
生物网络另一个研究得很多的例子是食物网,其中顶点代表生态系统中的物种,从物种 A到物种 B
的有向边表明 A 捕食 B[91,339]——见图 2a。(有时按相反方向来画关联关系,因为生物学家倾向于根
据流经食物网的能量流或炭流来考虑;因此 捕食者-猎物关联关系被画为从猎物指向捕食者的箭头,
表明当猎物被吃时能量从猎物流向捕食者。)完全的食物网的构建是工作量非常大,但近年来可获得了
很多相当广泛的数据集 [27,177,204,272]。一些学者对食物网的拓扑结构进行了统计学研究,他们包
括 Sole 和 Montoya[290,375],Camacho 等人[82]以及 Dunne 等人[132,133,423]。Jordano 等人[219]
对植物和食草动物网络进行了特别彻底的研究,包括对不少于 53 个不同网络的统计。
神经网络是另一种类别的相当重要的生物网络。对现实神经网络的拓扑结构进行测度极为困难,但
在一些案例中得到成功实施。最有名的例子是线虫 C.Elegans 的包含 282 个神经元的神经网络的重建,
这项工作是由 White 等人做的[421]。Sporns 等人[379,380]对比个体神经元规模更大的大脑的网络结
构即功能区和路径进行了研究。
血管网络和相似的植物脉管网络是生物学异速生长理论模型的基础,这一模型是网络结构对网络化
系统的行为影响的最为成功的理论模型之一( [29,417,418]),虽然就我们所知还没有有关的统计结构
9 代谢网络的标准图有些让人误解。处于清楚和审美的原因,图上很多代谢物在不止一个地方出现,因此一些顶点对实际上是同一个顶点。
12
的任何定量研究。
最后,提一下来自于物理科学的两个网络例子,眼镜中的自由能最小值和鞍点网络[130]以及聚合
体构造和聚合体之间相变的网络[361],这两种网络都表现出一些有趣的结构属性。
Ⅲ 网络的属性 随机图可能是最简单而有用的网络模型,其最早研究见于 Rapoport[346,347,378]和 Erdos 及
Renyi[141,142,143],这在论文第四节 A有所论述。该模型中,顶点数固定为n,顶点间由无向边随
机相连,由此构成一个网络,网络中有 )1(21
−nn 条可能边,每条边出现的概率为 p且相互独立,与每
个顶点相连的边的条数,即顶点的度,服从二项分布或大 极限下的 Possion 分布。一些数学家[63,
211,223]也对随机图进行了非常好的研究,所得很多结果,包括近似的和精确的结果,都得到了严格
证明。过去几年间,现实世界网络的很多有趣的特征吸引了研究者们的关注。然而,这些特征表明网络
不同于随机图。现实世界网络具有非随机性,这一正逐步显现出来的事实指出了能够被用于操纵网络形
成的可能机制以及能够被利用来开发实现特定目的的网络结构的可能方式。本节描述了很多不同类型的
网络所共同具有的一些特征。
n
A 小世界效应
在第二节 A中,我们描述了 Stanley Milgram 在十九世纪六十年代所作的一个著名的实验。实验过
程中,信从一个人传到另一个人,仅需要很少次的步骤此信就能够到达指定的目标人。据实验公布显示,
此步骤数大约为六次。这一结果是小世界效应的首批直接证明之一,证实了多数网络中的大部分顶点对
似乎都经由网络中的一条短路径相连。在 Milgram 之前已有研究对小世界效应的存在提出猜测,特别是
1929 年匈牙利作家 Frigyes Karinthy 发表的短篇故事[222]。而 Pool 和 Kochen 的数学著作[341]对此
作出了更为严格的猜测,尽管他们的著作发表于 Milgram 之后,但其在 Milgram 关注此问题之前就以预
订本的形式流通了十年。如今,小世界效应已在很多不同网络中得到了直接地研究证实。
考虑一个无向网络,定义 l是网络中顶点对之间的平均最短距离:
∑≥+
=ji
ijdnn
l)1(
21
1 , (1)
其中, 是从顶点 i到顶点 的最短距离。注意,此平均数中包含了从每个顶点到其自身的距离(为 0)。
在很多情况下,此式在数学上都是可适用的,但并非所有的研究者都采用它。总的来说,用
ijd j)1/()1( +− nn
乘上 ,由此给出 阶的修正量,实际中这一点常被忽略。 l 1−n
对于一个有 个顶点 条边的网络,用简单的广度优先搜索法,在物理文献中也称为“燃烧算法”,
可以算出 的值,其时间复杂度为 。表Ⅱ给出了多种不同网络 的值,它们均引自文献。如表所
示,所有情况下,l的值都相当小——例如,均远比顶点数 n要小。对于包含不止一个元素的网络而言,的定义式(1)存在问题。在这种情况下,存在没有路径连接的顶点对。对此,一般做法是令此顶点
对之间最短距离为无穷大,但这样, 的值也变为无穷了。为避免这一问题,常定义此网络 的值为所
有有路径相连的顶点对之间的平均最短距离。此平均数中排除了无任何路径相连的顶点对。表Ⅱ中的数
字均是以这种方式计算出的。一个可供选择并且可能更为令人满意的方法是定义 l为所有顶点对之间的“调和平均”最短距离,即倒数平均值的倒数:
n ml )(mnO l
ll l
∑≥
−−
+=
jiijd
nnl 11
)1(21
1 , (2)
13
这样, 的无穷值就对总数没有影响。在网络计算中这一方法仅偶尔被采用,但其可能应当得到更多
的应用。
ijd
表Ⅱ 一些已公布网络的基本统计属性值,包括:图类型,有向或无向;顶点的总个数 ;边的总条数 ;平均顶点度
;顶点到顶点的平均距离 l;在顶点度分布服从幂律分布的情况下顶点度分布的幂n m
z α 值(如果不服从则为“-”;有向图下分别给出入度和出度分布的幂值);由方程(3)得到的群聚系数 ;由方程(6)得到的群聚系数 ;第三
节 F中的顶点度相关系数
)1(C )2(Cr;最后一栏是此网络被引为参考的次数。空白项表明此项无可得数据。
对于网络发生过程的动力学而言,小世界效应具有明显的含义。例如,如果考虑信息或其它任何之
物在网络上的传播,小世界效应表明在多数现实世界网络上这将会是一个快速的传播过程。举例子来说,
如果一个谣言从任意一人传播到任一其他人只需要六步,那么它的传播速度将远比在需要一百步或一百
万步的情况下快得多。小世界效应影响到因特网上数据包从一台计算机传递到另一台计算机所需经过的
顶点数,影响到乘坐飞机或火车的旅行者途中所需经过的中转站数,影响到一种疾病在人群中传播所需
的时间长短,以及其它。小世界效应也解释了一些著名的游戏,特别是Erdos的数字计算游戏[107]和
Bacon的数字计算游戏。10
另一方面,小世界效应的数学含义也显而易见。如果与一个作为标记的中心顶点的距离为 r的顶点的个数随 r的值指数增长——这一情况在很多网络包括随机图(第四节 A)中真实存在,那么 l的值将以 的速度增长。近年来,“小世界效应”这一术语有了一个更为确切的含义:如果网络平均顶点度
固定, l的值随网络大小以对数的速度或慢于对数的速度增长,那么称此网络具有小世界效应。对数增长的情况在很多网络模型中得到证实[61,63,88,127,164]并在大量现实世界网络中也可观察到[13,
312,313]。而在一些网络中,顶点间平均距离增长速度则低于 。Bollobas 和 Riordan 提出[64],
具有幂律分布(第三节 C)的网络,其 的值的增长速度不比 要快(参见参考文献 164)。
并且,Cohen 和 Havlin 给出论据说明[95],实际的变化速度可能比前述情况还要慢。
nlog
nlogl nn loglog/log
10 http://www.cs.virginia.edu/
14
B 传递性或群聚属性
从网络的传递性属性当中可以清楚的看出与随机图行为的偏离情况,该属性有时也称为群聚属性。
由于后一术语在网络研究中还有另外的含义(见第三节 G),所以彼此可能会发生混淆。在很多网络当
中,存在下述情况,即如果顶点 A与顶点 B相连,并且顶点 B与顶点 C相连,那么顶点 A也极有可能与
顶点 C相连。用社会网络的语言来说,你的朋友的朋友也可能是你的朋友。根据网络拓扑学,传递性意
指网络中存在三角形个数的情况,所谓三角形是指网络中包含三个顶点的集合,其中每个顶点与其它两
个顶点都有边关联。此个数情况能够用群聚系数C来量化:
顶点关联三点组的个数
网络中三角形的个数×=
3C , (3)
其中,“关联三点组”是指包含三个顶点的集合,集合中一个顶点有边与其它两个由无向边相连的顶点
相关联(见图 5)。
实际上,C等于因添加第三条边而形成三角形的三点组的个数占三点组总个数比例。分子中的因子 3 是指每个三角形在三点组中要计数三次,C的值在[0,1]间变动。简言之, 为平均概率,即网
络中与同一个顶点相连的另两个顶点自身相互关联的平均概率。可用下式表示:
C
的路径的条数长度为
网络中三角形的个数
26×
=C , (4)
其中,长度为 2 的路径是指从一个指定顶点开始的有向路径。此定义表明,C也等于你朋友的朋友也是你的朋友的情况出现的平均概率。
此处给出的 的定义被广泛应用于社会学文献,在其中它等于“传递三点组的个数占三点组总个
数比例”。
C11数学和物理学文献中有关的讨论大概是始于Barrat和Weigt[40]。
群聚系数另一个定义也得到广泛应用,它是由 WattsStrogatz 提出的[416]。定义局部值
为中心的三点组的个数以顶点
的三角形的个数包含顶点
iiCi = , (5)
对于度为 0或 1 的顶点而言,由于分子和分母均为 0,令 。整个网络的群聚系数就是 的平均值 0=iC iC
∑i
iCn
C 1= , (6)
实际上,此定义把计算三角形的个数占三点组总个数的比例与计算平均值两个运算过程的顺序进行了调
换,即先计算比例的平均值,而非平均值的比例。度数小的顶点,由于在方程(5)中的分母小,因此
其局部值更大,对 的贡献值更大,由此所得结果与在方程(3)下所得结果有非常大的不同。表Ⅱ中
对很多网络都分别计算了这两种方程下 的值(表中记为 和 )。定义(3)更易于一般情况下
的分析计算,而(6)式则更易于进行计算机计算,这在数值研究和数据分析中有广泛的用途。在进行
有关此领域的论文的阅读或撰写工作之前,重要的一点是要清楚所采用的是哪一个群聚系数定义。二定
义的区别见图 5说明。
CC )1(C )2(C
11 例如,标准网络分析程序UCInet就有一个函数,可用来在任意网络中计算此量。
15
图 5 公式(3)群聚系数 定义的说明。此网络中有一个三角形和八个关联三点组,因此群聚系数为 3×1/8=C83。由
公式(5),每个个体顶点都有一个局部群聚系数,分别为 1,1,61,0和 0。由公式(6),平均值
3013
=C 。
前面提到的局部群聚系数 ,由于其作用很大,而在社会学文献中得到相当广泛的应用,其中
被称为“网络密度”[363]。Dorogovtsev 等人[113]和 Szabo 等人[389]就 对中心顶点 的度 的依
赖情况作了研究。两个研究小组均发现,对于某些无标度网络模型(第三节 C.1)而言, 随 增加
而减少,减少速度约为 。相似的行为同样可在现实世界网络中观察到[349,350,397]。
iC iC
iC i ik
iC ik1−
ik
总的说来,无论采用何种群聚系数定义,其值都会远大于在包含相似数目的顶点和边的随机图情况
下得到的值。实际上,可以推测,对于很多网络类型而言,你朋友的朋友也是你的朋友的概率在网络规
模扩大时趋近于一个非零极限值,即 ∞→n 时 )1(OC = 12。相比较而言,在随机图情况下,对于一个
大数 , (对任一定义C都成立)。由此可知,阶数 不同,现实网络和随机图下 的值
也不同。
n )( 1−= nOC n C
群聚系数即为网络中三角形的密度。显见之,推广到一般,会问更长的回路的密度,即长度为 4
或大于 4 的回路的密度。很多研究者对此类更高阶的群聚系数进行了研究[54,79,165,172,317]。
然而,就像积分展开的研究一样,目前为止,在此方面还没有得出清晰的理论,可以把不同阶数下的群
聚系数区分开来。如果一对顶点之间允许有多于一条的边存在,那么也存在一个低阶群聚系数,其刻画
了长度为 2的环的密度。此系数对于有向图特别重要,因为有向图中允许存在两条方向相反的边。有向
网络中二个顶点互相指向的概率称为互性,在有向社会网络中常需计算此值[363,409]。其它情况下,
如万维网[3,137]和电子邮件网络[321]中,有时也需用到此值。
C 顶点度分布
回想一下,网络中顶点度的定义,是指与该顶点相关联的边的条数。我们定义 为网络中度数为 k的顶点的个数占顶点总个数的比例。 也等于在随机一致的原则下挑选出的顶点其度数为 的概率。
对任一给定的网络, 可用顶点度的直方图来表示。这个直方图就是网络的顶点度分布。在 Erdos 和
Renyi 所研究类型的随机图[141,142,143]中,每条边存在或不存在的概率都相同,因此,如较前所
述,图中顶点度分布服从二项分布或大 极限下的 Poisson 分布。多数情况下可发现,现实世界网络的
顶点度分布与随机网络截然不同。大多数网络的顶点度分布都远远偏离 Poisson 分布,明显向右倾斜,
这表明其分布的右边尾部要长且值远大于平均数。
kp
kp k
kp
n
要测量此尾部有相当的难度。虽然,理论上,只需画出顶点度的直方图即可,但实际中很少有足够
的测量方法能够用以获得此尾部中较好的统计数据。因而,直接画出来的直方图通常会有很多噪音存在
(例见参考文献 74,148 和 343 中之直方图)。为避免这一问题,可采用二种方法。
方法一是构建一直方图,图中直方的大小随顶点数指数增长。例如,令前几个直方覆盖顶点度数范
围为 1,2-3,4-7,8-15,等等。然后,按直方宽度划分每个直方中样本的数目,从而使计算标准
化。这种构建直方图的方法经常用于对数顶点度刻度,使得直方图的宽度显得平滑,由于靠近尾部时的
直方会逐渐变得更宽,从而使统计数据的噪音问题得到控制,然而只要 减少快于 ,那么在某种
程度上问题将依旧存在,这在分布可被积分的情况下一定会出现。
kp 1−k
给出顶点度数据的另一个可供选择的方法是,采用累加分布函数
12 一个例外是如前所述的具有 的无标度网络。对此类网络,当
1~ −ii kC ∞→n 时公式(3)趋近于零,而公式(6)
仍非零。
16
∑∞
=′′=
kkkk pP , (7)
即为顶点度大于或等于 k的概率。采用(7)来作图的优点在于,考虑了所有的原始数据。当我们按传统的方法通过画直方来构建直方图时,落入同一直方内的数据点的值间所存在的差异都被丢失。累加分
布函数则避免了这一问题。同样,累加分布也控制了尾部噪音。而缺点在于,这样得到的图本身并没有
直接给出顶点度分布的图像,图上邻近点在统计上是非独立的,这一点吻合了数据的迷惑性。
针对第二节中描述的众多网络,图 6中给出了其顶点度的累加分布。如图所示,所有分布均确实是
右倾的。其中很多分布在其尾部都服从幂律:即对某些常数幂α , 。注意,如幂律一样,幂
律分布在累加分布中也存在,所不同的是幂为
α−kpk ~1−α ,而不是α :
)1(~~ −−∞
=′
−∑ ′ αα kkPkk
k , (8)
其它有一些分布,其尾部服从指数分布: 。同样的,在累加分布中也可给出指数形式分布,
并且指数相同:
κ/~ kk ep −
κκ // ~~ k
kk
k
kkkk eepP −
∞
=′
′−∞
=′′ ∑∑= , (9)
这使得幂律分布和指数分布特别易于实验抽样观测,只需分别在对数刻度尺上(针对幂律)或半对数刻
度尺上(针对指数)构画相应的累加分布。
图 6 六个不同网络的累加顶点度分布。图中水平轴为顶点度 (在有向引文网络和万维网下为顶点入度),竖轴为顶点
度的累加概率分布,即度数大于或等于 的顶点的个数占顶点总个数的比例。这些网络分别是:(a)反映数学家合作关
系的网络[182];(b)反映由 ISI 分类的从 1981 到 1997 年之间所有论文的引文情况的网络[351];(c)1999 年左右的包含
30 亿个顶点子集的万维网[74];(d)自治系统水平的因特网,1999 年 4 月[86];(e)美国西部电力网[416];(f)在酵母菌
S.Cerevisiae 的新陈代谢过程中蛋白质的相互作用网络[212]。其中,网络(c)、(d)、(f)顶点度服从幂律分布,表现在
其图像在双倍对数刻度尺上近似呈现出直线形状;网络(b)在尾部上服从幂律分布,但在小度数上明显偏离幂律分布;网
络(e)顶点度服从指数分布(注意(e)中采用的是一次线性对数刻度);网络(a)的顶点度分布服从某种类型的截平幂律分
布,或者可能是两个具有不同幂的幂律分布
kk
对于其它类型的网络而言,其顶点度分布更为复杂。例如,对于二部图(第一节 A),每一种顶点
类型分别有一个顶点度分布。对于有向图,每个顶点都有一个出度和入度,因此其顶点度分布也成为两
个变量的函数 ,代表入度为jkp j且出度为 的顶点的个数占顶点总个数的比例。在对诸如万维网的有
向图的观察研究中,研究者通常仅给出入度和出度各自的分布[14,34,74],即对 基于指标 i或指i
jkp
17
标 j进行求和得到的分布。然而,很多存在于联合分布当中的信息因此而丢失。在一些网络中发现[321],入度和出度具有非常强的相关性,这表明,我们应当更多地收集联合分布当中包含的信息,而不仅是对
其作一般性的关注。
1.无标度网络
服从幂律分布的网络是文献研究关注的焦点[13,120,387]。有时也称其为无标度网络[32],虽然
这仅指它们的顶点度分布是无标度的13。在网络的其它属性中,标度能够存在并且通常确实是存在的。
最早公布的有关无标度网络的例证可能是Price的科学论文引文网络(见第二节B)。此网络中,他用了
幂α 为 2.5 到 3 的一个值。随后的论文中,他又用了一个更为准确的值α =3.04[344]。他还有一个发现,即此网络的顶点出度(每篇论文中引用的目录条目数)服从幂律分布,虽然对于这一发现后来有文
章提出了质疑[396]。最近一些文献显示,顶点度的幂律分布在很多的其它网络当中也可观察到,突出
的有其它的引文网络[351,364]、万维网[14,34,74]、因特网[86,148,401]、新陈代谢网络[212,
214]、电话呼叫图[8,9]以及人类性接触网络[218,266]。图 6 给出了其中一些网络的顶点度分布。
顶点度分布其它常见的函数形式包括指数形式,如在电力网[20]和铁路网[366]中所见,以及带指
数截点的幂律形式,如在电影演员网络[20]和一些协作网络[366]中所见。同样,值得注意的是,虽然
网络顶点度分布在整体上可能呈现一种特定形式,但此网络中的指定子网的顶点度却可具有其它的分布
形式。例如,万维网的顶点度分布整体上服从幂律分布,但域中的顶点度分布却服从单峰分布。
2.最大顶点度
网络中顶点的最大度数 一般依赖于网络大小。最大顶点度对于网络上的一些计算来说是重要的
(例见第八节 C.2)。在无标度网络的研究中,Aiello 等人假设[8]最大顶点度近似等于一个值,在此值
上,平均来说图中具有此度值的顶点个数少于 1,也即此值满足
maxk
1=knp 。举例而言,对于幂律分布
,有 。然而,这一假设得出的结果易产生误导。很多情况下,网络中存在有顶点,
其度数要远大于此值,这一点 Adamic 等人曾做过讨论[6]。
α−kpk ~ α/1max ~ nk
给定一个特定的顶点度分布(并假设所有顶点都从此分布中作独立抽样观察,这在现实网络中可能
不成立),则恰好有m个度数为 的顶点同时没有度数大于 k的顶点的概率为 ,其
中 为累加概率分布,公式(7)。因此,图中最大顶点度为 的概率 为:
k mnk
mk Pp
mn −−⎟⎟⎠
⎞⎜⎜⎝
⎛)1(
kP k kh
nk
nkk
n
m
mnk
mkk PPpPp
mn
h )1()1()1(1
−−−+=−⎟⎟⎠
⎞⎜⎜⎝
⎛= ∑
=
− , (10)
并且,最大顶点度的期望值 。 ∑= k kkhkmax
对于 增大和减小, 都趋近于零,和式的值受与最大值接近的项的控制。因而,在多数情况下,
最大顶点度期望值的更为接近的近似值由众数值给出。计算导数
k kh
kk pdkdP =/ 并观察可发现,当
0)1()1)(( 11 =−+−+− −− nkk
nkkk
k PpPppdkdp
, (11)
13 “无标度”一词是指任一函数形式 ,它在自变量)(xf x增大的情况下,在一个倍增因子范围内保持不变。实际上,这既是幂律形式,因为 )()( xbfaxf = 仅有一个解。因此,对于我们要达到的目的而言,“幂律”和“无标度”的涵义
是相同的。
18
或 是下式的解 maxk
2k
k npdkdp
−≅ , (12)
时, 取最大值,此处我们(相当肯定地)假设,对于 ,n 为充分小,有 且kh maxkk ≥ kp 1<<knp 1<<kP 。
例如,若尾部的 ,那么我们发现 α−kpk ~
)1/(1max ~ −αnk , (13)
如 Cohen 等人的论文[93]所显示,由一个简单的经验法则可以导出同样的结果,即最大顶点度大致为解
所得的 k值。然而要注意的是,服从幂律分布的顶点度分布在其尾部上的波动非常大,这一点在 Dorogovtsev 和 Samukhin 的论文[129]中有所显示。
1=knP
Dorogovtsev 等人还指出[126],公式(13)对于利用在第七节 B 中所述的 Barabasi 和 Albert 的
“偏好连接”过程[32]所形成的网络而言同样成立。有关这一情况的详细数值研究可见 Moreira 等人的
文章[295]。
D 网络弹性
与顶点度分布有关的网络属性是网络在顶点被删情况下的弹性,这也是文献的研究热点。我们所考
虑的大部分的网络,功能都依赖于其关联性,即依赖于顶点对之间路径的存在。如果网络顶点被删,这
些路径的标记长度将增加,最终使顶点对成为非关联的,而他们之间经由网络的通讯将被中断。网络弹
性水平因这样的顶点删除而发生改变。
同样,也存在很多不同的顶点删除方式,对于这些被删顶点,不同的网络也显示出不同的弹性度。
例如,可以从网络中随机删除顶点,或者删除一些指定类别的顶点,如那些度数最大的顶点。网络弹性
对于传染病学的研究特别重要,例如,在接触网络中“删除”顶点可以相当于是个体为预防疾病而接种。
由于接种不仅可以阻止被接种的个体感染疾病,同时还可以破坏个体之间供疾病传播的路径,它所产生
的影响要比人们开始所想到的更为深远。并且,对不同的接种策略的功效作仔细考虑能够为公众健康带
来实质性利益。
近年来,Albert等人的著作[15]激起了对网络弹性的研究兴趣,他们以两个网络为例,研究了顶点
被删的影响,一个是包含 6000 个顶点的自治系统水平的刻画因特网拓扑的网络(见第二节C),另一个
是拥有 326000 张页面子集的万维网。可以观察到,二者的顶点度分布在形式上均近似地服从幂律分布
[14,74,86,148,401](第三节C.1)。他们还测出了顶点到顶点的平均距离,无论顶点删除过程是随
机的还是对度数最大的顶点施行逐步删除,其都是被删顶点数的函数14。图 7 给出了他们关于因特网的
研究结果。他们发现,对于二种网络而言,随机的顶点删除几乎完全不会对距离产生影响,也即此二种
网络对随机顶点删除具有高度弹性。直觉上看,这是合理的,因为这些网络中大多数的顶点其度数都较
小,所依赖的只是其它一些顶点之间所存在的很少的路径,因而删除这些顶点几乎不会给通讯带来实质
性的影响。另一方面,当删除是针对度数最大的顶点进行时,会发现其具有破坏性影响,顶点到顶点的
平均距离随被删顶点个数比例的增大而急剧增加,并且,要破坏经由网络的本来的全部通讯,只需删除
一部分顶点即可。Albert等人把这一结果表述为网络顶点故障或网络顶点破坏。他们提出,因特网(和
万维网)对于网络中的随机顶点故障表现出很强的弹性,但在其最大度顶点受故意攻击的情况下却极易
被破坏。
14 在删除度数最大的顶点的过程中,Albert等人每删除一个顶点就对顶点度进行重新计算。多数研究此议题的其它学者们采用的是一种稍有不同的顶点删除策略,即按照所有的删除进行之前的网络顶点度初始值的循序进行顶点删除。
19
图 7 自治系统水平的刻画因特网拓扑的网络中,在逐个删除顶点的情况下顶点到顶点的平均距离。如果顶点删除过程是
随机的(图中方形),则距离只会有非常小的增加;但如果是对度数最大的顶点施行逐步删除(图中圆形),则距离出现
急剧增加。摘自 Albert 等人的文章[15]。
Broder 等人在万维网图的许多更大的子集合上独立研究,发现了与 Albert 等人相似的结果[74]。
然而,有趣的是,Broder 等人就他们的研究结果作出了一个完全相反的解释。他们发现,为了破坏万
维网的连通性,必须删除所有度数大于 5的顶点,这给网络造成的攻击性似乎很猛烈,此处假定一些顶
点有上千条关联边。因此,他们得出结论认为,网络对有目标的攻击具有很强的弹性。然而,事实上,
他们所得的结果之间乍一看并不存在冲突。因为,万维网的顶点度分布高度倾斜,度数大于 5的顶点在
所有顶点中仅占一小部分。
在此之后,有很多学者对其它网络的弹性问题展开探讨,总体研究结果似乎都与因特网和万维网情
况下所得结果一致。多数网络对于随机的顶点删除都表现出鲁棒性,而对于以最大度顶点为目标的删除
却表现出相当弱的鲁棒性。Jeong 等人研究的是新陈代谢网络[212],Dunne 等人研究的是食物网[132,
133],Newman 等人研究的是电子邮件网络[321],很多学者则是对模型网络的弹性进行研究[15,81,
93,94,200]。这些我们在论文的后续章节中都有更为详细的讨论。有关现实世界和模型网络的弹性研
究,特别全面的要数 Holme 等人所作的工作[200]。他们不仅考虑了顶点删除的情况,还考虑了边删除
的情况,此外还考虑了一些基于所谓的“介中性”的顶点选择策略(见第三节 G和 I)。
E 混合模式
深入挖掘网络结构的统计学属性,你会问:二个顶点何以成为顶点对?多数网络都至少包含一些不
同类型的顶点,并且顶点之间有边相关联的概率常依赖于顶点的类型。例如,在刻画生态系统中物种扑
食关系的食物网中(第二节 D),顶点代表植物、食草动物和食肉动物。植物和食草动物之间存在很多
边相关联,食草动物和食肉动物之间存在的关联边更多,但在食草动物之间或在食肉动物和植物之间却
几乎没有关联边。就因特网而言,Maslov 等人提出[275],网络结构存在三种种类的顶点,每一种类中
包含的顶点都很多:因特网骨干线和主干线上的具高度关联性的顶点,作为因特网服务终端用户的顾客,
以及联系两者的因特网服务供应商(ISP)。同样,终端用户和 ISP 之间以及 ISP 与主干顶点之间联系很
紧密,而 ISP 之间以及主干顶点和终端用户之间却几乎没有联系。
在社会网络中,这种选择性关联称为同类混合或同源相似性,它得到了广泛的研究,如同其在传染
病学当中一样。(“同类匹配”一词也见于生态学文献,特别是指动物中的配偶选择。)同类混合在社会
网络中的一个典型的例子是按人种混合。表Ⅲ给出了对加州地区 San Francisco 城的 1958 名夫妇进行
研究的结果。在一些不同性质当中,此研究选择记录了每对夫妇中参与研究人的(自我认同的)人种。
如表所示,参与人似乎更偏好于从和他们同人种的人当中选择配偶,这一点也被认为是在很多社会网络
中普遍存在的现象:我们更倾向于和那些在某些方面与自己相似的人交往。
20
表Ⅲ 在 Catania 等人的研究中[85],对所有夫妇按夫妇中的任一研究参与人的人种进行列表分类。摘自 Morris 的文章
[302]。
同类混合可用“同类性系数”来量化,它可从两种不同的方式来定义。令 为网络中连接类型 i顶点和类型
ijEj顶点的边的条数( i, j=1⋯N),令E为以 为元素的矩阵,如表所示。我们定义标准混
合矩阵为
ijE
EEe = , (14)
其中 X 为矩阵 X 所有元素之和。元素 为类型 i顶点和类型ije j顶点之间关联边的条数占关联边总条数的比例。同样,你会问及条件概率 ,即在顶点属于类型 i的条件下此顶点在网络中的邻接点属于类型
)|( ijPj的概率, 。这些量均满足标准化条件 ∑=
j ijij eeijP /)|(
1=∑ij
ije , 1)|( =∑j
ijP , (15)
Gupta 等人指出,同类混合可用下面的系数来量化
11)|(
−
−= ∑
NiiP
Q i , (16)
该量可取之处在于,对于完全同类的网络此系数为 1,对于随机混合的网络此系数为 0。此系数在文献
中被广泛采用,但是它有两个缺点[318]:(1)对于非对称的矩阵,如表Ⅲ所示矩阵,Q依赖于我们置水平轴为男性或是女性的情况分别有 2 个不同的值,目前还不清楚两个值当中哪个值对于网络而言是
“正确”值。(2)无论每种类型包含的顶点个数有多少,类型对于式(16)的影响都是无差别的,这样,
在每一种类型包含顶点个数不同的情况下所得的Q的值易于产生误导,而这种情况经常会出现。
避免这些问题的一个可供选择的方法是定义同类性系数为
2
2
1 e
eTrer
−
−= , (17)
同样,对于随机混合的网络此系数为 0,对于完全同类的网络此系数为 1。但它的值不会随矩阵转置而
改变,并且是顶点而非顶点的类型对于 r的值的影响为无差别的,因此包含顶点个数少的顶点类型对 r的值的贡献也相应小。对表Ⅲ数据, r=0.621。
同类混合的另一类型是按标量特性混合,如年龄或收入。同样可发现,人们通常更偏好于和自己同
年龄和收入的其他人进行交往,虽然,像人种这一特性一样,年龄和收入无疑也可能是其它交往驱动力
(如文化差异)的代理品。举例而言,Garfinkel 等人[170]和 Newman[318]分别对未婚情侣和已婚夫妇
进行了数据分析,发现在伴侣年龄之间有很强的相关性。通过计算年龄这一标量特性的相关系数可以量
化按此标量特性进行的混合。
理论上,依据向量特性进行同类混合也是可能的。例如,个体所处地理位置可能会影响个体间相互
认识的趋向。地理位置就可视为是包含两个分量的向量,个体即按这些向量的值进行同类混合。
21
F 顶点度相关性
依据顶点的标量特性进行同类混合的一个特例是按顶点度混合,也即通常所说的顶点度相关性。网
络中高度数顶点是偏向于与其它高度数顶点相关联,还是偏向于与低度数顶点相关联?实际证明,在一
些网络当中,这两者情形都存在。按顶点度同类混合特别有趣,因为顶点度本身是图拓扑的一个属性,
顶点度相关性可以产生一些有趣的网络结构效果。
几种不同的量化顶点度相关性的方法已经被提出了。Maslov 等人简单地构画出了边上任一端顶点
的度数的二维直方图。他们将结果在蛋白质相互作用网络和因特网下显示出来。Pastor-Satorras 等人
给出了此状况的一个更为简洁的刻画[331,401],他们在对因特网的研究中计算了一个顶点的网络邻接
点的平均顶点度数,它是该顶点的度数 的函数。当网络被同类混合时它给出一条随 递增的单参数曲
线。实际上,对因特网而言,此曲线随 递减,这一情形我们称为非同类性。Newman 进一步简化了计
算方法,只需计算边上任一端顶点的度数的 Pearson 相关系数即可。此方法给出的是一个唯一数,它在
同类混合网络下为正,在非同类混合网络下为负。表Ⅱ给出了很多不同网络下的结果。一个有趣的发现
是,基本上所有检测的社会网络都是同类混合网络,而其它类型的网络(信息网络、技术网络、生物网
络)都是非同类混合网络。这一结果如何解释还不清楚,甚至连是否存在一个唯一的解释也不清楚(或
许它根本不能解释)。
k kk
G 群落结构
很多文章[363,409]认为,多数社会网络表现出“群落结构”,即顶点组中有密集的关联边,而组
与组之间关联边的密集程度则较低。实际中常碰到的是,人们确实会按兴趣、职业、年龄和其它等方面
的不同而分为不同的群体,第三节 E 中讨论过的同类混合现象表明这一情况确实可能存在。(对网络而
言,可能出现存在同类混合而不存在群落结构的情况。例如,当按年龄或其它标量进行同类混合时,这
种情况就会出现。具有这种结构类型的网络有时也称为“分层”网络。)
图 8 给出了来自Moody一项研究[291]中的美国学校儿童的友谊关系网络图15。此图是用“弹簧嵌入”
算法产生的,即在顶点间置入直弹簧,利用一阶能量最小化松开此系统。没有确定的理由认为这个非常
简单的算法能够揭开与此网络有关的特别重要的秘密,但发现此网络似乎具有很强的群落结构,事实上,
这一点可以从图中清楚的看出。此外,当Moody按照个体所属的人种给顶点进行染色后,如图所示,立
刻可以清楚看出,网络的一种主分割就是按个体所属人种的分割,理所当然这也是促使此案例中的群落
结构形成的驱动力。(图中可见的另一种主分割是在按初中和高中进行的分割,也即存在于美国教育系
统中的年龄分割。)
图 8 美国学校儿童的友谊关系网络。友谊关系的确认是经询问参与人而定的,由于 A可能说 B是他的朋友但 B却不认为
A 是他的朋友,因此网络是有向的。顶点按人种标色,如图中所标注的。图中从左到右的分割明显的是按个体所属人种
进行的分割。从上到下的分割是按初中和高中进行的分割,也即按年龄进行的分割。图由 James Moody 提供。
15 引用文献中并没有此图。但在网址http://www.sociology.ohio-state.edu/jwn/ 上有此图以及同类研究的其它很多图。
22
令人感兴趣的是我们发现,其它类型的网络,如表Ⅱ中所列,也表现出相似的群落结构,这在实际
中有重要意义。例如,可以想象,将引文网络分割为若干群组,分别代表特定的研究兴趣领域,对此现
象已有研究者投入了大量精力进行研究[101,138]。同样,在万维网中,群落可能反映的是网页的主题
分类;新陈代谢网络、神经网络或软件网络中,群落可能代表的是功能单元;食物网中,群落可能代表
的是生态系统中的子系统;如此等等。
传统上,从网络中提取群落结构的方法是聚类分析[147],有时也称为等级群聚16。此方法中,作为
研究对象的网络中的顶点对被赋以“关联强度”。一般而言,在包含 个顶点的网络当中,“关联强度”
是被赋予其中每一对顶点,这样的顶点对可能有
n
)1(21
−nn 个,而非仅赋予那些有边相连的顶点对,虽
然有不同观点提出,不是网络中每一对顶点都要赋以一个“关联强度”,其中可假设无边相关联的顶点
对的关联强度为 0。然后,从 个两两之间无边相关联的顶点出发,按顶点到顶点的关联强度的递减顺
序添加边。我们可在此过程中的任意点上停止,并对由目前为止所添加的边形成的组元结构进行观察。
这些组元即构成了此过程阶段上的群落(或“聚类”)。当所有的边都已添加,所有的顶点都相互关联时,
则仅有一个群落存在。整个过程可以用顶点集合并运算的树或树状图来表示,其中,任一阶段上的群落
相应的是树的水平切割,见图 9
n
17。
图 9 刻画十个顶点的等级群聚的树状图。树状图的水平切割,即图中虚线,把顶点分割成一系列群落,此图中个数为 5。
根据关联强度的很多不同定义,聚类的形成是可能的。合理的选择包括,测量顶点到顶点的赋权距
离、求最小割集大小(即最大流量)[7]以及计算顶点间赋权路径条数。近来,有很多研究者成功地应
用了基于“边介中性”的方法,即对网络中的每条边,计算有多少条最短路经过这条边[171,185,197,
422]。结果似乎显示,群落结构是网络普遍具有的属性,至少这对于社会网络和生物网络而言是成立的,
虽然发现有某些食物网以任何简单的方式都不能够分裂形成群落。(食物网不同于其它网络,可能是因
为他们的密集性:平均顶点度随网络规模扩大大致呈线性增加,而不是像在多数网络中一样将保持为常
数[132,273]。同样,新陈代谢网络也是如此[P.Holme,私人交流]。)
不要将网络群聚和数据群聚的技术相混淆,后者是一种探测高维数据空间中数据点分组的方法
[208]。然而,这两者之间确实有一些共同之处,其算法可以相互通用。例如,通过给在空间上靠近的
数据点之间置边,可以把高维数据转化为网络,然后,网络群聚算法就可以应用到此网络当中去。然而,
权衡一下通常会发现,那些特别为数据群聚而设计的算法要优于为网络群聚而设计的算法,反之也成立。
在有关社会网络的文献当中,对网络群聚所开展的研究很大程度上是以所谓的块模型为背景[71,
419],其本质上就是按某个标准把网络分割为群落或块。社会学家对结构等价表现出特别的关注。称网
络中两个顶点是结构等价的,如果它们有完全相同的邻接点。严格的结构等同很少出现,但近似的结构
等同是如前所述的等级群聚方法的基础。
另一个与此处所讨论问题相关但又有所不同的有关群落结构的问题见于 Flake 等人的研究[158]:
若从已知网络中抽出一个顶点,我们能否确定此顶点所属的群落?很明显,用于解决此问题的算法对于
搜索网络,例如万维网和引文网络,都有实际的价值。Flake 等人基于最大流方法给出了一个算法,此
算法的应用似乎非常成功,至少在万维网上是如此。
16 不要将其与第三节B中介绍的群聚一词的完全不同的用法相混淆。 17 因为某些原因,传统上这些树的顶部画的是“树根”,其底部画的是“树叶”,这与实际中树的结构秩序是不同的。
23
H 网络导航
Stanley Milgram 的著名的小世界实验(第二节 A)表明,社会网络中明显远隔的个体之间存在有
短路径。此实验过程中,信被一个接一个人的传递,直到被传到指定的个体为止。然而,从这一实验中
还可以得到另外一个显然是为 Milgram 所忽略的结论,它在 2000 年被 Kleinberg 所指出[238,239]。
Milgram 的结果显示网络中存在短路径,但同时结果也显示普通的人擅于发现这些短路径。细思一下,
这也许是一个比短路径的存在更为令人吃惊的结果。Milgram 研究的参与者这一把他们与目标人相联系
的网络没有特别的了解。多数人只知道他们的朋友是谁,对于他们朋友的朋友是谁也可能有一些了解。
然而,结果证明仅通过少数步骤就将信息传递到远距离的目标个体是可能的。这表明,网络结构存在某
些奇特之处。以随机图为例,正如 Kleinberg 所指出的,顶点之间的短路径是存在的,但是如果只给出
人们在现实状态中所拥有的信息,那么没有人能够发现这些短路径。有文章提出[5,6,415],如果构
建一个易以和社会网络同样的方式进行导航的人工网络是可能的,那么这些网络可被用来构建有效的数
据库结构或更好的点对点计算机网络。
I 其它网络属性
除了前面章节中被重点研究的网络属性外,另外有一些网络属性也引起了人们的注意。在一些网络
中,最大组元的大小是一个重要的量。例如,在类似因特网的通信网络中,最大组元的大小代表着网络
中能够完成通信的最大部分所占的比例,因而它是网络工作有效性的一个度量[74,81,93,94,125,
323]。最大组元的大小经常被等同于图论中的“巨组元”概念,尽管从技术上讲两者仅仅是在大n极限下相等。有时也会用到网络中第二大组元的大小这一个量。巨组元最初形成时有一个密度存在,在此密
度之上的网络中,最大组元要比第二大组元大很多(第四节 A)。
Goh 等人对网络中顶点的“介中向心性”的分布进行了统计学研究[175]。顶点 的介中向心性是指
其它顶点间通过顶点 i的最短路径的条数[161,363,409]。Goh 等人指出,对很多网络而言其介中性遵循幂律,并提出根据这个幂律的指数可将网络分成两类。介中向心性也可看成是网络弹性的一种度量
[200,312],它告诉我们,当从网络中删除一个顶点时会有多少条最短路径的长度变长。Latora 和
Marchiori 考虑的是一个顶点和其它所有顶点间的调和平均距离,他们称为这个顶点的“效率”[260,
261]。和介中向心性一样,这个量也可看出是网络弹性的一种度量,它表明了删除一个顶点会对路径长
度产生多大的影响。有很多研究者还研究了网络 Laplacian 图(或邻接矩阵)的特征值图谱和特征向量
[55,146,151],它可以告诉我们网络的扩散或振荡模式以及顶点的向心性[66,67](参见第八节 C.1
中有关网络搜索策略的讨论)。
i
Milo 等人提出了一种新的分析方法[284,368],即从完整网络中分辨出反复出现的基图——小的
子图。他们把这一方法应用到基因调节网络、食物网、神经网络和万维网中,发现每一种情况下的不同
基图。他们也对网络中这些基图的可能功能做出建议。例如,在调节网络中,他们确定了存在于系统中
的具有特定转换功能的一般子图,如门和其它的前馈逻辑运算。
Ⅳ随机图 各种模型网络的数学性质是我们研究的主要问题,当前研究的模型分为四种,这四种模型我们将依次予
以介绍。本节我们着手讨论Rapoportd [346,378] , Erdös和Rényi[141, 142]的传统Poisson随机图,特别是Molloy和Reed[287, 288]等的一般随机图。在第五节中,我们将分析虽然有时被忽视但却非常有用的Markov图和它们的一般形式,指数随机图或p*模型。在第六节中,我们将研究Watts和Strogatz[416]的小世界模型和它的一般形式。在第七节中我们将讨论增长网络模型,特别是Price[344], Barabási和Albert[32]的模型和它的一般形式。最后在第八节中,我们将讨论网络中产生的大量的过程模型,像搜索和导航过
程,网络传输和流行病学。
24
构造一个大的随机网络模型的第一次认真的尝试是 Rapoportd 和其合作者 [346,378] 提出的“随机网”,这个随机网在 10年后又被 Erdös和 Rényi[141]重独立地重新发现,他们对它进行了极其认真的研究,并把它命名为现在许多人都比较熟悉的随机图。必要时我们又把它称为“Poisson随机图”,以便和其它的随机图模型区别开来,有时它又被称为“Bernoulli 图”。在这一节我们将看到,由于随机图不适用于描述现实世界网络的一些重要性质,所以在各方面已经被扩展,特别是随机图的 Poisson度分布不同于 Sec Ⅲ.C 中 Fig.6 的高偏度分布,模型扩展允许其它的度数分布,从而产生了称为一般随机图、或具有任意度分布的随机图、或配置模型的模型类型。
首先我们讨论 Poisson 随机图,然后是它的一般形式,更详细的关于 Poisson 随机图的论述可以参考 Bollobás[63],Janson et al.[211]和 Karoński[223]。
A Poisson 随机图
Solomonoff和Rapoport[378],Erdös和Rényi[141]分别提出了一个非常简单的网络模型,该模型假定有n个顶点,每一对顶点连接(或非连接)的可能性为p(或 1-p)18,这样就定义了一个的模型,Erdös和Rényi称为Gn,p.。从技术的角度来看,Gn,p是所有具有m条边,且m条边出现的概率是pm(1-p)M-m的图的集合,
这里M=1/2n(n-1)是最大可能边数。Erdös和Rényi还定义了其它的称为Gn,m的相关模型,该模型是具有n个顶点,m条边的图的集合,每一个可能图出现的概率是相同的19。这里我们将讨论Gn,p,但是许多结果
可以直接用在Gn,m中。 就像 Erdös和 Rényi在 1960年的系列论文[141,142,143]中所论述的那样,随机图的许多性质在大
图规模有限的约束下是可解的。特别是大 n的约束使平均度数 z=p(n-1)保持常数的情况下,由于边的存在或不存在是独立的,模型显然有一个 Poisson度分布。所以一个顶点存在度数 k 的概率为:
该式在大 n和固定 k的约束下近似相等成立,这是命名为 Poisson随机图的原因。 随机图的结构随着 p值的变化而变化,边将顶点连接在一起形成了组元,也就是连通的顶点的(最
大)子集。不管是Solomonoff和Rapoport,还是Erdös和Rényi都说明了随机图最重要的性质是相变(phase transition),即从一个具有少量边和小组元的(有呈指数分布的 size 和有限的平均 size),低密度、低 p的状态到一个高密度、高 p 状态,其中所有顶点中的相当大部分顶点(i.e.O(n))被连接在一个巨组元中,其余的顶点构成一些较小的组元,也具有指数分布的 size和有限的平均 size。 我们能够通过下列简单的推导计算出巨组元的期望大小,设u是图中不属于巨组元的顶点所占顶点
总数的比例,它表示的是一个顶点被随机从图中选中且不在巨组元中的概率,一个顶点不属于巨组元的
概率等于顶点的所有网络邻居均不属于巨组元的概率,如果顶点有度数k,则表示为uk。求这个表达式
在k概率分布下的平均数,Eq.(18), 于是我们发现在大图size 极限条件下,u有如下的关系(自恰性)成立:
被巨组元占据的图的比例 S可以表示为 S =1-u, 所以:
18 根据是否允许自边(即将一个顶点与自身相关联的边),可以对模型稍作变化,但是在大n极限下对于模型的平均性质只会有可以忽略的影响. 19 那些熟悉统计力学的人会注意到两个模型的相似点,所谓的canonical 和grand canonical ensembles.事实上,的确是相似的,可以定义Helmholta 和Gibbs自由能的等价形式,是图属性的矩的生成函数,与关于场p和序参数m的拉格朗日变换有关.
25
通过下一节给出的一个稍微复杂的推导,我们能够得出一个任意选定的顶点属于组元(对于非巨组元)
的平均 size<s>是:
S, <s>这两个量的形式可以参见Fig.10.,公式(20)是先验的无封闭解,但是显然可以看出:当z<1
时它的唯一非负解是S =0, 而当 z>1时,有一个非零解,该解就是巨组元的大小,相变产生在z=1的时刻,这也是<s>的分叉点,这个性质将被熟悉相变理论的人所认识:S在相变中起到了序参量的作用,<s>起到了序参量波动的作用。由S~(z-1)β和<s>~׀z-1׀-γ定义的,相应的临界指数取值为β=1和γ=1。精确地讲,在z=1的相变有一个“double jump”——图中最大组元的平均size以O(n2/3)发生变化,而不是在z>1时的O(n)。在相变中的组元符合具有指数5/2=ד(或 3/2如果询问一个任意选中的顶点属于哪一个组元)的幂律size分布。我们将在下一节讨论更普遍的“配置模型”的这些结果。
图 10 针对 Poisson 随机图,组元的平均大小(实线),如果有巨组元存在的话并不包括巨组元;巨组元的大小(点线)。
根据公式(20)和(21)。 随机图能够很好地反映现实世界网络的一个主要性质,即在第三节讨论过的小世界效应。在随机图
中离一个顶点距离为l的邻居顶点的平均数目是zd,所以需要覆盖整个网络的d值是zl≈n,因此一个穿过网络的特殊距离是l=log n/log z,满足在第三节的A中给出的小世界效应定义。例如在参考文献[61]和[63]中可以看到这种效应的精确结果。然而在其它方面,随机图的性质不匹配现实世界网络的性质,它有一
个低的群聚系数:不管他们是否有一个公共的邻居,顶点连接的可能性为p,因此C=p,,而且在大系统size[416]取极限下n-1会趋向于零。模型不象Fig.6 的分布,它还服从Poisson度分布。它完全具有随机混合模式,在相邻顶点的度数之间没有相互关系,没有相通结构,在随机图中使用local 算法[238,239,314,318,401]的导航是不可能的。简而言之,它仅起到了稻草人的作用,在现实世界的模拟中未被采用。
但是,我们许多网络的研究来源于随机图的研究,特别是相变和巨组元的存在是这篇论述中提到的
一些工作的主要思想。我们经常提及的网络的巨组元,实际意味着最大的组元,我们经常提及的较小组
元的大小,是指比最大的组元小的多的组元。许多更高级模型中的巨组元相变将在下面的节次中讨论,
所有这些思想都开始于 Poisson随机图。
B 一般随机图
随机图可以通过各种各样的方法加以扩展,从而使它们更加真实。真实的图的最简单的一个性质是
非 Poisson 度分布,这就是所谓的“配置模型”,我们将详细描述这个模型。在第四节的 B.3--第四节的B.5我们进一步描述随机图的一般形式,加入其它一些性质。
26
1.配置模型
在下列模型定义中,我们规定一个度数分布pk,pk是在具有度数k的顶点在网络顶点总数中的比例。我们从这个分布中选择一个度数序列,它是一个顶点度ki的n个值的集合,i=1…n。这个序列可被认为是给图中每个顶点i 分配ki个“stubs”或“spokes”,用来通过边与这个给定的顶点连接。我们从网络中随机地选择一对stubs,并把它们连接起来。很容易证明[287]这个过程可以产生图的每一种可能拓扑结构,这些图按照给定度数序列,并具有相同的概率20。配置模型被定义为通过这样的过程产生的具有相同权
重的图的集合21。 1970 年以来,许多学者[46,47,60,88,89,268,287,288,323,425]对配置模型进行了大
量的研究工作。通过pk,拥有一个巨组元[287]的精确的条件已知,组元的期望的大小已知[288],在相变的上边和下边非巨组元的平均大小也是已知的[323],并且各种其它性质也可以计算,例如,离中心顶点给定距离的顶点的平均数目以及点到点的距离等[88]。这里我们使用Newman et al.[323]生成函数,给出主要结论的简单推导,相同结论的更严谨的内容可参见Refs.88,89,287,288.
掌握配置模型的两个要点是:第一,pk在大图size取极限的条件下,是图的顶点度数分布,但通过一条随机选中的边到达的顶点的度数没有在pk中给出,因为有k 条边到达一个度数为k的顶点,那么我们到达一个度数为k的顶点的概率是到达度数为 1 的顶点的k 倍,所以对沿一条随机选中的边可到达的顶点的度数分布是kpk。在许多情况下,我们对有多少边离开一个顶点感兴趣,不包括到达这个顶点经
过的边。在此,定义excess度数等于顶点度数减 1。在配置模型中,excess度数有一个分布qk
这里,z=∑kkpk像以前一样是网络的平均度数。 第二,在图的一个小组元中发现一个环的机会服从n-1,非巨组元的顶点数目是O(n-1),因此任何对
顶点之间有多于一条路径的概率是O(n-1)。22 这个性质是配置模型极其重要的性质,但对许多现实世界
网络(见Sec.Ⅲ.B)是不存在的,如果我们能把现实网络的真正环路结构并入模型,模型性质将有多少改变是一个开放的问题。 现在我们对分布 pk和qk定义两个生成函数
23:
可以看出,使用Eq.(22),G1(x)= G‘0(x)/z。对于一条边可到达的顶点的总数的生成函数H1(x)满足下列自恰性条件:
这个公式说明,当沿着一条边前进时,我们会发现至少有一个顶点在另一端(变量x出现在公式右
边),加上一些其它的顶点群(每一个被H1表示),这些顶点可通过其它边到达这个顶点,群的数目根据
20 每个可能的图可以以∏iki!种不同的方式生成,因为在每个顶点周围的stubs是不能区分的.在给定的度序列下,这个因子是个常数,因此每个图产生的概率相等. 21 Chung 和Lu[88,89]最近提出了另外一种模型.在他们的模型中,每个顶点i被指定了一个度数ki(选自感兴趣的分布),然后在顶点对(i,j)间按照与kikj成比例的概率放置m=1/2∑iki条边。这个模型的缺点是最后的度序列一般不精确等于指定的度序
列,但是它的优点是可以比较容易地得到严谨的分析。它也是Poisson随机图的逻辑扩展,但是配置模型不是。其他一些作者也利用了类似的方法.[78,128,174] 22 利用类似公式(31)的推导,我们能得出当图的大小变大时,只要z取有限的值,<k2> 的增长慢于n 1/2,在小组元中环路的密度会趋近于 0.参见脚注 25. 23 传统地,在生成函数中独立变量用字母z表示,但是在此为了不与平均度分布z混淆,使用字母x表示.
27
qk分布,所以出现了G1,一个详细的公式Eq.24的出处在Ref.323中给出。 从一个随机选中的顶点可到达的顶点的总数,例如,一个顶点属于的组元的size,可通过H0(x)产生:
公式 24和公式 25给出了一个完整的组元的 size分布,位于相变下边在没有巨组元的区域中,平均组元 size通过下列公式得出:
这里z1=z=<k>= G‘
0(1)是一个顶点的邻居的平均数,z2=<k2>-<k>= G‘0(1) G‘
1(1)是一个顶点的第二个邻居的平均数,当z1=z2或下式成立时,我们可以看到分叉。
这一点是巨组元的相变第一次出现的点,把公式 23代入公式 27,我们可以写出相变的条件为:
确实,因为和随着加到图中的边数的增加而单调增加,所以当且仅当该和为正时巨组元是存在的,有关
这个结论更严谨的内容参见Molloy和 Reed[287]。 在相变的上边有一个巨组元,它覆盖了图的部分达到比例S。如果我们定义u是一条随机选中的通向一个顶点的边,该顶点不是巨组元的一部分,那么通过一精确的类似于Eq.(20) 的推导,该概率必须满足自恰性条件u= G1(u),S的解如下:
相同的结论可从 Ref.288中得到,通常对于 u的等式在封闭的形式下无解,但一旦知道生成函数,通过大量的迭代,可以找到任何所需要的精确度的解。并且如果 S的值是已知的,在相变的上边通过减去巨组元且再一次应用 Eq.(26)的结论,能够得出小组元的平均 size,公式如下:
这个结论在行为上类似于Poisson随机图,在Eq.(28)定义的一个点上具有一个连续的相变,具有一个巨组元的出现和非巨组元的平均size的分歧的性质,顶点平均数目的比率z2/z1(距离一顶点两条边的
顶点数目和距离一顶点一条边的顶点数目)起着控制相变的独立参数的作用,就像在Poisson情况下的平均度数z一样。对于相变可再次定义临界指数,采用和Poisson情况下相同的值,β=γ=1,5/2=ד。 我们还可以对群聚系数 Eq.(3)定义配置模型的一个表达式,其简单的计算可参阅[136,319]
其值等于Poisson随机图的C=z/n乘以依赖于z 和比率<k2>/<k>2的一个附加参数,所以对大图C将和n-1一样达到零,但对于高偏度分布,像那些在Fig.6中的一样,<k2>/<k>2因子可能非常大,就象在网络
的经验研究中看到的那样,图的C不能忽视(参见下面)。
28
2.例子:幂律度分布
作为应用这些结论的一个例子,关注被广泛研究的具有幂律度分布的网络:
α是常数,ζ(α)是 Riemann ζ函数,该函数像一个规格化的常数,代入 Eq.(23)我们发现:
这里Lin(x)是x的第n个多对数,Eq.27告诉我们相变发生在点:
对α给定一个临界值αc=3.4788…, 在该值下存在一个巨组元,大于该值没有巨组元。当α<αc时,Eq.(29)
中变量u的值为:
在α=2下,u=0,S=1,这样巨组元在低于该点时覆盖整个图,或更严格地说,一个随机选中的顶点
在大图size (参阅下面的关于群聚系数和脚注 25的讨论)取极限时,属于巨组元的概率为 1。在 2<α<αc 的范围内,我们有一个非零巨组元,它的大小可通过Eq.(29)得到,所有这些结论被Aiello et al.[8]首次提出。 对于幂律度分布的例子中,我们使用Eq.(31)可以计算出群聚系数,当α<3 时, <k2>~k3-α
max ,其中
kmax是网络的最大度数,使用公式Eq.(13) 计算kmax,得出下式:
在很多网络中(见表Ⅱ),当指数α具有特殊值 2≤α≤3 时,表现出有趣的行为。如果α>7/3 ,则C
随着图变大而趋近于零,但它的变化速度比Poisson随机图(当α<3时)的C ~ n-1慢;如果α=7/3,C变成常数(或对数),相对于图的size;如果α〈7/3,它随着图规模的增加而增加24。因此对于具有较小指数α的无标度网络,即使连接方式是完全随机的25,我们也不惊奇会看到相当大的群聚系数值。这个机制能
够说明WWW[319] 中的许多群聚现象。
3.有向图
对随机图模型的扩展可能比上面提到的简单例子更加复杂,在这一节和下面几节中我们列出一些更
复杂的模型,先从有向图开始。 有向图中每一个顶点有一个入度j和一个出度k,这样,度的分布像在Sec.Ⅲ.C讨论的那样将变为双
分布pjk,该分布的生成函数是包含两个变量的公式:
24 对于足够大的网络而言,这意味着群聚系数会大于 1.这意味者在拥有一个共同邻居的两个顶点间会有多于一条边. 25 这意味着实际上生成函数可以在α<7/3时分解,使得前面所得到的关于幂律图的结果失效,因为这个方法的基本假设是网络中没有短的环路存在.Aiello et al.[8]研究了这个问题,假定度分布在kmax∼n 1/α处被截断(参见sec III.C.2),导致当n→∝ 时C→ 0, 对于所有α>2.但是,这有点人工制造的味道,在真实的幂律度分布网络中一般不会有这样的截断.
29
每一个顶点 A属于一个入组元和出组元,它们是通过有向边能够到达 A的顶点的集合,和从 A出发能够到达的顶点的集合。还有强连通组元,指的能够到达 A和从 A到达的顶点的集合。在一个给定度分布的随机有向图中,据文献[323]介绍,大的入、出和强连通组元可以通过一次相变形成,当:
下面分别是入度和出度的生成函数的定义以及相应的 excess度。
大的入、出和强连通组元的 size 可由下式给出[125,323]
这里:
4.二部图
随机图模型的另一类一般形式是网络具有多种类型的顶点,最简单和最重要的例子是二部图,二部
图有两种类型的顶点和连接不同类型顶点之间的边构成,像在 Sec.Ⅰ.A 讨论的那样,很多社会网络都是二部的,社会学家称这种网络为隶属网络,例如,组中的共同成员加入的个体网络。在这样的网络中,
两种不同类型的顶点分别代表个体和小组,它们之间的边表示组员关系。CEOs 网络[167,168],董事会[104,105,269],科学家协会[313],电影演员[416]都是联系网络的例子。一些其它的网络,像 Sen et al[366]研究的铁路网也是二部的,二部图已经作为性接触网络模型的基础。
二部图有两个度数分布,每一个对应于两种不同类型的顶点,因为连接每种类型顶点的边数的总和
是相同的,所以两个分布的平均值µ ,ν和不同类型顶点的数目M, N相关,且µ/M=ν/N。我们可以像以前那样对两种类型的顶点定义生成函数计算度数分布和excess度分布,表示为f0(x), f1(x) , g0(x) 和 g1(x)。例如,我们可以说在一个巨组元中有一个相变发生在f’1(x) g’1(x)=1 的时候,对于巨的和非巨的组元的size,其表达式能够容易地得出[323]。
在许多情况下,人们通过把图映射(projecting)于一组顶点,或其他所谓“one-mode”映射中研究二部图。例如,在公司董事会的研究中,一种标准研究方式是着眼于公司的联结,如果两个公司共享一个
或更多的公共成员,则公司是联结的,一张公司联结的图是一个完全公司董事会图的 one-mode映射。one-mode 映射图的很多性质可以从生成函数中得到,对于上例,映射得到的网络在大图 size 取极限时群聚系数 C不等于零,而是服从下式:
这里µn和νn是两种顶点类型的度分布的第n阶矩。 随着顶点类型数目的增加,且放松顶点之间连接方式,网络结构会变得更加复杂。例如,我们可以
定义一个具有混合矩阵类型的模型,该模型显示在表Ⅲ,解决许多标准的性质[318,374]。
30
5.度相关
在Sec. Ⅲ.F中讨论的度相关的类型也可以用在一个随机图模型[314]中,扩展Sec. Ⅲ.F的形式,我们定义概率分布ejk 是图中随机选中的边连接具有excess度j和k的顶点的概率。在无向图中,该数量是对称的且满足:
Eq.(29)的等价形式是:
对于整个集合{uk}值的求解是自恰的。在一个巨组元中相变发生在当det(I-m)=0 的时候,其中m是具有元素mjk=kejk/qj的矩阵。对于non-trivial混合模式[58,318,400]的图,这种形式的矩阵条件是巨组元出现的典型准则。 对于度相关的两种其它的随机图模型也值得提出,一个是指数随机图,我们将在下节详细讨论,这是一个一般的模型,已经被 Berg和 Lässig[48]应用在特殊的度相关问题中。
Maslov et al [275]提出了一个特定的模型,用来解释 Internet中的度反相关,他们认为这些反相关是一个简单的事实结果,事实是 Internet图在任何一对顶点之间至多有一条边。他们开始考虑具有一个给定度数序列和无双边的网络,(相反,配置模型允许双边,典型的图通常至少有一些这样的边,使得它
们不属于Maslov et al提出的图集合。)没有完全相同的两条边的图非常难于进行解析分析[47,407],所以Maslov et al利用数值分析,使用了一个Monte Carlo算法随机地生成图集的样本。结果显示:Internet中观察到的反相关,是由模型中的有限 size效果导致的。(Capocci et al.[83]提出了一个对相同观察结果的另一解释,他使用在 Sec.Ⅶ.B 讨论的 Barabási 和 Albert 的模型的修改版本说明能够通过网络增长过程产生相关。)
V 指数随机图和马尔柯夫图 在前几部分中,各推广的随机图模型有力地指出了早期网络模型(如泊松随机图)的主要缺点,即与
实际不符的度数分布。然而,它们都有一个严重的不足之处,即都没能抓住传递性(transitivity)这一共同现象(在 Sec.III.B 中描述)。目前,考虑了传递性并可解的随机图模型有:二部图模型、群落结构模型(Sec.IV.B.4)和特定的 dual-graph模型[345]等。它们都是一些很特殊的例子。对一般的网络而言,目前我们还没有办法将传递性和随机图模型结合起来,因为在网络中,由于小闭环的存在,使得相邻顶点的重
要性质——独立性遭到破坏,并无法得到解决。在一定程度上,某些近似方法也许是有用的[317]。但是,在这一方向上仍未取得任何研究进展。 为了理解传递性的作用,我们可以通过一些可替代的图形结构,来描述出完全不同的一些解决问题
的模型。在本节和下节中,我们将介绍两种模型:马尔柯夫图模型[194,160,385]和小世界模型[416]。
Strauss考察的是指数随机图,或称∗p 模型[22,410],该类图有固定的顶点数 ,且是模仿Boltzmann
的统计力学来定义的
n
26。假定{ iε }是某个图的一系列属性,如边数,{ iβ }是一系列区域变量,其值可自
由选择。我们定义指数随机图模型为:一切有 n个顶点的图(最简单的情况下是无向图)的集合。在这当 26 事实上,在这个跨学科的领域的发展中,最近指数随机图被物理学们独立地重新进行了发掘[48,77].
31
中,每个图出现的概率为:
其中,函数Z为:
假如{ iβ }为一足够大的由温度参数构成的集合,则该定义包含我们对所有的图定义的概率分布。在实
际应用中,该集合的大小通常被限制在一个合理的数值范围内。
图中可观测量 iε 的计算,可通过自由能 Zf log−= 来求得:
因此,自由能便是可观察变量期望值的生成函数,这是统计学理论中熟知的。如果某一特殊的可观察变
量在式(45)中不出现(哈米尔顿图即是如此),则我们可以简单地取与之相应的 iβ 值为0即可。 尽管这些初步的研究成果在原理上是优美的,但实际应用中并没有什么进展。人们或许可以借助于
合适的理论,将 表示为完备的形式,并通过一些变换得到概略的展开形式。事实上,我们可以看到,
Feynman图的展开就是网路它本身。不幸的是,我们用全部的场论都无法容易地解决这一问题。文献[48]
和[77]给出了人们所采用的一般方法,但这在大多数情况下都是难以做到的。利用马尔柯夫图,我们或
许会取得一些进展。马尔柯夫图是某类图的子集。在这类图中,两个顶点间的边出现与否只与和它共享
其中某个顶点的边有关。没有共同顶点的边是非关联的。然而,如何在指数随机图的集合中计算仍是一
个有待解决的问题。
f
对模型缺乏分析手段时,研究者会转向采用Monte-Carlo仿真。一旦参数{ iβ }的值被指定了,方程
(45)中P(G)将直接通过Metropolis-Hastings型马氏链方法从集合中采样而得到生成图。对于给定的值
,我们在图空间中定义一个各态历经的移动集合,并在该集合中重复进行移动操作,接受概率为: n
不接受概率为 。其中 是进行移动操作后的图。由于方程(45)具有特殊形式,所以这一接受概率
很容易进行计算:
p−1 'G
这一表达式与配分函数的值是独立的,且其估值只须计算偏差 -'iε iε 即可。相匹配的移动集合是:(a)
在边数可变时,添加或移去随机选取的两顶点间的边;(b)在边数固定而度数顺序可变时,边随机地从
一处移至另一处;(c)在度数的顺序固定时,将{(v1,w1),(v2,w2)}转变为{(v1, v2),(w1,w2)},其中(v1,w1)
表示从顶点v1到顶点w1。这一类型的Monte-Carlo算法可以直接执行并很快收敛,因而我们可用它来研究
规模很大的图。
然而,指数随机图的反常现象给许多工作带来了麻烦,正如被用于对传递性建模一样,它也极大地
影响着Markov图。例如,如果在Hamiltonian图中,三角形个数是线性的(即一次的),并且这些三角形
32
具有正的温度数值,则该模型有“浓缩”的倾向,形成许多完整的小区域——任何边都可存在于其中的
一类顶点的子集。为此,我们很容易就可以明白为什么模型会表现出这样一种行为:即根据所包含的边
的数目,每个小区域会产生最多的三角形数目,从而系统会拥有最小的熵值。然而在现实世界中,网络
似乎不会有这种“成块的”传递性——因为这些“成块的”区域增加了群聚系数,从而被拥有少数三角
形的区域分离开。
另一个取得进展的领域是:利用现实世界网络中的数据,为模型中温度变量求取合适的数值。在
社会网络应用中,该技术显得尤为重要。这些已求出的参数可以用于生成Monte-Carlo图,以得到模型
的网络图。这些网络图将具有和现实世界相似的统计特性。它们可用来作假设检验,或进一步作为进行
网络仿真的基础。参数求取技术可参考文献[22,372]。
Ⅵ 小世界模型
小世界模型由Watts和Strogatz提出[411,412,416]27。该模型是一个具有高传递性并易于处理的网
络模型。正如在Sec.III.E一节中看到的,有些网络可能包含一些处于不同地理位置上的组成部分。这
些网络的顶点在空间上有不同的位置。通常,我们按地理位置的接近程度来判断哪些顶点是连接的。我
们这么做是合理的。小世界模型起源于如下想法:首先建立一个低维的网络结构,然后增加或移动一些
边,以生成较低密度的“捷径”――它们将网络中相距较远的部分连接起来。
小世界模型可在任何维数和拓扑结构上建立,但目前研究得较好的是一维的情形。我们拿一个具有
L个顶点并带有周期性边界条件的一维网络为例(如一个环),将每个顶点与其邻近k个顶点相连,我们得
到一个系统如图Fig.11a,它有 条边。小世界模型还可以通过将一小部分边“重新连接”来建立。
“重新连接”过程包括:依次选择每条边,按概率
Lk
p,将该边的一端随机地连接到网络的一个新位置
上(有双边或连向自己的边产生时除外)。这一过程可用图Fig.11b解释。
图 11 (a)一维网络,相距 k个顶点距离(或者更少的顶点距离)的顶点对间有边相连接。在这个例子中 k=3。 (b )小
世界模型[412,416]中,随机选取比例为 p 的边,随机地将边的一端重新连接到一个均一随机选取的新的顶点处。(c )
模型[[289,324]的一个小的变化,在顶点之间随机地加入捷径,但是一维网络中的边并不去除。
“重新连接”过程可以使小世界模型介于规则网络和类随机图之间而作为一种新的形式存在。当
时,我们可以得到规则网络。很容易知道,该类规则网络的群聚系数0=p )24/()33( −−= kkC ,它
在 很大时趋于 。然而,规则网络不具有小世界效应。在 很大时,顶点间的平均最短距离趋于
。当 时,每条边都被随机地重新连接到一个新的位置,整个图近似于随机图,平均最短距
离为 ,但有很小的群聚系数
k 4/3 L
kL 4/ 1=p
kL log/log LkC /2= 。然而,正如Watts和Strogatz的数值仿真结果所表
明的那样,在这两个极端之间存在一个区域,其中的模型具有低路径长度和高传递性,如图Fig.12。
27 多年前,Ball et al.[28]提出过一个等价模型,是一个关于家庭间疾病传播的模型,但是没有得到广泛的利用.
33
图 12 群聚系数 C和顶点到顶点距离 l,在 Watts 和 Strogatz 的小世界模型中[416]是重连接概率 p的函数。为了方便
起见,C和 l都除以其最大值(假定 p=0 时)。在 p=0 和 p=1 之间,有一个区间,群聚系数很大,同时平均顶点到顶点距
离很小。
Watts和Strogatz提出的原始模型结构很复杂。由于每一被选择的边只有一端被重新连接,而不是
两端,故而没有一个顶点会连接到自己,且如果两个顶点之间已经存在一条边,则新的边不会再加入。
为了在数学上处理方便,我们可以对模型进行简化,将所选边的两端都进行“重新连接”,并允许双边
和连向自己的边存在。在系统中,这一做法的结果将介于规则网络和随机图之间。Monasson和Newman[289]
及Watts[324]分别独立地提出了该模型的另一种变形。在这一新模型中,所有边都不进行重新连接,而
是将连接随机选取的“顶点对”的“捷径”加入到低维网络中去,如图Fig.11c。参数 p用以控制这些
捷径的密度。因此,捷径的总平均数为 ,且平均度数为Lkp )1(2 pLk + 。这一模型同时具有如下性质:
1)、没有任何顶点会同网络的其他部分断开连接;2)、顶点间的平均距离总是有限的。在数学和物理学
文献中,该模型及其原始模型都有相应介绍[309]。
A 群聚系数
以上两个版本的小世界模型,其群聚系数的计算都相对比较容易。对原始模型,Barrat和Weigt给
出了如下计算式:
而在新模型中,Newman给出了如下计算式:
B 度数分布
小世界模型的度分布规律并不能很好地描述现实网络中的实际情况。在新模型中,每个顶点的度至
少为 。规则网路的边数则须加上捷径的二项分布。因此,顶点的度为k2 j的概率为:
34
其中 ,且在 时, 。在原始模型中,度分布更为复杂,其表达式为: kj 2≥ kj 2< 0=jp
其中 ;当 时, 。 kj ≥ kj < 0=jp
C 平均路径长度
小世界模型中最值得关注的是平均路径长度。我们把这一变量定义为 l。目前,我们还没有确切的方法来求取 l的值,但我们知道部分确切的结果,如规模大小等。
当 时,模型是一个“大世界”模型,其路径长度趋于0→p kLl 4/= 。相反,小世界行为的特征
是按对数尺度变化的, (见Sec.III.A)。当Ll log~ p很大时,我们可以看到,模型变得像随机图。研
究者认为,在这两个极端之间,必定存在一种从大世界行为到小世界行为的过渡形式。Barthelemy和
Amaral[42]推断, 满足如下尺度关系: l
其中ξ 是依赖于 p的相关长度; 是未知的尺度函数,它只依赖于系统维数和网络的几何特性,而
不依赖于
)(xg
ξ,L 或 p。变量ξ 定义了从大世界到小世界行为过渡的特性。当 时,根据0→p ξ 的发散特
性, 存在新的表达形式,此时 为: l )(xg
Barthelemy和Amaral推断,在 p很小时, 是发散的,其中
τξ −p~ τ 为常数。这些推断被认为是正确的。
他们还推测 3/2=τ ,但这却被证明是不正确的[39,41,324]。
由文献[324]中的模型可推知式(54)是正确的,并可进一步得出 新的表达形式: l
除了因子 以外,当k kp/1=ξ , 时,上式与式(54)是等价的。因此我们可立即知道,由
Barthelemy和Amaral定义的
)()( xxfxg =
1=τ ,Barrat[39]利用scaling idea和数值模拟的方法也讨论过这一点。
由式(56)可知,我们可以通过增大 p或 来使系统从大世界模式转变为小世界模式。事实上,作
为尺度函数自变量的尺度变量 ,它完全等于模型中捷径的平均数。因此,对给定的 , l只取决于
模型中的捷径数量的多少。
L
Lkp k
另外,我们希望还能计算出尺度函数 ,但事实表明这是不容易的。对于有些变形的模型(无
捷径,一个中心顶点与其他随机顶点相连[115]),尽管有时会很复杂,但计算仍然是可行的。但是对于
一般的小世界模型,无法知道精确解,虽然可以找到其他scaling form 的精确形式[19,253]。当系统
规模达到 [39,42,109,306,324,325]时,我们可以用精确的数值计算方法,通过一系列展
开而获得较好的结果。Newman等人[322]给出了 的一种近似计算方法:
)(xf
710=L
)(xf
35
Barbour和Reinert的研究进一步表明,该结果可用以求得 的更为精确的值。 )(xf小世界模型是用以研究各种网络图中不同行为过程的基础,如渗流[294,325,326,360]、着色[388,
406]、耦合振荡[37,201,416]、重复博弈[1,135,231,416]、扩散过程[150,173,216,258,259,
289,329]、传染过程[28,235,255,29,3,427,428]和螺旋模型[40,191,202,256,337,429]。
这些行为过程将在Sec.VIII中讨论。
现在,有研究者已经提出了一些不同的小世界模型。其中,有人已经研究了高于一维的模型[109,
306,324,325,326],研究结果与一维的情形相似,且服从所期望的尺度规律。有人也研究了网络中
“捷径”优先连接相近顶点时的网络模型[215,238,239,307,365]。值得一提的是Kleinbeg的研究
[238,239],这在Sec.VIII.C.3中有讨论。Rozenfeld等人[359]和 Warren等人[408]研究的模型中,只
有捷径而没有基本的网格,但网格标记仍然保留,以便引导捷径以更大的概率去连接空间上相近的顶点。
Ⅶ 网络生长模型
迄今为止,我们所讨论的所有模型都具有现实网络的属性(如度序列、传递性等)。我们还试图建立
综合所有这些属性的网络。然而,这些模型并不能让我们清楚地明白,为什么网络会呈现出这些属性。
在这部分中,我们将研究一类旨在解释网络属性的模型。在这些模型中,随着顶点和边以一定的方式加
入网络,网络便以某种方式开始生长。则将反映出实际网络可能出现的生长过程,而正是这些生长过程
造就了网络特有的结构特征。28例如,许多作者已经利用这些生长过程研究了网络传递性模型[30,102,
198,217,220,242,397,298,411,412]。在这些模型中,新加入的边优先将有共同相邻顶点的两
个顶点相连接。换句话说,在新边加入后,网络中将会新形成一个三角形。因此,公式(3)中的分母将
会增大,从而也就增强了网络的传递性(科研协作网络的有关实验证据验证了这一机制[310])。
本节将集中介绍一类已经过深入研究的网络生长模型。该模型旨在解释度数分布尾部偏斜的根源。
事实上,在过去几年中,大量的论文都在对此问题进行研究。在这节中,我们首先介绍一下Price的原
始模型[344],它是在Simon的工作成果[370]上建立起来的。然后,我们将介绍非常流行的Barabasi和
Albert模型[32]。同样,我们还将会介绍这些模型的变形及推广形式。
A Price 模型
正如在Sec.III.C中提到的,Price在1965年对无标度网络进行了最初的研究。他研究了科学文献之
间的引用关系网络,并发现入度和出度均服从幂律分布。在后来发表的论文中,它给出了如今被广泛接
受的关于幂律度分布的解释。在1950年,Herbert Simon[69,370]提出,当“富者愈富”时幂律现象便
会出现。Simon及其许多后来者的研究都是在此思想的基础上进行的。在社会学中,这种“贫者愈贫,
富者愈富”的现象称为“马太效应[282]”29。Price称之为“累积优势”,也就是Barabasi和Albert等人
所说的“偏好连接”[32]。
Price的主要贡献在于他接受了Simon的思想并将其运用到网络生长的研究中去了。在早期的工作
中,Simon就在思考关于财富分配的问题。尽管他后来将该思想应用到了一些研究中,但没有一个是关
于网络系统的研究。Price似乎是第一个讨论网络环境下“累积优势”的研究人员。他尤其对论文间的
28 另外一个想法是幂律分布等属性可能产生于网络优化,但是尚未进行过深入探讨.参见文献 29,156,166,395,417,418. 29 事实上,这只是马太效应的一半.Simon和Price研究的过程中,并没有任何人那儿拿走任何东西.完整的马太效应包括给予和拿走,比起Price的累积优势,更好地对应于Polya urn过程.Price 在他的论文[344]中指出了这种区别.
36
引用关系网络及其入度进行了研究。其思想是:一篇论文被引用的比率与它已经被引用的次数成比例。
从定性的角度看,这一点很容易理解。如果某篇论文被越多的文章引用,那么在阅读文献时,你碰到该
论文的概率就越大。因此,你在自己的文章中引用该论文的概率也就越大。同样,这些观点也可运用到
诸如Web网等其它网络中。不过我们还不清楚,论文的引用概率与它以前的引用数量之间是否必须是严
格的线性关系,但这是我们所能作出的最简单的假设。Price和Simon也都采用了这一假设。现在,我们
来详细讨论Price模型及其求解。在求解中,我们将使用主方程和速率方程等方法。
我们考虑一个由包含 个顶点的有向图构成的论文引用关系网络。假定 是顶点中入度为 k的顶
点所占比例,则 。新的顶点不断地加入到网络中(新顶点加入的比率不一定为常数)。每个加
入的顶点都有一定的出度——即它引用的论文数。该出度在顶点一经产生后便永远保持不变
n kp
1=∑k
kp
30。不同顶
点间的出度是不同的,但平均出度 不随时间而改变,是一个常数。该 的值同样也是网络的平均入
度: 。出度可因顶点的改变而改变, 可以取非整数值,包括小于1的值。
m mmkp
kk =∑ m
在“累积优势”过程的最简单的一种形式中,新边连接到旧顶点的概率(例如,新论文引用以前某
篇论文的概率)完全与旧顶点的入度 k成比例。然而,这会带来一个问题,因为每个顶点开始时入度均
为0,这便使得该顶点获取新边的概率也为0。为了解决这一问题,Price建议,新边连接到顶点的概率
应该和 成比例,其中 为常数。他在其研究中取0kk + 0k 10 =k ,即认为论文首次出版时的引用次数为
1(自己引用自己)。因此,引用一篇论文的概率应与 1+k 成比例。
一条新边连接到任何度数为 的顶点的概率为: k
每个顶点新增引用的平均数为 ,因此入度为 的顶点的新引用平均数为m k )1/()1( ++ mmpk k 。对入度
为 的顶点,值 按此平均数递减,因为被引用顶点的度数变为了k knp 1+k 。然而,由于度数为 1−k 的
顶点被引用,所以度数为 的顶点数增加(度数为零的顶点除外)。对于有 个顶点的图,我们以 来
表示 ,这对每个顶点,值 的净改变量为:
k n nkp ,
kp knp
( 时),或 1≥k
( 时)。求 时的驻解,我们发现: 1=k knknk ppp ==+ ,1,
重新整理,得到 ,且)12/()1(0 ++= mmp )/12/(1 mkkpp kk ++= − 或
30 在本篇总数的其他地方,我们用了字母z表示平均度分布.当然在此可以依然使用字母z,但是我们选择了使用字母m,因为在大多数关于生长网络的论文中使用了字母m.读者应该清楚在此m的含义与前面曾经用过的含义不一样,以前表示图的边的条数.
37
其中, 勒让德)(/)()(),( bababaB +ΓΓΓ= β 函数。对于固定的b和较大的 ,该函数渐近于 ,
因此:
a ba −
换句话说,当 很大时,度数分布呈尾部具有指数n m/12 +=α 的幂律分布。指数α 的值介于2~3之间,
它与我们在表Table II中看到的实际网络中的值相一致。(记住,平均度数 不必为整数值,且可以小
于1)。Price将他的模型和SCI引用网络的数据进行了比较,结果表明,参数m正是产生幂律分布的数
值。
m
注意,Price假定参数 是后验的做法,因为指数10 =k α 的值并不依赖于 。以上讨论很容易推广
到 的情形,则有:
0k
10 ≠k
在Sec.VII.C.和参考文献[123,245]中,有对参数 的进一步研究。在文献[120,248]中有对主方程
方法的全面介绍。
0k
以上介绍的是Price用以分析其网络模型的一般方法。和现在的研究人员相比,Price当时没有很好
的计算工具用以对模型作仿真,因而他无法给出数值结果。近年来,人们在“累积优势”和网络生长方
面取得了大量的研究成果。然而,这些成果都以下面将要介绍的Barabasi和Albert模型为基础。
B Barabasi-Albert 模型
在今天,Price提出的“累积优势”机制[344]被人们广泛接受,并用以解释许多网络中存在的幂律
度分布,如引用网路、WWW网、协作关系网络、Internet网和其他技术网络。然而,Price的工作在社会
科学领域并不为人所知。正如网络生长模型一样,他的“累积优势”的观点也没有流行起来。在几十年
后,Barabasi和Albert[32]重新发现了这一机制,并命名为“偏好连接”。在发表于Science的一篇非常
有影响的论文中,他们提出了与Price类似的关于Web网的生长模型,但其中亦有重要不同。
Barabasi和Albert的模型[32,33]与Price的模型相同,加入网络的顶点其度数都是 且此后保持
不变。此外,每条边的另一端都以与某顶点的度数成比例的概率连接到该顶点上。所不同的是,在
Barabasi-Albert模型中,所有的边都是无向的,因而也无入度和出度之分。这一做法既有赞成也有反
对的。一方面,引用网络和Web网络的确都是有方向的,因而所有无向图模型都将失去这些网络的关键
特性。另一方面,忽略网络的方向性之后,Barabasi-Albert模型可以避免Price模型碰到的问题:即如
何定义论文的第一次引用和Web网的第一次连接?在网络图中,由于每个顶点的初始度数都为 ,自然
而然地,它们接受新连接的概率必为非零。(注意,正如在下面将要介绍的那样,在使用主方程方法求
解模型时,每个顶点增加的边数必须为 ,因而 必须为整数且 ) 。
m
m
m m 1≥m我们可以从另一个角度去看Barabasi-Albert模型,认为它是有向的。方向从新加入的顶点指向该
顶点所连接(或引用)的顶点,此时新边连接顶点的概率与该顶点的入度、出度之和成比例。然而,这是
一个不太令人满意的做法。总的来说,为了简单起见,在Barabasi-Albert模型中我们可以牺牲一些Price
模型的实用性。正如我们所看到的,这一牺牲的结果是,模型中度分布的指数α 将取到单一值 3=α ,
不过这一问题在后面的推广模型中予以了修正(见Sec.VII.C.)。
在网络规模很大时,Barabasi-Albert模型可以利用主方程方法来准确求解31。这一解法由Krapivsky
31 Krapivsky和Rendner[246]已经研究了在有限系统大小时的模型行为.
38
等[249]和Dorogovtsev等[123]分别独立给出。(假定年龄相同的顶点度数相同,Barabasi和Albert给出
了模型的近似解法[32,33],而Krapivsky、Dorogovtsev等人没有作此假设)
一条新边连接到一个度数为 的顶点的概率为: k
它是式(58)的等价形式。等式中分母等于网络的平均度数,即 ,因为每个顶点有 条边,且是无向
边,故每条无向边的两端都计入了顶点的度数中。此时,当一条边连接到有 条边的顶点上,并加入
到网络中去时,度数为 的顶点的平均数为
m2 m
m
k 2/2/ kk kpmmkp = ,与 无关。从而,度数为 k的顶点
对应的数值 将按该平均数递减,因为有新边加入的顶点其度数变为
m
knp 1+k 了。由于以前度数为 1−k
的顶点获得了一条新边,所以度数为 的顶点的数目也会增加。当网络图有 个顶点时,我们用 表
示 ,则对每个顶点,值 的净改变量为:
k n nkp ,
kp knp
(当 时),或 mk >
(当 时),且没有 的顶点存在。 mk = mk <
求 时的定常解,与式(61)类似,有: knknk ppp ==+ ,1,
重新整理 ,我们发现 ,且kp )2/(2 += mpm )2/()1(1 +−= − kkpp kk ,或[123,249]
当 很大时, 服从幂律度分布, ,指数为一个常数k kp 3~ −kpk 3=α 。针对这一结果,Bollobas等人
给出了更为严格的推导[65]。
Barabasi-Albert模型除了在度数分布方面的基本结论外,还有许多其他的研究结果。Krapivsky
和Redner[245]对该模型作了透彻的分析研究后,得出了两个重要结论。第一,顶点的年龄与其度数之
间有相关性,老的顶点有更高的平均度数。例如,当 1=m 时,年龄为 的顶点 i的概率分布为: a
对给定的年龄 ,该分布为幂律分布,其特征度数在 时发散为 。最早加入的顶点
比晚加入的顶点有更高的期望度数,且整个网络图的幂律度分布主要是受最早加入的顶点所影响的结
果。
a na → 2/1)/1( −− na
然而,度数与年龄之间的这种关系却被Adamic和Huberman用来反对Barabasi-Albert模型,因为他
们对实际Web网络的研究表明,两者之间并不存在这种关系。但这也不是意味着“偏好连接”不能用来
解释Web网络中的幂律度分布,只是Web网络的动力机制远比这一简单模型所作的解释要复杂[35]。在
Sec.VII.C中,Barabasi和Bianconi[52,53]给出了该模型的扩展形式,解释了为什么年龄和度数之间
39
没有相关性。
第二,Krapivsky和Redner[245]认为,在模型中,相邻顶点的度数之间存在相关性。当 时他
们认为变量 (在Sec.IV.B.5中已定义,它是以度数
1=m
jke j和 连接两端顶点的边的数目)为: k
注意,这个量不是对称的。这是因为Krapivsky和Redner把网络看成是有向的,每条边的方向是从新加
入的顶点指向已存在的顶点。然而,在上述表达式中, j和 都是指顶点的总度数,不是入度和出度。 k
尽管式(71)显示,模型中顶点之间存在上述非零关系,但当 ∞→n [314]时,网络中相邻顶点间度
数的相关系数渐进地趋于零。这是因为,相关系数是测量线性模型中的相关性,而在当前模型中不存在
此相关性。
和早期的研究者如Price相比,今天的研究人员有很多优势,如有丰富的计算机资源可利用。
Barabasi-Albert模型就做了大量的数值仿真研究,而在30年前这是不太可能的。值得一提的是,这些
模型的仿真到底是如何进行的。我们将以Barabasi-Albert模型为例说明。这一思想也可以用于Price
模型的仿真。
在“偏好连接”过程的仿真中,不成熟的方法是很低效的。为了按与顶点的度数成比例地进行一次
连接,我们通常要依次检测每个顶点的度数,这一算法每步都花费时间 。因此,生成一个规模为n
的网络图总共要花费 步时间。以下我们将介绍一种更好的方法,他每步费时 ,整个过程费
时 。我们可以维护一个整数阵列列表,对每个顶点 安排 个接入点。例如,一个网络有4个顶点,
分别标记为1,2,3,4,且其度数分别为2,1,1,3,则该网络可用阵列(1,1,2,3,4,4,4)来表
示。为了实现一次正确的“偏好连接”以便将一条边连接到一个目标顶点上,我们只需从该阵列列表中
随机地选择一个数字即可。当然,在有新的顶点和边加入后,该列表需要更新,而这很容易做到。注意,
列表中各项并不要求按任何特殊的顺序排列。例如,我们在上述网络中加入一个新顶点5,该顶点度数
为1且连接到顶点2上,则列表更新为(1,1,1,2,3,4,4,4,5,2)。在Price模型中,选择概率中
有一修正量 。因而上述方法也可用于该模型中:该修正量 可认为是依某一概率按“偏好连接”选
择某个顶点,否则将统一从所有顶点集当中选择一个顶点。
)(nO
)( 2nO )1(O
)(nO i ik
0k 0k
Krapivsky和Redner[245]给出了Barabasi-Albert模型另一种仿真方法。该方法利用网络结构本身
来代替上述方法中的顶点列表,其做法所述如下。我们首先认为该模型是有向网络,从每个顶点都发出
条边指向其他顶点。我们从图中随机地选择一个顶点,以某一概率将它重新连接到其相邻任何顶点。
由于每个顶点向外发出 条边,这后一操作步骤即相当于:从图中随机地选择一条边,按照和目标顶
点的入度
m
m
j相成比例的概率将该条边连接到目标顶点上。因此,选择某一指定顶点的总概率应当 cj + 与
成比例(其中 为常数)。然而,由于所有顶点的出度均为 ,则其总度数为 且选择概率与
成比例。通过适当地选择重新连接的概率,我们可以取常数
c m mjk +=
mck −+ mc = ,则选择顶点的概率仅和
成比例。由于该仿真方法不需要额外的顶点列表,所以它比前一方法有更高的效率,只是执行起来要复
杂些。
k
40
Barabasi和Albert在其模型的原始论文[32]中给出了仿真,表明幂律度分布的存在。此后,大量的
研究者相继给出了更为详尽深入的仿真结果。其中,Dorogovtsev和Mendes、Krapivsky和Redner的工作
值得关注[246]。
Price模型和Barabasi-Albert模型都有一个重要假设,即认为偏好连接是线性的。然而我们不禁要
问,是否有什么经验证据支持这一假设呢?(在下一节,我们将通过放松线性假设条件,对该模型进行
研究。)有两项研究表明,这一对真实情况的近似假定具有一定的合理性。Jeong等人[213]着眼于引文
网络、Internet网、演员及科学家协作网络的时间演化。他们测量了在一年中一个顶点获取的新边数量,
并以此作为之前已有边数的函数。其结果发现,这两个量之间大致成比例。这表明,在这些网络中存在
线性偏好连接。Newman[310]用科研协作网作了类似的研究工作,得出了相似的结论。
C Barabasi-Albert 模型的推广
Barabasi-Albert模型[32]在研究中引起了很多人的注意。除了对模型本身进行定性或定量研究外,
很多人建议应扩展或修正该模型,使其行为更接近实际网络。在此,我们讨论几个有关这方面的研究。
该领域更深入的研究进展见文献[13]。
Dorogovtsev[123]、Krapivsky和Redner[245]等人已研究了有关模型并指出,一条边连接到度数为
的顶的概率与 成比例,其中 为常数。注意 可以为负数,且取值范围为 ,而连接
概率为正。该模型度数分布的定态方程类似式(68),为:
k 0kk + 0k 0k ),( ∞−m
假定 ,则: )2/()2( 0
20 kmmkmpm +++=
其中 )(/)()(),( bababaB +ΓΓΓ= 勒让德 β 函数。当 很大时,该分布为幂律分布,且幂指数k
mk /3 0+=α 。也许, 值可取负数就解释了为何实际网络中会出现0k 3<α 的现象32。在文献[245]中
给出了关于修正参数的更多讨论。
Krapivsky等人[245,249]也提出了另一个重要的推广模型。该模型中,到度数为 的顶点的连接
概率不是线性的,而是度数的幂 。利用前面的方法可以求解此模型,结果,研究则发现了此模型的
三种行为。当
krk
1=r 时,模型有线性偏好连接和服从幂律分布的度数序列。当 1<r 时,度数分布是幂律
乘上一个拉伸的指数分布,其指数是 r的函数。当 1>r 时,网络中存在“凝缩”现象,即单一顶点将
会获得网络中所有连接的很大一部分。当 2>r 时,连接概率非零,该“胶结”将连向网络图中所有顶
点,而余下的顶点则服从按指数衰减的度数分布。
还有其他一些形式的推广模型,其中有的假定平均度数随时间而改变。有证据表明,WWW网中,顶
点的平均度数是随时间递增的,如模型中的参数 就是递增的。基于以上假定,Dorogovtsev和m
32 Price的结果α=2+1/m[344],对应于k0=-(m-1),因此新顶点的吸引力是 1. Barabasi-Albert模型对应k0=0,于是α=3.
41
Mendes[118,121]就给出了Barabasi-Albert模型的一种变换形式。他们假定连接到新顶点的新边数m
是随网络规模 而递增的,即 ,其中 为常数。因此,到某一给定顶点的连接概率为 ,其
中
n an a aBnk +
B为常数。他们得出,度数分布是幂指数为 )1/()1(2 BaaB −++=α 的幂律分布。(注意,当 0=a
时,该模型退化为Dorogovtsev等人[123]研究的模型,且此时表达式α 是无效的。)因此,该模型可能
提供了另一种机制,使度数分布中的指数能以另一种形式去描绘实际网络。
在Price的引用网络模型中,模型一旦建立了,则任何顶点都不会再增加向外的新边,而且任何边
只要加入到网络图中就会一直存在下去。对于引用网络,这是不难理解的。Barabasi-Albert模型被认
为是WWW网的模型。但是,该网路中,新连接会经常加入到已存在的Web站点,且旧连接也经常被移去。
有些研究者已经提出了包含这些操作过程的模型。特别地,Dorogovtsev和Mendes[116]通过在
Barabasi-Albert模型中引入新机制建立了新的模型,使得网络中的边能以随机的比率出现或消失。他
们发现,该比率在较大的数值范围内发生变化时,幂律度分布一直会存在,且幂指数是从-3开始变化。
Krapivsky和Redner[247]也提出了一个模型,允许已经建立的顶点再增加新的边,我们在下节对此进行
介绍。Barabasi、Albert[12]和Tadic[391,392]还建立了这样一些模型:当边加入网络后,该边可以
在网络中四处移动。这些模型可依模型参数不同分别呈现出幂律度分布和指数分布。
正如在Sec.VII.B中所看到的,Barabasi-Albert模型认为顶点的年龄和度数之间有相关性,而
Adamic和Huberman[4]发现实际的WWW网中没有这一性质。因为Adamic和Huberman认为,顶点的度是其内
在价值的函数,有些Web站点对相对较多的人有用,因而就有更高的连接率。Bianconi和Barabasi通过
模仿这一过程提出了Barabasi-Albert模型的一个扩展模型。在他们的扩展模型中,每个新出现的顶点
都赋予一个“合适度”(fitness)
i
iη ,它代表该顶点的吸引力和由此而产生新连接的倾向。“合适度”
是从某一分布中选取的。新边连接到顶点 的概率不是和顶点的度数 成比例,而是与i ik ii kη 成比例。
根据分布函数 )(ηρ 形式的不同,该模型表现出两种行为模式[52,247]。如果分布 )(ηρ 是有限的,
则和原始的Barabasi-Albert模型一样,网络表现出了幂律度分布。然而,如果分布 )(ηρ 是无限的,则
拥有最大“合适度”的顶点会生成网络中大部分的边。这是一种“赢者通吃”的现象。Bianconi和Barabasi
把它比作是“市场垄断”现象。
Ergiin和Rodger[145]在“合适度”这一方向上做了好几项研究,其一,他们研究了“有向”版本
的Bianconi-Barabasi模型;其二,在将“合适度”引入这些模型中时,他们不是将“合适度” iη 乘以
连接概率,而是引入一条新边并将其连接到顶点 i。定性地分析这些模型,他们发现:在模型中选取合
适的参数值是,幂律度分布仍然存在,不过,其幂指数会受“合适度”的分布形式所影响,在有些时候
还要对度数分布作对数修正。Caldarelli等人研究了一个带有顶点“合适度”而无偏好连接的模型,结
果表明在某些情况下也会产生幂律度分布。
D 其他生长模型
Barabasi-Alber模型[32]优美而简单。但是,它缺乏实际WWW网络中所具有的一些特征:
Barabasi-Alber模型是有关无向网络的模型,而实际Web网是有向的。
42
如前所述,人们可以把该模型看成是关于有向网络的模型。但是,在这种情况下,连接概率是与顶
点的总度数(入度与出度之和)成比例,而不是Price模型所认为的只与入度成比例,这是不现实的。
如果我们认为该模型产生有向网络,则它将生成非循环的网络图,而这不能很好地描绘出Web网络。
在模型中,所有顶点都属于一个连通组份(对于有向网络图,这是一个弱连通组份,因为非循环网
络图没有强连通组份)。在实际Web网络中存在许多分离组份(和强连通组份)。
Web网络的出度服从幂律分布,而在该模型中,其出度是一个常数33。
Price模型也同样受到了以上诸多方面的批评,但是,Price模型本来就是用来研究引用网络的模型,
而引用网络确实是有向的、非循环的,且几乎所有顶点都属于一个组份。因而在某些方面,Price模型
是一个较合理的模型。针对WWW网,考虑上述存在的问题,有些研究者已经提出了新的网络生长模型。
在此,我们将介绍一些这方面的模型,不防先看一些简单的,然后过渡到一些更复杂的模型。
首先考虑一下网络的组份结构问题。在Price、Barabasi和Albert的模型中,每个顶点在初次出现
时便至少和一个顶点相连。只要不移动任何一条边,所有顶点都属于一个(弱连通)组份。而在实际的Web
网中这是不现实的。那如何才能避免这个问题呢?对此,Callaway[80]等人提出了一个非常简单的网络
生长模型。像以前一样,所有顶点都是一个接一个地加入到网络中去,且无向边的平均数 和每个顶
点都相加。正如在Price模型中一样,m是一个平均数,因而 不一定是整数值。实际上,在
mm 1<m 时,
该模型出现了非常有趣的行为。
与已往模型不同的是,该模型的边通常不是连接到刚加入的顶点上。相反,每条边的两端是连向从
图中随机选取的两个顶点(没有偏好连接)。因而,顶点初次加入网路图时度数通常为0。由于不存在偏
好连接,该模型没有表现出幂律度分布(实际上度数分布是呈指数的),但呈现出有趣的组份结构。Aldous
和Pittel[17]在解决其他问题时,也曾研究过与此相关的模型。在 1=m 时,他们的模型与Callaway等
人的模型是等价的。Bauer[44,100]及其合作者还研究过该模型的“有向图”版本。
起初,人们认为Callaway等人的模型产生了一个Erdos-Renyi(厄多斯-瑞尼)型的泊松随机图。然
而,深入了解后发现事实并非如此。网络中旧顶点之间倾向于相互连接,从而形成一个以旧顶点为核心
的“小集团”,周围才是新顶点。正如泊松随机图一样,该模型的确有许多分离组份,且当 取某一有
限值时,模型产生相变现象。利用前面介绍过的主方程方法,Callaway等人证明了该现象的存在。他们
定义 为:随机选择一个顶点而该顶点必属于组份 的概率。当有一个顶点和 条边加入图中时,还
必须给出不同的方程以改变 。在网络图规模很大时,可求得:
m
sp S m
sp
由于 是非线性的,所以它很难准确地求解。然而,通过定义类似方程(25)的组份规模分布函数
( ),我们就可以形成一个巨组份。由式(74)可得:
sp
∑∞
=
=0
)(s
ss xpxH
33 虽然很少提及,关于出度的机制一定不同于关于入度的机制,这是很明显的.我们认为偏好连结与入度有关.Web站点如果有很多链结指向它,它就会很容易被找到,由于人们找到了它,它会得到更多的链结.这种讨论并不适用于出度.但是一般假设出度受制于偏好连接.有人可能会争辩说,大出度的顶点比起那些小出度的顶点,在将来会有更大的可能性加上一些新的边,但是这并不确定.
43
如果巨组份不存在,这 且平均组份规模 。当 时对式(75)取极限,则1)1( =H )1('Hs >=< 1→x >< s
就是二次方程 的解,即: 012 2 =+><−>< ssm
(另一根因没有物理意义而舍去)。然而,该解只在 8/1=m 时成立,当超过该点时便会产生一个巨组份。
Durrett[134]证明了,在 时便会产生相变。 8/1=m在考虑偏好连接的基础上,Dorogovtsev等人[124]将Callaway的模型进行了推广。在推广模型中,
每条边两端的连接概率都和顶点的度数与常修正量之和成比例。因而,该修正量可保证度数为0的顶点
也能接受到新连接。此外,在 非零时,他们发现网络图中有许多组份,且出现了幂律度分布和相变
现象。
m
进一步,Krapivsky和Redner[247]还研究了一个完全有向图模型。该模型中,每条边的“出端”连
接到顶点的概率与该顶点的出度成比例,而“入端”连接到顶点的概率与该顶点的入度成比例。此外,
顶点和有向边都是按随机比率添加到模型中。这便是一个非常合理的Web网络生长模型。该模型可以生
成有向图,允许边在顶点产生以后再加入,允许图中存在分离组份。此外Krapivsky和Redner表明,该
模型中入度和出度都服从幂律度分布,这和实际Web网络是一致的。通过改变入度和出度的连接机制中
的修正量,我们可以调整两个分布中的幂指数,使之与实际相符。通过对Krapivsky和Redner的模型稍
作改变,Aiello等人[9]单独提出了他们的模型,并给出了模型某些性质的严格证明。
E 顶点拷贝模型
许多网络都表现出幂律度分布的特征。但是,对它们来说,偏好连接显然不是一个合适的模型。各
种各样的生化网络即是很好的例子[153,212,214,376,383,405]。例如,蛋白质交互作用网络既是
如此。该网络中,蛋白质是顶点,相互作用就是边。由于生物进化的原因,这些网络在很长的时间内的
确会发生变化,但是没有理由认为蛋白质网络是按照简单的“累积优势”和“偏好连接”过程来进行生
长的。虽然如此,这些网络仍然具有幂律度分布,至少大致如此。
对于上述现象,Kleinberg等人[214,254]给出了一个可能的解释。他们认为,这些模型是通过拷
贝顶点来生长的。Kleinberg等人对Web网的生长感兴趣,其模型介绍如下。该网络图通过随机地增加顶
点、随机地增加边或从其他顶点拷贝边来进行生长。特别地,我们先选择一个已经存在的顶点及 条
边,然后确定这 条边的目标顶点,通过随机地选择其他顶点或拷贝这 条边的目标顶点,即可完成
一个网络图的生长。如果所选顶点出度小于 ,则其 条边将是拷贝的,且一个顶点接一个顶点地拷
贝它的边,直到 条边都拷贝完为止。在Kleinberg等人给出的更一般形式的模型中,他们还考虑了移
除顶点和边的网路生长机制,此处不详述。
mm m
m mm
显然,拷贝机制将会产生幂律度分布。随机选取某个顶点,它的一条边连向入度为 的其他某个特
定顶点的概率是与 成比例的(Sec.IV.B.1)。因而,一个顶点的度数的增加速度与其当前度数成比例。
但这会和Price模型一样,当前度数为0的顶点将永远不会获取新的边。因而Kleinberg等人就通过随机
选择,将新边连接到其目标顶点上去,以使0度数的顶点也能获取新的边。在其原始论文中,Kleinberg
等人只给出了数值结果,证明了他们的模型服从幂律度分布。但在后来的论文中,他们证明了顶点的度
数服从指数为
k
k
)1/()2( aa −−=α 的幂律分布,其中 是随机选择的顶点与拷贝来的顶点两者的边数之a
44
比。在 取较小的值,如a ∈a [ ]时,模型中大部分顶点都是靠拷贝生成的。此时,2/1,0 32 ≤≤α ,这
也是实际网络中所观察到的数值范围(见Table II)。Chung等人[90]给出了拷贝模型的进一步定性分析
结果。
在WWW网的生长过程中,目前我们还不清楚,是否也有这种拷贝机制存在,但有人对此作了一些研
究,如关于蛋白质交互作用网络进化模型的研究。给蛋白质编码的基因在其进化环境中会进行复制。也
就是说,在有机体进行复制时,如果某基因出现了两个错误的复制体,那么必是以前存在的某个基因有
问题。由于由每组基因拷贝所编码的蛋白质是相同的,因而蛋白质之间的交互作用也是相同的,如:在
交互网络中新基因的边就是拷贝自旧基因。后来,由于进化的偏差和选择[404],两组基因可能会产生
差异。许多作者都提出过利用拷贝机制建立的蛋白质网络模型[49,233,377,399]。
Jain和Krishna[209,210]将顶点拷贝思想作了一定改变,应用到了自催化网络模型中。在该模
型中,网络由相互作用的化学物种组成,并通过复制和转换进行进化,最后产生自保持、自催化的循环。
这使人联想起Eigen(艾根)和Schuster(舒斯特)[140]的可能用以解释生命起源问题的“超循环”。
Ⅷ 发生在网络上的过程
如在第Ⅰ部分介绍中所述,研究网络结构的最终目的是为了理解和解释构建于这些网络之上的系统的运
作方式。例如,我们要了解万维网的拓扑结构是如何影响网上冲浪和搜索引擎的;要了解社会网络的结
构是如何影响信息传播的;要了解食物网的结构是如何影响人口的动态变化的;如此等等。因而,在开
发了网络结构的模型之后,逻辑上说下一个步骤就是,正如本文前面章节所述,对发生在那些网络之上
的物理(或生物或社会)过程的模型行为进行研究。这一前沿上的进展要比网络结构研究方面的进展缓
慢,这可能是因为在没有对结构彻底了解的情况下很难获知该结构的影响作用。即便如此,仍然取得了
一些重要的进展,特别是在网络故障、发生在网络上的传染过程以及约束满足过程方面的研究。本节当
中,我们回顾了目前为止所获得的认识。
A 渗流理论和网络弹性
发生在网络上的过程中最先得到全面而彻底的研究的是渗流过程,最为简单的即点渗流和边渗流—
—见图 13——虽然还包括对其之上很多略微变动后的情况进行研究。渗流过程是这样一种过程,其中
随机指定图上顶点或边为“被占用”或“未被占用”。我们对结果模式的各种属性开展研究。渗流模型
于十九世纪五十年代被提出,主要动机之一是为了构建疾病传播模型[73,187],也正是在此背景下渗流
模型成为当前对现实世界网络的兴趣热潮中首先得到研究的方面[325]。我们在第八节 B 中考虑了渗流
理论在传染病学研究中的应用。而此处,我们摒弃原来的发展沿革顺序,首先来讨论一下其在网络弹性
问题上稍为简单的应用。
图 13 网络上点渗流和边渗流。点渗流中,顶点(物理学说法为“地址(sites)”)或者被占用(实心圈)或者未被占用
(空心圈),研究的焦点集中于被占用地址的邻接群的形状和大小,此例中有三个这样的群。边渗流中,边(物理学说法
为“联结关系(bonds)” 或者被占用(黑线)或者未被占用(灰线),被被占用边连结在一起的顶点形成了我们所感兴
45
趣的群。
正如第三节中所述,通常,现实世界网络对顶点的随机删除表现出高度的弹性。弹性可以用不同的
方式来衡量,但衡量网络弹性最简单的指标可能是网络最大组元中(我们把它与我们模型当中的巨组元
(见第四节 A)相等同)所包含顶点的个数占顶点总个数的百分比的变化程度(或变化欠缺程度)。例
如,考虑通讯网络,在其当中,如果两个顶点之间存在一条连接路径意味着这两个顶点能够相互通讯的
话,那么巨组元当中的顶点能够和整个网络的大范围部分进行通讯,而那些小组元当中的顶点最多只能
够与少数的一些不同顶点进行通讯。在Broder等人[74]和Albert等人[15]万维网子图的数值研究之后,
很快有文章指出[81,93],网络对顶点随机故障的弹性问题等价于网络之上的点渗流过程。顶点随机地
被占用(工作)或者空缺(故障),所保留下来的能够成功进行通讯的顶点数恰好就是相应渗流模型的
巨组元。
所得分析结果当中有很多都是针对具有第四节 B.1 中构造模型结构的网络的渗流,也既是具有给定
顶点度序列的随机图。Cohen 等人[93]给出以下简单论据。假设有一个顶点度分布为 的构造模型。
也既是,在大 极限下,随机选择一个顶点其度数为 的概率为 。现假定所有顶点当中仅有占比例
为 的顶点“被占用”或在起作用,这部分顶点是从整个图中随机一致挑选出来的。对于一个度数为 k的顶点而言,与它关联的被占用顶点的个数 k
kpn k kp
q′服从二项分布,因此具有特定值 的概率为
,并且一个随机选择的顶点其与
k ′kkk qq
kk ′−′ −⎟⎟⎠
⎞⎜⎜⎝
⎛′
)1( k ′个其它被占用顶点相关联的总概率为
kkk
kkkk qq
kk
pp ′−′∞
′=′ −⎟⎟
⎠
⎞⎜⎜⎝
⎛′
= ∑ )1( , (77)
由于顶点故障是随机且不相关的,因此所有被占用顶点的子集形成了另一个具有这种顶点度分布的另一
种构造模型。而后,Cohen 等人应用 Molly 和 Reed 的标准,方程(28),来判定此网络是否有巨组元。
(我们也可应用方程(29)和(30)来判定巨组元和非巨组元的大小,虽然这一点并未在参考文献 93
中实现)。
Cohen 等人的研究中最为有趣的结论之一是针对某常量α 下顶点度服从幂律分布的网络而言。当3≤α 时,他们发现,在巨组元形成的相变发生之处, 达到的临界值 为 0 或非负数,这表明网络
总是存在巨组元,或用物理学语言来说,网络总是渗流的。这与 Albert 等人的数值结果[15]遥相呼应,
后者发现顶点度服从幂律分布的网络的连通性对于顶点的随机删除表现出高度鲁棒性。总而言之,Cohen
等人的方法表明,对于任何具有发散二阶距的顶点度分布而言
q cq
0≤cq 。
Callaway 等人针对构造模型上的渗流问题提出了另一个更为普遍的方法[81],利用了对在第四节
B.1 中讨论过的生成函数的形式进行推广。在他们的方法中,一个顶点其被占用的概率可以是此顶点度
数 的任意函数。因此,Cohen 等人的方法中的常数 就被推广为 ,即度数为 的顶点被占用的概率。
定义生成函数
k q kq k
∑∞
=
=0
0 )(k
kkk xqpxF ,
∑∑ −
=k k
kk
kk
kpxqkp
xF1
1 )( , (78)
可发现,随机选择被占用顶点的组元大小的概率分布是由 生成的,其中 )(0 xH
))(()1(1)( 1000 xHxFFxH +−= , (79a)
))(()1(1)( 1111 xHxFFxH +−= , (79b)
(注意,就 的意义而言, 不是一个完全标准化生成函数。)由此,能够推出平均组元大小1)1(0 ≠F 0F
46
的表达式为
)1(1)1()1(
)1(1
100 F
FFFs
′−′
+= , (80)
立即可知,巨组元形成的相变产生于 1)1(1 =′F 。巨组元大小由下式给出
)()1( 00 uFFS −= , )()1(1 11 uFFu +−= (81)
例如,在 Cohen 等人研究的案例中,度数为 的顶点的一致被占用概率k qqk = ,临界被占用概率
)1()2()1(
−−−−
=αζαζ
αζcq (82)
此式对于 3<α 为负数(因此是无意义的),这也证实了前面的发现,即在 为负数的情况下系统总是
渗流的。注意,对
cqα 足够大而言, ,它也是无意义的。我们发现,对于1>cq cαα > 而言,系统完全
不具渗流性,其中 cα 是 )1(2)2( −=− αζαζ 的解,解出 cα =3.4788⋯。它对应于一点,在此点上原始网络自身不再有巨组元,这在 Aiello 等人的文章[8]中有所显示,并在第四节 B.1 作过讨论。
Callaway 等人的方法其主要优点在于,它允许我们按一种依赖于顶点度数的顺序从网络中删除顶
点。例如,若设 )( maxkkqk −= θ ,其中 )(xθ 为 Heaviside 阶跃函数,那么我们删除的就是所有度数大
于 的顶点。这与 Broder 等人的实验[74]准确对应,后者对在按度数递减的顺序删除顶点的情况下
万维网的行为进行了观察。(与此相似但不完全一致的计算也可见 Albert 等人的文章[15]。)与数值计
算所得结论(见第三节 D)一致,Callaway 等人发现,具有幂律顶点度分布的网络对于这种类型的目标
攻击极其敏感,只需删除很小部分的顶点就可以整个地破坏巨组元。Cohen 等人也独立地发现了与此相
似的结论[94],并且其使用的也是近乎相同的方法。这些作者当中某些人在后续论文[362]中把他们的
计算扩展到了有向图,由此发现了一个远为丰富的组元结构,见第四节 B.3 所述。
maxk
考虑图 14,此例中给出了为破坏巨组元而必须从服从幂律度分布的网络中删除的度数最大顶点的
个数占顶点总个数的比例,它是幂律的幂α 的函数[117,319]。如图所示,最大比例小于 3%,且对于α的多数值而言,相应的比例要明显的小于这个最大比例。这表明,诸如因特网和万维网之类的服从幂律
度分布的网络对于此类攻击极其敏感[15,74,94]。
这些结果都是针对构造模型而言的。其它模型提供了一些更深入的洞见。其中,Cohen 等人的发现
尤为吸引大家的兴趣,他指出,对于构造模型而言,渗流发生之处阀值 在顶点度分布具有发散二阶
距的情况下等于 0。再举例,Vazquez 和 Moreno 的文章[400]表明,即便是对有穷二阶距,阀值也可能
为 0,如果网络中邻接顶点的度数是正相关的(见第三节 F和第四节 B.5)。反过来说,若二阶距确实为
发散的,阀值仍可能为非零数,如果度数是负相关的。Warren 等人指出[408],对于综合了布局影响作
用的网络而言阀值是非零的,其中每个顶点都在低维空间(典型的如二维空间)中占据了一个位置,在
此空间中邻近的顶点对关联的概率较之其它顶点对要大。Rozenfeld 等人也对一个与此相似的空间模型
进行了研究[359],这两个模型都与连续统渗流密切相关[278]。
cq
图 14 为破坏巨组元而必须从网络中删除的顶点的个数占顶点总个数的比例,如果此网络的形式为服从幂为α 的幂律度分布的构造模型,并且顶点按照度数递减顺序被删除。
47
与网络对顶点删除的弹性有关的议题是连串故障议题。在一些负载或资源分配网络中,如电力网络,
网络的运作机制如下,即一个顶点或边出现故障会导致这一顶点或边与周围其它顶点或边上负载之间的
重新分配。当顶点或边上的负载超过某最大容量时,此顶点或边发生故障,此时这一机制会引发一起连
串故障或雪崩,其中负载的重新分配推动顶点或边超过其阀值而发生故障,导致负载进行进一步的重新
分配。1996 年 8 月在美国西部就发生了这样一起连串故障,最初仅在德克萨斯州 El Paso 城出现德很
小德一次电力断供,穿越六个州逐渐蔓延到了俄勒冈州和加利福尼亚州,最终导致几百万用户电力断供。
Watts 给出了这一过程的简单模型[413],它能绘制到一类渗流模型之上,从而可以利用与前面针对简
单的顶点删除过程而言的类似的生成函数方法来解。
在 Watts 的模型中,顶点 i发生故障,如果此顶点的个数占顶点总数比例给定为 iφ 的邻接点均已发生故障,其中量{ }iφ 都是取自分布 )(φf 的变量。模型最初产生是由于某非零密度为 随机一致挑选
出来的顶点发生了故障。假设 ,因此这一最初发生故障的部分主要是由个别的孤立顶点构成的。
Watts 考虑的是具有构造模型拓扑结构的网络(见第四节 B.1),对这些网络而言,由于使网络在小尺度
上呈现树形的短闭合环的消没密度的存在,使得在连串故障出现的初期每个顶点都至多仅有一个唯一的
故障邻接顶点,因此当且仅当顶点的故障阀值满足
0Φ10Φ <<
k/1<φ 时顶点自身会产生故障。Watts 把满足这一
标准的顶点称为易受攻击顶点。顶点属于易受攻击顶点的概率为 ,仅当这类易受攻击
的顶点在网络上连接形成渗流群(即广度群),连串故障才可能传播开来。就这样,问题直接在前面由
Callaway 等人所研究的[81]一般渗流过程上勾画出来,这使得我们发现了从最初的故障引子逐渐传播
形成大范围的连串故障的条件。然而,渗流模型仅适用于易受攻击的顶点,因此为了计算连串故障的最
终范围,Watts 进行了数值仿真。
∫=k
k dfq/1
0)( φφ
对连串故障模型进行了研究的还包括 Holme 和 Kim[195,199],Moreno 等人[297,298]以及 Motter
和 Lai[305]。例如,在 Holme 和 Kim 的模型中,顶点上负载用顶点的介中向心性来量化(见第三节 I),
当介中向心性超过一给定阀值时,顶点就出现故障。Holme 和 Kim 在他们的模型中给出了雪崩大小分布
的仿真结果。
B 传染过程
研究网络最初且仍是主要的原因之一是为了了解疾病和其他事物(信息、计算机病毒、谣言)在网
络上传播的机制。例如,研究性接触网络[45,154,186,218,243,265,266,303,358](第二节A)的主要
原因是帮助我们了解性传播疾病的扩散并实施可能的控制。同样,研究email联系网络[136,321]的目的
是为了了解计算机病毒是如何传播的34。
1.SIR 模型
疾病在网络上传播最简单的模型是传染病的SIR模型[23,26,192]35。此模型最初是在十九世纪 20
年代由Lowell Reed和Wade Hampton Frost构建的,但未正式公布。模型把人划分为三类:易感类
(susceptible,S),这类人并未染病但若暴露于染病人中则会受到疾病的侵入;传染类(infective,I)36,这类人已感染有疾病并会把它传播给其他人;康复类(recovered,R),这类人已从疾病中康复过来
并且有了永久的免疫力,从而不会再次感染上疾病也不会把它传播给其他人。(一些学者认为R是代表“被
剔除类”(removed),它是一个一般术语,也包括下面这种可能性,即因病死亡的人被从传染类中剔除。
34 计算机病毒是一个有趣的案例,因为他们得以传播的网络一般是有向的,这一点与大多数人类疾病的接触网络[229]不同。 35 传染病如流感和地方病如麻疹之间存在有区别,前者在人群中快速传播并在一次很短的爆发过程中会感染相当部分的人,后者在一定水平的人群中持续存在,该水平在时间变化下大致保持着为恒量。SIR模型属于前者的模型。在第八节B.2中要讨论的SIS模型属于后者的模型。 36 日常用语中“infectious”用得更为普遍,但infective是传染病学家采用的标准术语。
48
另一些学者认为R是代表“难治愈类”(refractory),它在那些研究与反应扩散过程密切相关的领域的
人[386,424]当中是一个普遍采用的术语。)
在传统的数学传染病学研究中[23,26,192],假设任一易感类个体每单位时间都以一致的概率 β 从任一传染类个体传染上疾病,同时传染类个体康复并具备免疫力的比率为某一随机常量γ 。则属于类 S,I 和 R 的个体数占个体总数的比例 , i和s r受控于微分方程
isdtds β−= , iis
dtdi γβ −= , i
dtdr γ= (83)
这一类的模型称为充分混合模型,虽然这些模型可以让我们了解到很多有关疾病的基本动态,但其假设
明显是不现实的。现实中,疾病仅能在那些与一类或另一类人有实际身体接触的人之间传播,接触网络
的结构对于疾病的发展模式很重要。
SIR 模型能以直接的方式推广到发生于网络之上的传染过程,虽然得到的动态系统在本质上要比它
对应的充分混合模型更为复杂。Grassberger 首先作出了一项重要的观察[179],使得我们研究取得进
展,此项观察即是模型能够被准确映射为同一个网络上的边渗流。实际上,正如 Sander 等人[360]所指
出的,更为一般的模型也能够被映射为渗流,模型中个体对之间的传播概率以及个体保持属于传染类个
体的时间都在发生变动,但均是同分布的。让我们来假设传染率 β 的分布取自分布 )(βiP , β 定义为
每单位时间内一位传染类个体将疾病传染给其特定易感类网络邻居的概率,并假设康复率γ 取自另一个
分布 )(γrP 。有研究[315]指出,由此产生的模型等同于同一网络上的一致边渗流,其边被占用的概率
为
∫∞ −−=
0
/)()(1 γβγβ γβ ddePPT ri (84)
从渗流模型得到的有关传染病的预测其精要之处很简单:渗流群(即由被占用边联结而成的组元)
的分布与疾病爆发规模的分布相对应,该次疾病爆发最初源于一个随机选择的携带体,渗流的相变与传
染病学中的“传染阀值”相对应,大于此阀值可能爆发传染病(即在大系统规模大小的限制下有一非零
比例人口被传染),并且此次相变上的巨组元的大小对应于传染病规模大小。这样的描绘所不能告诉我
们的是疾病爆发的时间进展过程,但标准的传染病学模型可以做到这一点。此外,它提供给我们的结果
仅仅是针对长期下疾病的最终结果,其中所有个体都属于 S类或 R类,没有新的病例出现。不过,即使
是在模型的不随时间变动的属性方面也有很多东西需要研究。
Callaway 等人给出了针对构造模型的边渗流的解[81],他们指出,对于一致边被占用概率T ,群(用传染病学术语来说即疾病爆发)的规模大小的分布由函数 生成,其中 )(0 xH
))(()( 100 xHxGxH = , (85a)
))((1)( 111 xHTxGTxH +−= , (85b)
其中 和 见方程(23)中定义。这样就可得到一次传染相变,它发生在 ,得到
平均爆发规模大小
)(0 xG )(1 xG )1(/1 1GTc ′=
s ,它由下式给出
⎥⎦
⎤⎢⎣
⎡′−
′+=′=
)1(1)1(
1)1(1
00 GT
GTTHs (86)
得到一次影响网络中 类人所占总人数比例的传染病爆发,其中 S
49
)(1 0 uGS −= , )(1 1 uTGTu +−= (87)
同样的解在相当多的其它模型网络中也可以得到,包括在传染率之间或传染时间之间具有各种相关性的网络[315],在顶点度数之间具有相关性的网络[301],具有更为复杂的结构的网络,例如有不同类型
顶点的网络[21,315]。
此项工作最为重要的结论之一是,对于服从幂律度分布的网络,就像在边渗流中(第八节 A),只
要幂律的幂小于 3,就不存在非零传染阀值。由于大多数幂律网络都满足这一条件,由此可以作出预期
的是,疾病总是会在这些网络中扩散开来,而不论个体之间传播概率是多少。这一点最初是由
Pastor-Satorras和Vespignani提出的[333,336],其背景是计算机病毒传染病学模型。然而,正如Lloyd
和 May 指出的[267,277],May 和 Anderson 在早期论文中就提出了同样的结果[276]。May 和 Anderson
研究传统的(充分混合)传染病微分方程模型,他们没有用到网络结构。他们把人分为具有不同传染率
β 值的活动种类,发现传染个体数量随时间的变化依赖于随种类不同的传染率的方差,特别是,疾病总是呈指数增长,如果此方差发散的话——准确说是在网络具有幂律度分布且幂小于 3的情况下。
关于疾病总是会在无标度网络上传播的结论根据近来一些发现进行了某些修正。特别的,对于顶点
之间具有的某些类型的相关性而言,非零渗流阀值可能存在[56,57,58,59,301,400],如果将网络置入
低维空间(而非无穷空间)中[359,408],或者,如果网络具有强传递性[139](见第三节 B)。
人类为了抵制疾病的传播而进行的接种将传染病学的思想和前面章节探讨过的网络弹性的思想有
趣的结合了起来。接种可被视作从网络中删除某组特定顶点,由此这可建模为点渗流过程。因而,我们
逐渐被引导来考虑网络上的联合点/边渗流,Callaway 等人已经在最简单的一致随机情况下解决了这一
问题[81]。如果点渗流与顶点度数相关(如在方程(78)和后续方程中一样),例如删除的是最大度数
顶点,那么我们得到的也是一个针对有目标接种策略的模型。Pastor-Satorras 和 Vespignani 进行了
一项很好的讨论[335]。利用第八节 A 中的模型我们可发现,网络对于其最大度数顶点的删除表现出特
别易受影响的趋势,因此这种有目标的接种被期望会成为一致特别有效的手段。(对公众健康团体来说
这当然不是什么新信息了,他们长期以来都遵循一项政策,即把他们最为积极的疾病控制努力集中在网
络中高度数顶点的“核心团体”上。)
不幸的是,要在社会网络中找到具有最大度数的顶点并不总是件容易事。一个人与多少人有过性接
触,这一般只能通过询问他们自己来获知,甚至在问过之后也是一无所获。Cohen 等人提出了一个有趣
的方法来克服这一问题[92]。他们观察指出,由于沿着图中一条随机选择的边到达一个特定顶点的概率
与顶点的度数成比例(第四节 B),因此通过沿边的方法要比通过随机选择顶点的方法更可能找到高度
数顶点。因而,他们提议,要使一群人具有免疫力,可以通过从这些人中随机选择一个人并给这个人的
一位朋友接种即可。实际上,某种意义上说,这种策略已经在采用。“接触跟踪”方法[251]被用于控制
性传播疾病,“指环接种”方法[181,308]被用于控制天花和口蹄疫,粗略的说,这两种方法都是熟人接
种的例子。
2.SIS 模型
并非所有的疾病其康复者都具备免疫力。例如,一些不能自我控制但能通过药物治疗的疾病通常会
立刻被不幸的病人再次传染上。结核病和淋病是两个大量研究的例子。计算机病毒也属于这一类型;它
们能利用反病毒软件来“治疗”,但没有一个永久的抑制病毒程序使计算机可以抵制同种病毒的再次攻
击。
携带这种病的人治愈后不是从传染类转到康复类,而是转回到易感类。因为一些明显的理由,具有
这一类型动态变化的模型成为 SIS 模型。在最简单的、充分混合的、单一人口分布的情况下,其动态变
化可用微分方程来描述
iisdtds γβ +−= , iis
dtdi γβ −= , (88)
50
其中和前面一样, β 和γ 分别指传染率和康复率。
SIS 模型是一个地方病模型。由于携带者会被多次传染,所以疾病可能将无明确期限的持续下去,
这在某些参数体系中确实存在。SIR 传染相变等价于在疾病会持续下去的参数体系和不会持续下去的参
数体系之间的相边界。
SIS 模型不像 SIR 模型一样能够在网络上准确解出来,但 Pastor-Satorras 和 Vespignani 针对构
造模型上的 SIS 传染病给出了一个详细的平均场解法。其方法的基础是微分方程,方程(88),但他们
允许传染率 β 在人类成员体之间变动,而非限定其为常量。(这类似于在第八节 B.1 中讨论过的 May 和Anderson 针对 SIR 模型提出的方法,但前者更具普遍性,因为它不像 May-Anderson 方法一样把人划
分为一系列封闭的活动种类。)计算进行如下。
方程(88)中出现的量 βγ 代表易感类个体被其邻接个体传染的平均比率。Pastor-Satorras 和Vespignani 对度数为 的顶点做了一个替换k )(λλβ Θ→ ki ,其中λ是经接触单个传染类个体而传染上疾病的比率, )(λΘ 为位于边的另一端的邻接个体实际上属于传染类个体的概率。注意,Θ是λ的函数,因为被传染的概率理所当然的会随疾病传播概率的增加而增加。对式中保留的变量 和 ,
Pastor-Satorras 和 Vespignani 分别用 和 来替换,这种一般化后的形式依赖于顶点度数,它们分
别代表属于易感类或传染类的度数为 的顶点个数占顶点总个数的比例。注意到 和 满足
,则方程(88)可以重写为一个单独的微分方程
s iks kik ki ks
1=+ kk si
kkk iik
dtdi
−−Θ= )1)(( λλ (89)
其中不失一般性,我们设康复率 1=γ 。此公式固有存在一个近似,因为我们假设 )(λΘ 对所有顶点都
是相同的,一般而言它也依赖于顶点度数。这是平均场近似的本质,能期望它为系统的定性行为提供合
理的指导,虽然某些属性(特别是接近相变的属性)可能在定量预测上出现错误。
寻找驻解,我们发现
)(1)(λλ
λλΘ+
Θ=
kkik (90)
为了计算 )(λΘ 的值,我们对取遍所有顶点的被传染概率 计算平均值。因为ki )(λΘ 被定义为位于边的
一端的顶点属传染类的概率,故 应当在此类顶点的度数分布 上进行平均(见第四节 B.1),其
中 照例为平均顶点度数。因而
ki zkpk /
∑= k kkpz
∑=Θk
kk ikpz1)(λ (91)
从方程(89)和(91)中消去 ,得到ki )(λΘ 的隐表达式:
1)(1
2
=Θ+∑
k
k
kpk
z λλλ (92)
对于 的特定选择,此方程能够精确的或近似的解出kp )(λΘ 。例如,针对具有(32)所示形式的幂律
顶点度分布,Pastor-Satorras 和 Vespignani 用整数近似来解此方程,由此指出在幂律分布情况下 SIS
模型不存在非零传染阀值——无论传染率参数λ的值是多少,疾病总是会持续下去[333]。他们也把此解法推广到很多其它的情况中,包括其它的顶点度分布[332],有限大小网络[334]以及包含为某部分个
体接种在内的模型[335,336]。在后一情况中,他们利用与 Cohen 等人[93]相类似的方法分别处理了随
机接种策略和针对具有最大度数顶点的有目标的接种策略,其中他们对在删除一组给定顶点之后网络的
51
有效顶点度分布进行了计算,然后把他们的平均场方法应用到所得网络中。和我们从 Cohen 等人的结果
中获得的一样,疾病的传播证明对随机的接种表现出相当的鲁棒性,至少这在具有右倾斜顶点度分布的
网络中是成立,但其对针对最大度数个体的接种表现出高度易感性。平均场方法也可用于具有第三节 F
中 Boguna 等人讨论过的[58]的那种类型的顶点度相关性的网络。特别值得一提的是他们的发现,即对
于幂律顶点度分布的情况,按顶点度数的分类混合和不分类混合都不能在 SIS 模型中得到一个非零传染
阀值,至少在平均场近似中是这样的。将其与针对 SIR 模型的情况进行对比发现,不分类混合在后者中
能得到一个非零阀值[400]。
平均场方法也能用于 SIR 模型[24,299]。虽然像在第八节 B.1 中所描述的一样我们对 SIR 模型得到
精确解,但此解能够告诉我们的只是疾病爆发的长期行为——它的预期最终规模大小以及诸如此类。而
平均场方法虽然是近似的,但能够告诉我们疾病爆发的时间演化过程,因此这两种方法互为补充。对
SIR 模型而言,平均场方法还能够用于近似处理网络过渡性的影响[24,154,228,235]。
C 网络搜索
另一个具有重要实用性的发生在网络上的过程是网络搜索。假设网络顶点存储了某种令人感兴趣的
资源,如网页上的信息,或在分布式数据库文件共享网络上的计算机文件。我们会想迅速的确定一项特
定的令人感兴趣的信息位于网络上何处(或确定它根本不在网络上)。做到这一点的一种方法就是简单
地对整个网络进行穷举分类(或“爬行”),为所发现的数据创建一个经提炼后的局部图。万维网搜索引
擎就采用这种方法。该策略在实时搜索网络所需的通讯费用很高的情况下受到欢迎,此情况下创建局部
索引是有意义的。尽管原则上网络爬行的实施是直截了当进行的(虽然实际中受到技术上挑战[72]),
然而还是有一些有趣的理论问题提出。
1.穷举网络搜索
近来在网络方面取得的研究成果之一是用于挖掘网络爬行数据以获取感兴趣的信息的有效算法的
开发,特别是针对万维网的情况。用到的重要一招是利用包含在网络的边或顶点中的信息。由于万维网
中的边或超链接是人为创建的,目的是突出页面对的内容之间具有的联系,因此它们的结构包含了有关
页面内容的信息以及能够帮助我们提高搜索绩效的关联关系。所以说,好的搜索引擎创建的不仅是网页
内容的局部分类,还是网页之间关联关系的局部分类。当一次查询是由数据库构成,通常的是以感兴趣
的文本串形式出现,则典型的策略是通过搜索该文本串从数据库中选择一个网页子集,然后利用边的信
息来排列所得结果。Brin 和 Page 提出[72,328]的经典算法,其最简单的形式本质上与特征向量向心性
等同,后者长期以来都在社会网络分析中被应用[66,67,363,409]。指定每个顶点 的权重 ,定
义 与所有指向 的顶点的权重之和成比例:对
i 0>ix
ix i 0>λ , ∑−=j jiji xAx 1λ ,或写为矩阵形式
Χ=Χ λA (93)
其中 是图的(非对称)邻接矩阵,矩阵元素为 ,A ijA X 是元素为 的向量。当然此式表明,我们考
虑的权重是邻接矩阵特征值为
ixλ 的特征向量,并且如果网络是连通的(没有分隔开的组元),那么
Perron-Frobenius 定理告诉我们,仅存在一个所有权重均非负的特征向量,它是对应最大特征值的唯
一特征向量。得到此特征向量的很一般的方法是把邻接矩阵重复乘入任一自身不是特征向量的初始非零
向量即可。
这一算法被证实非常有效,它(与很多其它的技巧一起)在被广泛运用的搜索引擎 Google 中得到
应用。本质上此算法假设,一张网页如果被其它重要的网页所指向则它也具重要性。Kleinberg 就这一
想法提出了一个更为复杂深奥的版本[236,237],他指出,由于万维网是有向网络,我们不仅要问哪些
顶点指向这个我们感兴趣的顶点,还要问被这个顶点指向的顶点又是哪些。因此这就导致每个顶点都带
两个不同的权重 和 。Kleinberg 把被划属于高级别的顶点所指向的顶点称为权威——它可能包含
有相关的信息。这样的顶点带有一个大权重 。同时,他把指向划属于高级别的顶点的顶点称为中心,
ix iy
ix
52
虽然它不包含直接相关的信息,但它能告诉你到何处可发现此类信息,它带有一个大权重 。(当然,
一个顶点同时有两个大权重是可能的;没有理由说同一张网页不能够既是权威又是中心。)对两个权重
而言,方程(93)的适当推广形式为
iy
Χ=Υ λA , (93) YAT µ=Χ
其中 是 的转置。最经常情况下我们感兴趣的是权威权重,其在方程(94)中消去TA A Y 满足
,因此 Brin 和 Page 的方法[72]与 Kleinberg 的方法之间主要的不同在于用对称矩阵乘
积 替换邻接矩阵。较方程(94)更为一般的形式也是可能的。例如,我们可允许一个顶点的权威
权重依赖于指向此顶点的顶点的权威权重(而不是方程(94)中所示依赖于这些顶点的中心权重)。这
导致一个模型的产生,它介于 Brin-Page 和 Kleinberg 的方法之间,可消除他们之间的不同。但据我
们所知,这还没有被试过。然而就我们目前掌握的情况看,Kleinberg 的方法也没有在商务网搜索引擎
中得到应用。
XAAT λµ=Χ
TAA
此处介绍的方法也可用于搜索其它有向信息网络。例如,Kleinberg 的方法特别适合于引文网络中
出版物分级。Citeseer 文献搜索引擎就运用了此类型的论文分级形式。
2.有导向的网络搜索
网络搜索另一途径是进行有导向的搜索。有导向的搜索策略适合于某些种类的网络搜索,特别是搜索
会被一般搜索引擎(其覆盖面非常小)所忽视的特定内容,以及搜索诸如分布式数据库等其它类型的网
络。上一小节讨论过的穷举搜索策略是一次爬行整个网络,为找到的数据建一个索引,然后将其存储下
来进行局部搜索。而有导向的搜索策略则针对每次搜索查询进行小而有特定目标的爬行,其采用的是智
能方式即仔细地寻找最有可能包含相关信息的网络顶点。
Menczer 等人的专门网络爬行者或“蜘蛛人”是有导向的搜索实例之一[280,281]。这是一个程序,
它针对特定查询进行网络爬行以发现结果。使用的方法是一种遗传算法[285]或丰富化方法[180],其最
简单的形式中包括有很多“agents”,它们开始时随机在网络上爬行,寻找包含入特定单词或一系列单
词的页面,这些词是有用户给出的。对 agents 进行分类的依据是它们成功的找到所感兴趣的单词的对
应项的次数,那些极少成功的 agents 就被淘汰。对那些获得成功次数最多的 agents 进行复制,增加
agents 在网络图中包括很多有望是所寻找的页面的区域中的密度。在经过某一特定量时间之后,搜索
停止,列出那些目前为止发现的最有可能是所寻找页面的目录。此方法成功是基于一个假设,即那些包
含与特定主题有关的信息的页面倾向于在图上局部区域聚集在一起。而除了这一点,此算法还几乎没有
利用到图结构的统计学属性。
Adamic 等人给出了一个完全不同的直接利用网络结构的算法[5,6],它被设计用于点对点网络。该
算法利用大多数网络的不对称顶点度分布来快速找出所需结果。算法如下。
简单的广度优先搜索可认为是一次开始于网络是一个唯一的源点的提问。提问者遍访源点的所有邻
接点,问,“你有我所寻找的信息吗?”每个邻接点或者回答“是的,我有,”从而结束搜索,或者回答
“不,我没有。但我已经把你的请求向我的所有邻接点传达了。”他们的每个邻接点当接到请求时或者
认出这项请求他们以前已见过从而此邻接点被排除,或者仍继续重复执行上述过程。总共而言,这种提
问要对网络大小 中 个顶点进行。Adamic 等人提出对这一算法的修改如下。初始源点再次向他的
每一个邻接点就所需信息进行提问。但现在,回答或者为“是的,我有”,或者为“不,我没有,但我
有 个邻接点”,其中 是被提问的顶点的度数。源点在所收到的其每一个邻接点的后一类型的回答的
n )(nΟ
k k
53
基础上,可确定其拥有 的最大值的邻接点,然后把提问的责任像接力棒一样传给这个邻接点,接着在
这个点的邻接点上重复整个过程。(如果拥有最大度数的顶点过去已经处理过此类提问,则选择度数第
二大的顶点,如此等等;完全的递推后溯被用来确保算法不会陷入死胡同。)
k
这一策略的结果是接力棒在递增的顶点度链上快速传递着直到它到达网络中最大度数顶点,在具有
高度不对称顶点度分布的网络上,特别在无标度(即幂律)网络上,拥有高度数顶点的邻接点占网络占
全部顶点的很大部分。因此,平均而言,我们仅需沿着链走少数几步就可以找到其邻接点拥有我们所寻
找的信息的顶点。无标度网络上顶点度最大值为 ,随网络大小 增加而增大(见第三节 C.2),
因此搜索 个顶点所需的步数为 ,此值位于 和 之间,当
)1/(1 −αn n
)(nΟ )1/))2()1/(1/ −−− = ααα nnn )( 2/1nΟ )(log nΟ
32 ≤≤ α ,这一范围在幂律网络中一般都成立(见表Ⅱ)。这是对简单的广度优先搜索在时间复杂度
上的一次重大改进,特别是针对)(nΟ α 的较小值而言。
这一结果与 Adamic 等人给出的结果[5,6]有所不同,后者采用了一个更为保守的假设,即最大顶点
度数为为 [8],所得搜索时间要大很多,介于 和 之间。然而他们指出,如果接力
棒所传给的每个顶点不仅允许提问它的紧邻网络邻居,而且允许提问它的次紧邻网络邻居,这样的话,
搜索效率显著提高,为 。
α/1n )( 3/2nΟ )( 2/1nΟ
)( )/21(2 α−Ο n
Adamic 等人的算法已经在具有构造模型结构[5](第四节 B.1)和 Barabasi-Albert 的偏好连接模
型[5,232](第七节 B)的图上得到计算证实。并显示出具有与预期的变化形式保持合理的一致性的行
为。
读者会有想法认为这些算法带有些许欺骗性,这种想法也没错,因为算法的运行时间是由接力棒传过之
手的多少来衡量。如果我们用被网络顶点响应的提问的次数来衡量的话,那么算法仍是 的,这和
简单的广度优先搜索一样。因此 Adamic 等人建议,每个顶点在邻接点处存储上信息(如数据文件)的
局部目录或索引,因此关于那些顶点的提问能在局部上进行解决。对于分布式数据库和文件共享网络而
言,这些网络中按照顶点之间通讯费用来衡量带宽是属于昂贵的资源,此策略确实改进了网络大小变化
引起的变动情况,最好情况下每次提问费用减为
)(nΟ
)(log nΟ 。
3.网络导航
前面章节中所讨论的 Adamic 等人的研究工作[5,6]考虑的是,我们如何能设计一种网络搜索算法利
用网络结构的统计学特性来提高绩效。作为补充,Kleinberg 考虑了这样一个问题[238,239]:是否可
以对网络结构进行设计,使特定的搜索算法执行起来更好?第三节 H 中讨论过的一项观察结果推动了
Kleinberg 的研究工作,即人们仅利用关于网络结构的局部信息就可以有效控制社会网络的航向,而且,
这种能力不依赖于表现在部分人身上的任何特别复杂难解的行为。例如,当进行 Milgram 的信件传递游
戏时[283,393],游戏中要求参与者通过在他们的熟人网络上传递一封信或一条信息,而与一指定目标
人就这封信或信息取得联系(第二节 A)。目标搜索的进行,粗略的说,是利用了一个简单的“贪婪算
法”。即,在每一步上信件所被传递给的那个人是目前的信件持有人认为最接近于目标的人,(事实上准
确的说这是在 Milgram 的实验中如何去指导参与人行动的问题。)信件常常只需很短的时间就到达了目
标,这一事实表明网络自身定有一些特别的属性,因为搜索算法显然做不到这一点。
Kleinberg 提出一个简单模型来说明这一行为。他的模型与 Watts 和 Strogatz 的小世界模型
54
[412,416](第六节)相比有些许变化,它是在规则型格子(Kleinberg 在研究中采用正方形格子)上
的格子点对之间添加直接关联的捷径边。这些直接关联的捷径边不是像 Watts 和 Strogatz 提出的那样
随机一致的添加的,Kleinberg 以一种有偏向的方式添加它们,使得这些边更可能落入在由格子定义的
欧几里德空间中靠近在一起的格子点之间。一条捷径边落入两个格子点之间的概率为α−r ,其中 r是两
个格子点之间的距离,α 是一个常量。 Kleinberg 证明,用贪婪算法在这种网络上寻找随机指定的目标所需的平均时间(即步数)存在一
个更低的边界。他得到的边界是 ,其中 c独立于 且 βcnt ≥ n
⎩⎨⎧
−−−
=)1/()2(
3/)2(αα
αβ
220
><≤
αα
(95)
当α 接近 2 时算法的效果最好,确切的说,在 2=α 处贪婪算法可以在 )(log nΟ 步内找到目标。
Kleinberg 还用计算机仿真证实了这一结果。更一般的,对于构建于 维隐式格子上的网络而言,贪婪
算法的最优绩效出现于
dd=α 处[238,239]。(有关贪婪算法在 Watts-Strogatz 类型网络上的绩效的一
些严格结果参见参考文献 193。)
Kleinberg 研究指出,很多网络不允许利用简单的算法如贪婪算法进行快速搜索,但设计网络使其
允许进行这样的快速搜索是可能的。然而,他所研究的特定模型非常特殊,当然不能作为一个好的现实
社会网络典型激励他的研究探索。Watts 等人[415]和 Kleinberg 独自[240]提出了另一个表现出与
Kleinberg 的模型的行为类似的模型,它更多的是针对社会网络的真实结构。Killworth 和 Bernard 的
“索引”实验[50,230]表明,人们通过寻找他们的熟人与指定目标之间存在的共同特征来控制社会网络
的航向,这些特征包括如地理位置或职业。这样就提出了一个模型,其中个体按照比方说所从事的工作
进行分组形成若干类别(至少是在参与者的脑海中进行)。这些类别自身又可能被分为若干子类别,如
此等等,从而创建出一个树形组织等级结构,定义任意两个人之间的“社会距离”:两个个体之间的社
会距离用树中这两个个体之间连通时所处的最低等级位置的高度来衡量——见图 15。
然而这种树不属于网络,它仅是一个影响网络生长方式的心智构造。有假设指出,两个顶点之间的
社会距离越短,它们之间存在关联边的概率就越大,Watts 等人[415]和 Kleinberg[240]都认为,此概
率随社会距离的增大呈指数减少。为了把一条信息传达给一指定目标人,贪婪算法明确指出必须在每一
步上都保证信息被传递给的那个人是当前信息持有人的与目标人之间社会距离最短的网络邻居。Watts
等人的计算机仿真显示,这一算法的执行在模型参数的很大范围内都进行得很好,并且 Kleinberg 指出,
对于适当的参数选择而言,搜索仍可以时间 )(log nΟ 完成。
图 15 由 Watts 等人[415]和 Kleinberg[240]提出的“社会距离”等级结构树。个体按照职业、位置、兴趣等进行分组,
这些组又继续划分形成更大的组,如此等等。两个个体之间的社会距离如下衡量,即个体必须爬上树多远才能发现个体
对的位置最低的“共同祖先”。
虽然此模型主要是在社会网络上进行搜索的模型(或在万维网上进行可能的搜索[240]),Watts 等
人认为它还能被作为针对经设计的网络进行搜索的模型。如果我们能对分布式数据库中的项进行规划安
排,依据一些可确知的特性把这些项等级分组,那么针对这些特性的贪婪算法可以快速地在数据库中找
55
到所需元素,花费的时间可能只是数据库大小的对数。关于这一思想 Iamnitchi 等人[205]和 Arenas
等人[25]研究颇为详细。
等级结构组织模型的不足之处在于,现实中网络顶点所划分出的类别几乎总是存在相交,但在等级
结构模型中它们是分离的。Kleinberg 提出了模型的一个推广形式,它允许类别相交,同时表现出定性
上与等级结构模型相似的搜索行为[240]。
D 网络相变
另有一些论文研究的是传统统计力学模型的网络相变行为。例如,有几位学者研究了各种网络上的
螺旋模型如 Ising 模型。Barrat 和 Weigt 利用复制方法在具有小世界模型拓扑结构的网络上[416](见
第六节)对 Ising 模型进行了研究。毫不令人惊讶的是,他们发现,在条件 下,对于捷径边密
度 的所有值,模型都存在一个有限温度相变。参考文献 191,202,256,337,429 在小世界网络
上对 Ising 模型进行了进一步的研究;在随机图上对模型进行的研究见参考文献 112,264;在具有
Barabasi-Albert 成长网络模型拓扑结构的网络上(第七节 B)对模型进行的研究见参考文献 18,51。
∞→n0>p
开展网络上螺旋模型研究的动机通常有两类,或者是认为它们可作为社会网络中观点形成的简单模
型[426],或者是认为它们提供了网络拓扑结构对相变过程的影响作用的普遍洞察力。然而,关于这两
个方面还有其它更为直接的方法。利用实际的观点形成模型可以对观点形成进行更直接的研究
[84,108,163,381,390,403]。Goltsev 等人利用 Landau 理论一般框架研究了网络相变行为[178]。他们
发现,网络上模型的关键性行为一般依赖于顶点度分布,特别受到幂律顶点度分布的强烈影响。
现实中令人感兴趣的表现出相变行为的一类网络状系统是一类 NP-hard 计算问题,例如可满足性和
可染色性,它们表现出可解性相变行为。此类系统最简单的例子是可染色性问题,它与运筹学问题如进
度问题有关,也与统计力学中的 Potts 模型有关。在此问题中,很多项(顶点)被划分为很多的组(颜
色)。一些顶点对不能够划分在同一组,此时用在顶点对之间置入一条边来代表这种限制。因此,所有
此类限制的集合就形成了一张图。同时满足所有限制的问题的解(若存在)就等价于在图中找到一种染
色法,使得没有两个邻接点有同样的颜色。可发现,这一类型的问题表现出相变,即从低密度区域(图
中边数对顶点数的比率小),其中多数图是可染色的,相变到高密度区域,其中多数图是不可染色的。
相当多的文献对这一问题以及计算机科学中的相似问题[131]进行了研究。然而,这项工作主要还限制
在 Possion 随机图上;当我们研究更为现实的网络拓扑结构时结果会发生怎样的改变,在很大程度上这
仍是一个待考虑的问题。Walsh 对 Watts-Strogatz 小世界模型(第六节)的可染色性问题进行了研究
[406],发现捷径边密度参数 p的值小还是大,这些网络都是易染色的,但当 p处于中间区域值时,它们很难被染色。Vazquez 和 Weigt 研究了顶点覆盖的相关问题[402],发现在一般随机图上具有在第三
节 F中所讨论的类型的强顶点度相关性的网络更难被染色。
E 其它网络上过程
有关网络上各种其它过程行为的研究已初步展开,本质而言主要还是数值形式的。很多学者对扩散
过程进行了研究。例如,Jespersen 等人[216],Pandit 和 Amritkar[329]以及 Lahtinen 等人[258,259]
研究了随机扩散过程。扩散方程的解可表达为拉普拉斯算子图的特征向量的线性组合,由此导引了很多
学者对拉普拉斯算子及其特征值谱进行研究[150,173,289]。离散动态过程也吸引了一些注意力。网络
状 系 统 的 统 计 模 型 最 早 的 例 子 之 一 是 Kauffman 的 随 机 布 尔 逻 辑 网
[11,16,97,98,159,224,225,226,373],它是基因调节网络的模型(见第二节 D)。Watts 和 Strogatz
对网络上元胞自动机进行了研究[412,416],投票者模型和观点形成模型可被看作是元胞自动机
[84,256,403]。有几位学者对网络上叠代游戏进行了研究[1,135,231,416],在这些网络上表现出的行
为和在规则型格子上表现出的行为之间存在一些有趣的差别。其它的研究主题还包括弱连结振荡器
[37,201,416],神经网络[257,382],以及自组织临界模型[106,252,300]。Strogatz 对网络上动态系
统的行为进行了有价值的讨论[387]。
56
Ⅸ总结和未来研究方向 本文中我们对在网络系统的结构和功能方面的一些近期工作进行了综述。该领域研究很大程度上得
益于现实世界网络的经验研究的推动,包括如因特网、万维网、社会网络、协作网络、引文网络和很多
的生物网络。我们在第Ⅱ和Ⅲ节综述了这些经验研究,重点集中在受特别之关注的网络的统计属性上,
包括路径长度、度分布、群聚和弹性。表Ⅱ总结了一些网络的统计属性的定量测度值。诸如此类研究所
获最重要之发现表明,网络通常远非是随机的。他们有非常鲜明的统计特征,其中的一些特征,如高群
聚系数和高度偏斜度分布,都是很大一部分网络的共同特征。 受这些发现之鼓舞,很多研究者提出了网络的典型模型,试图解释网络如何演变到所观察到的结构,
抑或来解释那种结构的期望效果将如何。本篇综述的大部分都用来讨论这些模型,包括随机图模型和它
们的一般性模型(第Ⅳ节),马尔可夫图(第Ⅴ节),小世界模型(第Ⅵ节)和网络生长模型,特别是偏
好连接模型(第Ⅶ节)。 本篇综述的最后一部分讨论了发生在网络上的过程行为方面的研究工作。目前该领域最成功之处在
于对诸如社会网络或计算机网络上传染过程的研究,以及网络顶点故障对通讯网络性能之影响的研究。
在网络相变和网络动态系统(特别是离散动态系统)方面也取得了一些进展。 展望该领域未来的发展,可明确的是——还有很多的工作需要做。复杂网络的研究仍处于初级阶段。
未来研究在几个领域大有潜力:首先,虽然我们正开始了解现实世界网络结构的一些模式和统计规律,
但我们用来分析网络的技术,目前为止还只是一个杂乱无章的塞满很多大不相干工具的袋子。和在其它
一些领域一样,我们至今没有一个系统的程序来刻画网络结构。我们计算网络三角形的个数或测量度分
布,但我们并不清楚这些量是否就是唯一重要的刻画量(几乎可以肯定它们并不是这样的量),或者仅
仅说它们是最重要的刻画量。至今也没有理论框架告诉我们说我们恰好找对了地方。或许有其它的一些
目前没考虑到的量,要比我们现在所采用的更为重要。几乎可以肯定的是,要真正的了解网络的哪些属
性属于重要的关注点,需要我们首先清楚对于特定的网络我们所感兴趣什么问题。知道如何把这些问题
的回答与网络的结构属性结合起来因此也成为一个重要的目标。 其次,在开发更为精妙的网络模型方面还大有可为。这些模型既可以帮助我们理解网络拓扑,也可
以作为研究发生在网络上的过程的基础。虽然某些网络属性,例如度分布,已经完全模型化了,其成因
和效果也非常清楚,但在诸如相关性、传递性和群落结构等网络属性方面却做得不够。这些属性无疑会
大大影响网络系统的行为,目前我们缺乏合适的技术来处理他们,这妨碍了我们的理解。 未来研究的第三个方向,也可能是最重要的方向就是发生在网络上的过程之行为。第Ⅷ节所阐述的
内容仅代表解答此类过程问题的一小部分早期的努力。在某种意义上,这种努力是我们在该领域的终极
目标,即理解我们周遭之网络系统的行为和功能。如果我们能够了解这些,这将给很多复杂的、以前了
解极少的现象带来新的洞察和见识。
参考文献(见原文) (注:第Ⅰ,Ⅱ,Ⅲ,Ⅷ,Ⅸ部分由杨波翻译,第Ⅴ,Ⅵ,Ⅶ部分由万阳松翻译,第Ⅳ部分由韩丽川翻译,全稿由陈忠校对,陈晓荣编辑)
57