大规模网络结构数据分析与空间自回归模型｜第1章网络数据的定义及相关指标(2)

1.2 网络数据的相关指标

在网络数据分析中，需要关注一些重点指标，例如，一个网络的结构是围绕几个节点高度中心化，还是扁平的；网络中节点之间的联系是紧密还是松散的等。利用这些指标，不仅可以对网络特征进行定量化的描述，了解网络的具体特质，还可以为更深入分析任务提供帮助，如发现网络中内部联系紧密的小团体等。下面将对网络分析中常用指标进行具体介绍。

1.2.1 度的定义及度分布

对网络中的单个节点，度(degree)是描述节点属性最基础而又最重要的指标之一。在单模的无向网络中中，对节点，度表示与节点直接相连的边的数目，如微信中的好友数。给定邻接矩阵，则节点的度为。在双模网络中，度同样表示与节点直接相连的边的数目。例如，对商户而言，表示在每个商户交易的用户总数；对用户而言，表示其交易过的商户总数。

对有向网络，节点的度可进一步分为出度(out-degree) 和入度(in-degree)。节点的出度表示从节点指向其他节点的边的数目,即；入度表示从其他节点指向节点的数目，即。如图1.7所示，对节点，仅有一条边指向它，因此节点的入度为1；同时存在两条由指向其他节点的边，因此的出度为2。

图1.7 出、入度示意图

节点的度是对网络局部单个节点性质的刻画。当计算得到网络中每个节点的度之后，即可得到整个网络在节点度上的分布。网络的度分布是网络整体性质的反映。此外，还可通过平均度(average degree) 对网络整体的度分布进行刻画。平均度为网络中所有节点的度的平均，即。对出度、入度，可类似地定义平均出度、平均入度。平均度越高，则整体意义上网络中的边越密集，网络中节点间的联系越紧密。

通过节点的度，可以对节点在网络中的局部连接情况得到直观认识。例如在好友网络中，一个节点的度较高表明相应个体在人际交往中好友较多。而通过节点度的分布，则可以对网络整体有直观了解。例如一个度分布较为平均的好友网络，通常个体间存在扁平化的交往关系，即每个人的好友数量是相近的；而一个度分布非常不均衡的好友网络，则更可能是存在若干个”交际明星“，他们的好友数量明显高出一般人。

1.2.2 聚类系数

聚类系数(clustering coefficient)是对网络紧密程度的一种度量。以下分别介绍节点的聚类系数和网络的聚类系数。对单个节点，聚类系数反映了它的任意两个邻居节点之间存在边的概率。给定节点的度，则节点的聚类系数定义为

其中是节点的个邻居节点彼此之间边的数目（不包括它们与节点之间的边），即节点邻居节点中，存在关联的邻居对的数目。若节点没有或者仅有一个邻居节点，则为0。节点聚类系数取值范围为。给定邻接矩阵，聚类系数可通过下式计算：

对网络整体，网络的聚类系数定义为所有节点的聚类系数的平均，即

网络的聚类系数越高，表明网络中的耦合程度越大。的取值范围同样为。当时，网络中所有节点的聚类系数均为1，此时任意两个节点之间都是直接相连的。

例如，对图1.8构成的网络，考虑对节点计算聚类系数。节点周边存在6个节点，从而存在个邻居对。15 对邻居节点相互之间存在4 条边。因此节点的聚类系数即为。以同样方式可得，其他节点的聚类系数为，整个网络的聚类系数即为。

图1.8 聚类系数计算示例网络

通过聚类系数，可以对网络的紧密程度进行刻画。例如对一个好友网络，若聚类系数较高，则说明网络的个体之间相互连接紧密，许多个体拥有大量共同好友。而若聚类系数较低，则说明网络连接较为松散，存在更多的一对一的好友关系。

1.2.3 社区的定义

社区 (community) 一般指具有某些共同特征的人聚集在一起形成的组织。在社交网络分析中，社区通常表现为一种特征明显的结构：社区内部的节点相互连接较为紧密，而社区之间的节点连接相对稀疏。图1.9展示了一个简单的具有社区结构的网络，由虚线划分出的各部分为该网络内的各个社区。社区检测是社会网络分析中的一个重要研究课题，高效的社区检测方法能够对网络结构的刻画、人群属性细分、好友推荐等问题提供有力的支持。

图 1.9 社区结构示意图

需要指出的是，社区的概念不仅包括人与人组成的群体，也能够在其他的网络数据中，描述由关联紧密的节点构成的组织结构。对社区结构的研究应用广泛，包括社会行为（Fortunato, 2010）、蛋白质与蛋白质的相互作用（Chen and Yuan, 2006）、基因表达（Jiang et al., 2004）、推荐系统（Linden et al., 2003）；图像分割（Shi and Malik, 2000）、产品-客户细分（Clauset et al., 2004）、网页排序（Kumar et al., 1999）等不同的网络数据分析。例如，在基因表达中，“社区”可以是在功能上具有密切关联的一群蛋白，研究者在分析生物性质时，可以将这一“社区”作为一个功能单元来考察；在图像分割中，“社区”可以是相关性高的一群像素点，表示一个特定的物体对象；在网页排序中，“社区”可以是一组相互间存在大量超链接的网页，这些网页在语义上或信息资源共享上关联更大，当用户浏览其中一个网页时，相比一般的网页，将更有可能跳转到“社区”内部的其他网页上。

1.2.4 中心性的定义

一个节点在网络中所处的位置也是对节点进行考察的重要指标。例如，在微博用户构成的社交网络中，处在关注焦点、粉丝数量较多的用户往往对整个网络具有更强的影响力。网络中位置越靠近中心的节点，通常具有更大的价值，或能够在信息扩散、网络演化中发挥更大的作用。为了描述节点在网络中的位置特征，社会网络分析中使用“中心性”（centrality）作为考察指标。根据刻画特征的倾向不同，中心性可进一步分为度中心性（degree centrality）、介数中心性（betweeness centrality）和接近中心性（closeness centrality）。以下分别对这几种中心性的定义进行介绍。

度中心性主要直观考察节点的度，一个节点的度越大，则它连接的节点越多，在网络中可能具有更大的价值。如图1.10所示，节点 i 在网络中具有很高的度，与之直接相连的节点较多，因此节点 i 度中心性较高，它能够直接影响很多节点。

图1.10 度中心性示意图

定义1.8.（度中心性）：对节点，度中心性定义为

其中为该节点的度，为网络节点总数。

网络中的某些节点可能存在于其他众多节点间的通路上，从而体现出”中介“的功能。例如对一个职场人士构成的网络，公司和公司是两个相对独立的公司，旗下员工之间联系非常少，而猎头和两个公司的大部分员工都建立了社交联系。那么猎头在这个网络中也具有很强的影响力。两个公司间的员工如果想要建立直接的合作联系，则需要猎头提供中介支持。又例如对交通网络，网络中的桥梁、隧道节点对整个交通网的管理具有重要价值，因为许多节点之间的互联互通需要通过这些桥梁、隧道。这种中心性称为”介数中心性“，介数中心性较高的节点，往往在网络中具有”牵一发而动全身“的作用。图1.11为介数中心性提供了一个直观的说明，图中节点处在两个内部连接较为紧密社群之间，将两个社群联系在一起，节点在该网络中具有较高的介数中心性。

图1.11 介数中心性示意图

在介绍介数中心性的具体定义之前，首先需要说明路径和最短路径的概念。图1.12展示了一个关于路径的简单例子。从节点到节点存在两条”通路“：和。这两条通路都是从节点到节点的路径。同时，通路只经过两条连边，而通路则需要经过三条连边。因此，在这两条路径中，是最短路径。下面将给出路径和最短路径的具体定义。

图1.12 路径与最短路径

定义1.9.（路径）：对节点与节点，若它们相邻，则边即为它们间的路径。若不相邻，则连接与的路径为一组连接这两个节点的边的集合。

节点与节点之间的路径可能不止一条，在这些路径中，构成的边数量最少的路径即为最短路径。

定义1.10.（最短路径）：对节点与节点，最短路径为。

在实际网络中，两个节点之间的最短路径同样可能不止一条。基于最短路径的概念，可对介数中心性的定义进行说明。

定义1.11.（介数中心性）：对节点，介数中心性的具体定义为

其中，表示节点与之间最短路径的数量，表示节点和之间条最短路径中，经过了节点的路径数量。

在度中心性中，考察的是直接相连的节点数目，而实际网络的节点间存在大量的间接关联，这些间接的联系并没有得到妥善考虑。接近中心性则通过计算节点到网络中所有其他节点的平均距离来衡量节点靠近网络中心的程度，同时考虑了节点之间直接和间接的关联。例如在一个微博用户构成的网络中，用户直接相有关联的用户数量较少，但是用户和明星用户、为相互关注的好友，由于、通过粉丝关注的关系与大量用户直接关联，因此用户在网络中距离其他所有节点的平均距离相对较小。从整体来看，该用户可通过、间接影响到大量用户，也对整个网络具有可观的影响力。如图1.13所示，节点在网络中直接相连的节点、间接相连的节点均较多，从节点到其他任意节点最多只需要两次连接，因而节点具有较高的接近中心性。

图1.13 接近中心性示意图

定义1.12.（接近中心性）：对节点，接近中心性定义为

其中表示节点和之间的最短路径距离。

参考文献

Chen, J. and Yuan, B. (2006), “Detecting functional modules in the yeast protein-protein interaction network,” Bioinformatics, 22, 2283–2290.

Clauset, A., Newman, M. E. J., and Moore, C. (2004), “Finding community structure in very large networks,” Physical Review E, 70, 066111.

Fortunato, S. (2010), “Community detection in graphs,” Physics Reports, 486, 75–174.

Jiang, D., Tang, C., and Zhang, A. (2004), “Cluster analysis for gene expression data: a survey,” IEEE Transactions on Knowledge and Data Engineering, 16, 1370–1386.

Kumar, R., Raghavan, P., Rajagopalan, S., and Tomkins, A. (1999), “Trawling the web for emerging cyber-communities,” Computer Networks, 31, 1481–1493.

Linden, G., Smith, B., and York, J. (2003), “Amazon. com recommendations: Item-to-item collaborative filtering,” IEEE Internet Computing, 7, 76–80.

Shi, J. and Malik, J. (2000), “Normalized cuts and image segmentation,” IEEE Transactions on pattern analysis and machine intelligence, 22, 888–905.

作者简介

黄丹阳，中国人民大学统计学院副教授，博士生导师，应用统计科学研究中心研究员，中国人民大学杰出青年学者，北京大数据协会理事会副秘书长，常务理事，全国工业统计学教学研究会青年统计学家协会理事。主持国家自然科学基金面上项目，青年项目，北京市社会科学基金青年项目等多项省部级及以上课题，曾获北京市优秀人才培养资助。长期从事复杂网络建模、超高维数据分析、分布式计算等方向的理论研究工作，注重统计理论研究在小微企业数字化发展中的实际应用。在Journal of Econometrics, Journal of the American Statistical Association, Journal of Business & Economic Statistics,以及《统计研究》等国内外期刊发表论文近30篇。

书籍简介

本书的主要内容包括网络数据的基本定义及基本特征，大规模网络数据的常见分析方法（链路预测，网络聚类）及应用，以及空间自回归模型在网络数据分析中的定义，模型拓展以及应用等等。本书关注大规模网络数据分析中的模型方法。除模型方法本身的理论拓展之外，在估计方法等方面会涉及大规模数据中的快速计算方法。由于网络分析本身的范围非常广泛，故本书涉及到的仅局限于作者及团队研究工作中使用到的一部分。在书的最后，为了启发读者思路，本书对于部分已有网络研究进行了梳理。本书的读者对象为统计学学者，对网络数据分析感兴趣，并且具备一定统计学基础的研究生，高年级本科生等。

扫描以下二维码购买本书：

往期推荐:

第1章网络数据的定义及相关指标（1）返回搜狐，查看更多

责任编辑：

大规模网络结构数据分析与空间自回归模型｜第1章网络数据的定义及相关指标(2)

相关内容

随便看看

最新实时动态

热点实时动态

专题

推荐实时动态

大规模网络结构数据分析与空间自回归模型｜第1章 网络数据的定义及相关指标(2)

相关内容

随便看看

最新实时动态

热点实时动态

专题

推荐实时动态

大规模网络结构数据分析与空间自回归模型｜第1章网络数据的定义及相关指标(2)