大数据时代的网络分析，如何全盘挖掘大数据-CDA数据分析师官网

热线电话：13121318867

大数据时代的网络分析，如何全盘挖掘大数据

2016-10-20

大数据时代的网络分析，如何全盘挖掘大数据

我们生活在一个互联实体(entities)构成的复杂世界中。人类涉足的所有领域，从生物学到医学、经济学和气候科学，都充满了大规模数据集。

这些数据集将实体（entities）模拟为节点、节点之间的连接被模拟为边（edges），从不同且互补的角度描述着复杂的真实世界系统。这些网络化数据是特定领域信息的新的丰富来源，不过，目前，大部分信息却隐藏在这种复杂连接模式（wiring patterns）中。

首当其冲的就是解码这些模式，因为计算分析大型网络通常会很棘手，以至于我们关于这个世界的许多疑问都无法得到准确回答，即使我们拥有不受限制的计算机性能和时间[1]。因此，唯一的希望就是近似地回答这些问题（亦即启发式地）并且证明在最糟糕的情况下，这个近似回答距离确切的未知答案有多远。

本期《科学》中， Benson 等人[2] 往这一方向迈出了重要的一步——提出了一种可升级( scalable)的启发式框架：用于基于连接模式的实体（entities）分组，以及用发现的模式揭示出几个真实世界网络化系统的高位阶组织原则。

摘要：网络是理解和建模物理、生物、神经科学、工程学和社会科学中复杂系统的基础工具。许多网络以展现出能够在单个节点和边的水平上被获取的丰富、低阶连接模式著称。但是，大部分复杂网络的高阶组织——在小型网络子图（subgraph）水平上——在很大程度上仍然未知。我们开发出了一种通用框架（generalized framework），用于在高阶连接模式基础上聚类网络。该框架为已获聚类的最优性提供了数学保证，并能扩展到带有数十亿个边的网络。该框架也揭示了许多网络的高阶组织，包括神经元网络的信息传播单元和交通运输网络的枢纽结构。结果表明，这些网络展现出了丰富的高阶组织结构，该结构可以在高阶连接模式的基础上通过聚类的方式揭露出来。

为了挖掘网络化数据连接模式，揭示出功能组织，仅考虑简单描述符号是不够的，比如每个实体（亦即节点）和其他实体（亦即节点度，node degree）的互作用数量，因为在这种简单描述符号层面，两个网络可能等同，但它们的连接结构非常不同（见图）。

相反，Benson 等人使用了叫做图元 (graphlets, 例如三角形) 的高阶描述符，它建立在小型子网络基础上，这些小型子网络来自一个数据中的节点子集，这个节点子集包含了出现在数据中的所有交互作用[3] 。他们仅用少数几个跨区域边界的特定图元实例，就鉴别出富含某个特定图元类型实例的网络区域。如果这种图元类型是预先指定的，那么，这种方法就能发现通过这个图元互连的节点，它也帮助 Benson 等人将线虫神经元网络（控制某类行动的网络）中的20个神经元成功地组在一起。

该方法正是通过这种方式将局部连接模式 ( local wiring patterning)与由之强加的高阶结构模块化结合起来的，揭示出网络化数据中高阶功能区域。

网络结构

下述四种网络大小相同（节点和边的数量也相等），每个网络的每个节点度（与其他节点交互作用的数量）也相同，但是，每个网络却结构各异。

这一研究结果的重要性在于：可用于大范围的网络化 RNA 以及被翻译成蛋白质，它使用各种各样的三维结构来实现特定的细胞功能。分子互动会被不同的高通量生物技术捕获，而且还可以用不同网络类型加以模拟。对分子网络的个体分析已经揭示出：拥有相似功能的分子趋于聚集在一个网络中并以相似的方式连接起来 [13] ，让我们更好理解基因功能 [6] 以及细胞的分子组织 [7]并且促进了疗法（therapeutics）发展 [8-12]。

图一：高阶网络结构以及高阶网络聚簇框架。（A）高阶结构由网络模体（network motifs）获取。例如，图为所有 13 种互连的三节点有方向模体。（B）基于模体 M7 的网络的聚类。对于给定的模体 M，我们的架构的目标是找到能最小化模体传导率（motif conductance）ΦM(S) 的节点的集合 S；模体传导率的定义是模体切割（motif cut）（实心三角形切割）的数量与模体 S 或模体

（13）例子中节点的最小数量之比。本例中有一个模体切割。（C）高阶网络聚类框架。给定的一个相关的图形和模体（本例中为 M7）后，该框架通过计数双节点在该模体中共现（co-occur）的次数来构成一个模体邻接矩阵（motif adjacency matrix）（Wm）。然后再计算该模体邻接矩阵的拉普拉斯变换（Laplacian transformation）的特征向量。由该特征向量的成分提供的节点排序 σ 产生了不断变大的 r 的嵌套集合（nested sets）Sr={σ1,...,σr}。我们证明了带有基于传导率 ΦM(Sr) 的最小模体的集合 Sr 是接近最优的高阶聚类。

然而，就所研究现象而言，每种网络类型提供的信息都是有限的。例如，一种疾病很少是单个变异基因或单个遭受破坏的分子相互作用所致，而是细胞内、细胞间互动造成的多重扰动产物。

网络医学 (network medicine) 将网络分析和数据整合结合起来，挖掘补充数据中的财富，并揭示出貌似无关疾病之间的普遍分子机制 [8-11]。与之相反，患有看似相同疾病的病人，发病的分子机制可能不同，他们对治疗的反应也可能不同（例如：癌症异质性）[8-11]。因此，个性化医疗的目的在于基于单个病人基因和分子特征，为病人提供个性化疗法，这可能涉及到根据不同病患分组，改变已知药物用途，进而缓解开发新药所需成本和时间给制药行业带来的瓶颈 [11,12]。

对于这些尚处初期的领域来说，分析和整合网络数据的方法将是基础，只有全盘挖掘所有可得基因、分子和临床数据，才有可能全面理解相关情况[11]。

图二：秀丽隐杆线虫神经元网络的高阶聚簇（A）四节点双扇模体（The four-node bi-fan motif），在神经网络（1）中被过度表达。直观上看，这个模体描述了从左边节点向右边节点传递合作繁殖信息的过程。（B）秀丽隐杆线虫额叶神经元网络的高阶聚簇以（A）中的模体为基础。这个聚簇包含了作为信源的 3 个带有多个外向连接的环状运动神经元（REML，-V，和 -R；青色），6 个作为目的地信息的带有多个内向连接的内唇感觉神经元（IL2DL ，-VR，-R，-DR，和 -L；橘色），4个作为中介的URA 运动神经元（紫色）。这些 RME 神经元已被提为这个神经环的先导，而 IL2 神经元是已知的瞬眼调节器，同时这个高阶聚簇会暴露它们的组织。这个聚簇也揭示了 RIH 是信息处理过程中的一个关键媒介。这个神经元有来自 3 个 REM 神经元的传入链接，与 6 个IL2 神经元中的 5 个相连的外向连接，和该聚簇中总数最大的连接，它连接了该聚簇中任何一个神经元。（C）整个神经网络环境中的II-lustration 高阶聚簇。节点位置在这些神经元的真正二维空间嵌入的地方。大部分信息从左向右流动，而且我们看到 RMEV，-R，和 -L与 RIH 是作为右边神经元的信息源。

全面分析互连世界，需要概念以及方法论范式的转换。

不要孤立分析单个数据来源，例如基因序列比对（ aligning genetic sequences ）（它已经革新了我们对生物学的理解）[14]，在单个框架中比对所有类型的数据——「数据比对（the data alignment）」才会带来更为深入的洞见。

例如，一个细胞所有基因的和分子互动数据，可以整合进同一个计算框架中，而且我们需要研发出一些方法，在一个新的「细胞比对（the cell alignment）」范式中比对这些「整合细胞（integrated cells）」。

同样，我们已经分别研究过了世界经济系统，包括贸易网络、金融交易、投资等[3,5] 。但是，对财富起源、危机和经济复苏的理解只能来自对比和整体分析所有层面的网络化经济和地缘政治数据。同样，气候测量的结果也是通过不同网络类型编码跨地理区域的各种气候元素获得（例如：风速、气压和温度）之间的关系 [4]，而且，全盘的数据对齐分析或许有助于解释这种复杂动态系统，并且更好预测人为改变带来的影响。

可以抓住数据高阶结构复杂性的数学形式体系（Mathematical formalisms），连同从那些数学形式体系中计算和提取信息的算法[15]，应当得到发展和应用。将 Benson 等人的框架扩展到用于在这些整合和对齐的数据系统中发现高阶结构，可能是未来的发展路向。

源于数据规模巨大、复杂、异质、噪音以及不同时空尺度的计算问题，仍然需要加以解决。

图三：加拿大和美国机场网络的高阶谱分析。（A）在我们的分析中使用的三种高阶结构。每一个模体。每一个模体都「挂靠」于蓝色的节点 i 和 j，这意味着我们的框架只能寻找将蓝色节点聚类在一起。特别地，该模体邻接矩阵会根据第三个中间节点（绿色方块）而为 (i,j) 边增加权重。前两个模体对应于高度互连的城市，而最右边的模体是非枢纽与非枢纽的连接。（B）美国人口最多的 50 个城市，每个城市分别对应于网络中的一个节点。边厚度正比于模体邻接矩阵中的权重 Wm。厚的黑色线表示较大权重对应于流行的主线路径。（C）由 Wm 的标准拉普拉斯的前两个非平凡特征向量（nontrivial eigenvector）的它们的对应成分提供的节点嵌入。其中标注城市中有 8 个城市是美国最大的枢纽（绿色）、有 3 个是西海岸非枢纽（红色）、还有 3 个是东海岸的非枢纽。主要的谱坐标（spectral coordinate）（从左至右）说明了城市的枢纽程度，而第二个谱坐标（从上至下）表示的是西到东的地理分布。（D）由标准的、基于边的（非高阶）标准拉普拉斯的前两个非平凡特征向量中的对应成分提供的节点嵌入。该方法没有获取由高阶方法发现的枢纽和地理。比如，最大的枢纽亚特兰大位于嵌入的中心，和非枢纽城市 Salina 紧邻。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；