社区检测算法中权重的含义

时间:2018-03-07 12:28:53

标签: igraph social-networking

igraph here中提供的社区检测算法有很好的比较。但是,在算法中使用权重时可能存在一些模糊性,可以应用加权边缘。

通常,边缘权重将被定向,以便更高的权重建议将节点保持在一起(例如,友谊的强度)。通过比较内部和外部的平均加权密度,这可以很好地模拟分数。

然而,Newman-Girvan社区检测算法使用基于距离的中间性。在这种情况下,我希望边权重应该反映节点之间的距离,以便计算最短路径对路径上的权重求和。也就是说,权重是成本或距离得分,其中较高的值应该分解为不同的社区。

在使用Newman-Girvan时,我是否正确期望更高的权重,如果是这样,那么如何通过使用模块化来决定在哪里减少社区数量?

1 个答案:

答案 0 :(得分:6)

我的回答将基于R中的igraph一揽子计划。情况确实令人困惑,问题是相关的,因为正如Newman(2004)所说,

  

自该作品发表以来,作者被问到一个号码   时间是否存在适当的算法概括   加权网络。

在他的论文中,他推导出Newman-Girvan算法对加权网络的适当推广。

权重

你对Newman-Girvan算法中权重的解释是正确的。 edge_betweenness使用类似于(Brandes,2001)中的公式,其中路径的长度被定义为其边缘权重的总和。 (您也可以查看source code,但它非常复杂)。在?edge_betweenness中,特别是?cluster_edge_betweenness,它说

  

边缘权重用于计算加权边缘之间。这个   表示边缘被解释为距离,而不是连接   优势

其含义如下。设b(e,w)为边e与权重w的边缘。然后它可以显示(如果你愿意,我可以详细说明)

b(e,w)< = b(e,w *)当且仅当w> = w *。

即,边缘中介与e的权重成反比关系。主要思想是给出,例如,w *>> w,那些现在越过e的最短路径可能会被其他一些不包括e的路径所支配。因此,较大的权重意味着(弱)较低的中介性,较低的中间性使得e不太可能被识别为连接两个社区的边缘。因此,如果我们将权重视为距离,这听起来很奇怪。另一方面,如果e在某个社区内并且我们减少了它的权重,那么通过该边缘的最短路径的数量可能会增加,并且它更可能被视为连接两个社区。不过,我还没有对相应的模块化分数提出任何要求。

现在让我们假设权重实际上与连接强度相对应。然后连接越强,通过该边缘的最短路径越少(因为我们仍然需要计算它们),它的边缘间距越低,并且它被移除的可能性越小。所以那是有道理的。

不好或更奇怪的是,现在路径的长度被定义为其连接强度的总和。但是,我们可以重新解释算法。假设权重>>社区内的1和<< 1他们之间。然后我们可以将路径的长度解释为该路径的隐私(例如,社区内的路径将包含许多紧密的交互,而连接两个社区的边缘在某种程度上是公开的,开放的)。给定这样的解释,算法将寻找最不私有/最开放的路径并计算相应的中介。然后我们将删除属于许多最开放路径的边缘。

所以也许我在某个地方犯了一个错误,但看起来将权重视为连接优势会更有意义。

Newman(2004)做了一些相关的事情:

  

......我们将特别考虑那些权重的网络   在边缘上,对于具有更近的顶点对采用更大的值   连接或以某种方式更相似。

它似乎应该有意义。然而,为了保持他写的最短路径的更自然的定义:

  

可以通过假设“长度”来定义加权网络上的路径   边缘与其重量成反比变化,因此两个顶点即可   连接两次,强度相差一半。

也就是说,现在最短路径长度与权重成反比关系。由于没有这样做似乎给出了好的结果,现在我们遇到了一个问题:

  

要看到这一点,请注意特别是任何两个顶点   彼此紧密相连将会特别短暂   它们之间的边缘距离。因此,测地路径将是全部   在其他条件相同的情况下,喜欢沿着这样的边缘而不是沿着边缘流动   两个连接不良的顶点之间的另一个较长边,和   因此,紧密相连的对将倾向于吸引很多路径和   获得高度的中介。这意味着,作为一般规则,我们是   更有可能消除连接良好的对之间的边缘   在连接不良的对之间,这恰恰相反   我们希望算法做什么。

当我们将权重视为距离时,我描述的结果是什么。正如我在答案的开头所提到的,处理这个Newman(2004)提出将加权图映射到未加权的多图,然后与标准情况非常相似地进行。我相信这个多图的想法可以通过设置weighted = NULL但没有二元邻接矩阵来实现(在定义图时;参见weighted中的?graph_from_adjacency_matrix)。

模块化

首先,人们可以使用带有加权图的模块化,正如Newman(2004)所做的那样,这不是问题。一般而言,使用权重影响使用模块化作为选择社区数量的方式并不明显。我可能会用R添加一些例子。正如Newman(2004)发现,当解释符合算法的工作方式时,似乎应该对未加权的情况有所改进。否则,我认为图形结构和权重本身对描述我们得到的真实程度的程度非常重要。

<强>参考

Newman,M.E.,2004。加权网络分析。物理评论E,70(5)。

Brandes,U.,2001。一种更快的中介中心性算法。数学社会学杂志,25(2),pp.163-177。