社交网络:数据科学家眼中的金矿
文/ 张文浩随着Facebook的上市,社交网络再次成为人们关注的焦点。与传统的论坛、博客相比,社交网络是虚拟世界与现实世界的桥梁,在互联网上将现实生活中人与人之间的关系建立起来。从社交网络的分类来看,Facebook、Twitter、LinkedIn分别代表三种不同的社交网络。Facebook是基于朋友之间强关系的社交网络,有助于朋友之间关系的维系和改善;Twitter是基于单向关注的弱关...
·
文 / 张文浩 随着Facebook的上市,社交网络再次成为人们关注的焦点。与传统的论坛、博客相比,社交网络是虚拟世界与现实世界的桥梁,在互联网上将现实生活中人与人之间的关系建立起来。从社交网络的分类来看,Facebook、Twitter、LinkedIn分别代表三种不同的社交网络。Facebook是基于朋友之间强关系的社交网络,有助于朋友之间关系的维系和改善;Twitter是基于单向关注的弱关系的社交网络,这样的网络有利于塑造意见领袖和消息的传播;LinkedIn是面向商务人士的职业社交网络,帮助用户利用社交关系进行商务交流以及求职招聘。
三种社交网络每天都会产生大量的用户数据(UGC,User Generated Content),并且具有空前的规模性和群体性,吸引着无数研究者从无序的数据中发掘有价值的信息。这就像概率统计中经常举的投硬币算其正反面概率的例子,从几次的投掷结果中很难看到规律,但通过几万次的大量投掷实验,便很容易看出正反面的出现次数几乎相等的规律。社交网络上产生了大量的规模化、群体化的数据,吸引了包括计算机科学、心理学、社会学、新闻传播学等领域专家和学者对其进行研究和探索,希望能够借助更强的社交网络的分析和处理能力发现更多人类尚未探索出的规律。 对于社交网络的分析和研究范围很广,也存在着许多有意思的研究课题。例如,在社交网络中社区圈子的识别(Community Detection)、 社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及传染病的预测等。社交网络的分析和研究是一个交叉领域的学科,所以在研究过程中,我们通常会利用社会学、心理学甚至是医学上的基本结论和原理作为指导,通过人工智能领域中使用的机器学习、图论等算法对社交网络中的行为和未来的趋势进行模拟和预测。
社交圈子的识别 与一般的以内容为导向的论坛等社区不同,社交网络最核心的就是人与人的关系,以及所形成的社交圈子(社区),然而每个人根据自己的关系不同及兴趣不同可以属于多个社交圈子。在社交网络中我们发布的所有信息流,都是通过我们的关系圈,逐层向外传播的;我们收到的消息也直接来自我们所关心的人,更外围的消息也必须逐层传播才能接触到终端用户。因此,如何发现社交圈子是社会关系网络分析中一个很重要的基础性的研究。社交圈子示例如图1所示。 [caption id="attachment_12536" align="aligncenter" width="309" caption="图1 基于OSLOM算法的社区发现效果图"]
[/caption] 利用计算机来处理社交网络往往会将整个社交网络看作是一个图的结构,每个用户就是图中的节点,人与人之间的关系就是节点之间的边,根据不同类型的社交网络,所构成的图可以是有向图也可以是无向图,关系的强弱也可以利用边上不同的权重来体现。对于社交圈子的发现算法来说,社交圈子的质量依赖于圈子内成员的关系的紧致度以及不同圈子间的分离度。但对于数以亿计的节点来说,目前的圈子发现算法还很难处理特大规模的数据,因此很多研究者提出了启发式的方法去减少程序处理的复杂性,对最终结果进行近似的求解。 然而实际的社交圈子是一个更为复杂的网络,因为用户会具有多种兴趣,可以属于多个社交圈,发现这种圈子的研究也被称为重叠社区的发现。一种比较简单的启发式方法是,以网络中度很大的节点作为初始的圈子,然后把对圈子贡献最大的邻接节点依次加入到圈子中,直到全局贡献度达到极值,并形成一个圈子。如果存在对多个圈子贡献度都很大的边界节点,则将其加入到多个圈子中。近期也有人提出了使用标签传播(Label Propagation)算法以及粒子群算法来解决重叠社区的发现算法。 社交圈子发现算法并不仅局限在用户主动建立起的关系上,其更重要的价值在于对用户非显性的潜在关系发现。从社交圈子发现的结果中,我们能够更加清楚地看出属于一个圈子的人群。当然,社交圈子也有多种划分方式,例如关系型社交圈子、兴趣型社交圈子等。在算法中以亲密度为首要指标和以兴趣为首要指标,也会得到不同的社交圈子划分。 由此引申出的一个问题是,线上的圈子与线下的真实社交圈子是否是一致的?当两个人在社交网络中互动很频繁时,他们在线下是否也是真实的好友?从算法的角度来说,这是个很难解决的问题,但如果我们换一个角度来思考这个问题,想想我们的线下联系方式,如果A跟B互相拥有对方的手机号,那他们是线下真实好友的可能性就非常大了。包括飞信、米聊、微信等产品,如果真的能够做成基于手机通讯录的社交网络,我们就可以通过异构的社交网络对社交圈子进行综合性的判断,其价值不可估量。
影响力的计算 在社交网络中,意见领袖因为其在网络上强大的影响力会对信息的传播,以及普通用户的行为造成巨大的影响。以新浪微博为例,最直观的影响力表现之一就是加V认证的名人,发一条正在吃饭的微博,也能得到数百次的转发,然而对于一般用户,一条微博的转发次数能上两位数,便足以为之欢呼雀跃了。 因此,与现实社会一样,社交网络中的人也存在不同的阶级和不同的影响力。然而影响力应该如何来衡量和计算呢?我们前面已经提到,计算机在处理社交网络时,往往使用图的结构,这与搜索引擎中的结构相一致,如表1所示。因为在搜索引擎中,图的节点是网页,边是链接,然而搜索引擎中的PageRank算法是对网页进行排序的算法。如果我们将PageRank使用在社交网络上,就可以对人的影响力进行迭代的计算了。除了PageRank算法外,还有W-entropy等算法也被应用在社交网络的影响力计算当中。 [caption id="attachment_12474" align="aligncenter" width="435" caption="表1 社交网络与搜索引擎对图结构的不同定义"]
[/caption] 然而对于每个人来说,其在不同领域的影响力也是不一样的。例如,李开复的影响力主要在科技领域,黄健翔的影响力在体育领域,薛蛮子的影响力主要在投资和公益的领域。因此如何评价一个人在不同领域的影响力也是一个很重要的问题,有学者提出了基于主题级别(Topic Level)的影响力评价模型TAP(Topic Affinity Propagation)来尝试解决这个问题,该算法应用在大规模社交网络数据中显现出了较好的效果。 在国外,Famecount、Klout等公司设计了算法对社交网络中每一个人的影响力进行打分。有些公司甚至出现了根据个人网络影响力的不同,在现实生活中提供差异化服务的模式,例如,香港国泰航空对Klout打分不低于40分的用户,可以享受机场贵宾休息室。虽然该行为也遭到不少人质疑,认为这是“势利”的做法,不过也可以将其看作是对网络影响力应用在商业模式上的一种新型探索。在国内,新浪的微数据和Miu+也在微博的影响力计算中做出了一些探索,目前国内在该领域还有较大的发展空间。
信息传播的建模 在社交网络上,每个人都是个自媒体。与传统媒体依靠内容作为传播主题的形式有所不同,社交网络上的信息传播,更加依赖于发布者的影响力以及社会关系,通过好友或粉丝的关系将信息扩散到社交网络中。这种信息在社交网络中会被好友及粉丝看到,并以一定的概率被分享和转发,从而进行传播。图2对一条微博的传播过程进行了可视化的显示。 [caption id="attachment_12475" align="aligncenter" width="300" caption="图2 单条微博信息的传播图(来自www.doodod.com)"]
[/caption] 部分学者用传染病在人群中的传播、谣言在社会中的传播等现象来类比并刻画社交网络中信息的传播,进而利用传染病动力学及复杂网络理论来对社交网络的传播行为进行建模和预测。更直观地说,如果将整个社交网络看作一个图的结构,把社交网络中的用户看成图中的节点,并将用户之间的关系看为图的边,那么信息的传播的过程就是从起点用户的节点开始,沿着相邻边进行信息的传播,相邻的节点用户会根据时间及主题不同,会以一定概率传播或者终止该信息。对于传染病动力学模型来说,通常将网络中的节点定义为三类:传播节点、未感染节点和免疫节点。传播节点的特点是接受并有能力传播邻居节点信息;未感染节点没有接受过来自邻居节点的信息,但有机会接受信息,即有概率会被感染;免疫节点表示该节点已接受邻居节点的信息,但不具有传播能力,由此可以定义一些传播规则:
- 如果一个传播节点与一个未感染节点接触,则未感染节点会以概率成为传播节点;
- 如果一个传播节点与一个免疫节点接触,则传播节点会以概率成为免疫节点;
- 传播节点不会无休止地传播,会以一定速度停止传播,变为免疫节点,无需与其他节点接触。
- 博主的创建时间的一致性
- 博主的头像和名字
- 关注与粉丝比例
- 博主的粉丝质量
- 发布微博数量
- 最近200次转发的对象分布
- 转发同一条微博的频率
- 转发时所写的内容
更多推荐
已为社区贡献1642条内容
所有评论(0)