Vo1.29.No.2
管 理
Jonrnal of Industrial
工 程 学 报
Management 2015年 第 2期
兴趣社交网络中的供需匹配研究:
以豆瓣网为例
汤 胤,欧治花,
(暨南大学管理学院,
陈杏惠,王 玮
广东 广州 510632)
摘要:近年来兴起的兴趣社交网络中因其内在的商业价值引起 了人们的注意。兴趣社交网络中涌现 出大量的商
品供需信息,带来的问题之一就是商品供需信息传播匹配效率低下。为解决上述问题,本文依托社会网络分析方法,
探讨在具备小世界特性的兴趣社交网络中商品供需匹配的特点,研究商品传播和匹配的规律和提高匹配效率的策
略。本文选取豆瓣网关注关系为实证数据,提出在兴趣社交网络中友邻信息相关度与供需信息传播匹配效率正相关
的假设,并采用计算机仿真方法来验证假设。论文荻取豆瓣网的社交网络数据、包括网络用户藏书数据和图书的标
签数据,针对随机选取的 1000个用户和 200本图书作为实验样本,分别设计两套友邻信息相关度度量算法和两套
兴趣社交网络中商品供需信息传播匹配算法,采用进行仿真模拟实验进行了比较。实验结果证实了人们对于商品检
索的直观判断,得 出在兴趣社交网络中,商品供需信息传播匹配效率与友邻信息相关度正相关的结论。
关键词:社会网络分析,兴趣社交网络,供需匹配
中图分类号:F713.36 文献标识码:A 文章编号:1004.6062(2015)02.0041.10
DoI:10.135870.cnki.jieem.2015.02.005
O 引言
近年来拍卖、集市、交易会等传统供需匹配的手段以各
种形式不断被移植到互联网上,形成指数速度增长的趋势。
然而,由于虚拟世界的不确定性,上述商业模式的简单移植
也引入了很多新的挑战。其中最重要的挑战就是信任问题。
据 2005年 7月的第 l6次中国互联网络调查报告,“用户认为
目前网上交易存在的最大的问题”中,“产品质量、售后服务
及厂商信用得不到保障”占了48.4%,远远高于其他项 】(后
期干脆去除了该问题)。毫不夸张地说,信任问题已经成为电
子商务的最大障碍。另外,由于商品信息本身的非结构化,
商品信息的组织、搜索、识别、验证、传播和匹配比较困难,
加上 Internet上存在海量的商品信息,电子商务网站之间存
在大量冗余、缺失链接,通常供需方访问的时候,很难迅速
找到想要的信息,包括一些知名的电子商务网站,真正要得
到有用信息往往需要相当大的精力,若要最大程度的广播商
品供需信息无疑将引起网络拥塞及信息爆炸,并带来糟糕的
用户体验从而降低整个社区的吸引力。这些都成为阻碍电子
商务进一步往前推进的障碍。部分电子商务网站推出了基于
用户行为或者特点的个性化的商品推荐功能。如亚马孙网上
书城的“为我推荐”。该功能的实现基于用户在该电子商务网
的浏览记录和交易记录,此项功能在一定程度上提高了用户
搜索目标商品的效率,但 问题仍然存在,一是用户只能被动
接受推荐信息,而不能主动发出供需信息,另一方面是该推
荐系统的推荐依据较为单一,如用户浏览商品记录和交易记
录。
20世纪 60年代,社会心理学家 Stanley Milgram[ 1所做的
“六度分离 (six degrees of separation)”实验揭示了人际网络
中的小世界现象,成为一个涉及社会学,数学和计算科学问
题的多学科交叉问题。20世纪 90年代以来,社会网络分析
方法 (Social Network Analysis)[3]成为一种新的研究范式。
与传统的经济学以“低度社会化”、静态偏好、理性选择、信
息充分等为基础假设不同的是,社会网络分析强调结构功能
主义原则。社会网络理论认为,社会是由一群行动者与行动
者间的关系以及这些关系所构成的网络结构所组成,作为社
会人,其包括经济在内的许多行为是“镶嵌”在社会网络中的
【 】;个人行为除了自身的理性因素外,还受到周围人际等各
种因素影响,从而导致许多非理性的决策:信息的传播与交
流受社会关系的影响;信任在熟人社会中更容易建立起来[51。
收稿日期: 2012—12—13 修回日期: 2013—04—11
基金项目:国家自然科学基金资助项目 (71271102),中央高校基本科研业务费专项资金资助项目 (12JNYH005),广东省部产学研结合重点资助项
目 (2011B0904);暨南大学管理学院重点学科建设育题基金资助项目
作者简介:汤胤 (1975一)男,福建省宁德市人。暨南大学管理学院副教授,博士,硕士生导师,研究方向:电子商务、商务智能。
. . — — 41...——
汤 胤等:兴趣社交网络中的供需匹配研究
小世界现象为建立更好的信息传播途径提供了新的理论指导 1国内外研究现状
和方法。
利用人际网络的小世界特性,产品信息的传播和匹配会
更加有效。近几年来大量兴起的以 MySpace,Facebook,人
人网等为首的 Web2.0网络 SNS社区,已经成为商家熟知的
交互营销平台,也被证明具有小世界网络的特性,给我们解
决上述问题提供了方向和可能。但在实践中发现,由于朋友
社会网络的维系往往基于情感连接,缺乏情感维系的商家社
交网络战略效果并不明显,例如 Facebook的 F—Commerce模
式最终以失败告终。
显然在线社交网络中的 C2C供需匹配应不仅仅是传统环
境下商业的简单移植,而是会服从互联网人际网络传播规律,
呈现一些新的形式。012年以来的Pinterest,国内的蘑菇街、
花瓣网以及豆瓣网等均是以兴趣为基础的社会化电子商务模
式开始获得较大成功,这营销者和研究者开始转向以兴趣为
纽带的社会网络。由于关系建立在共同兴趣基础上,基于兴
趣的社交网站沿着共同的爱好推送一定的供需信息,相比之
下会是个较为自然的行为,这给企业提供了自然的营销空间。
问题在于,在希望找到指定商品的时候,人们从直观的感觉
出发,一般都会寻找与该商品有相关性的个体求助,这样的
判断有无科学依据呢?这是在以兴趣为基础的社交网络上传
播相关信息从而有效进行商品供需信息匹配的关键问题,目
前这些直觉经验仍然没有更多的研究作为支撑。
本文以兴趣社交网络中的商品供需信息传播匹配为研究
对象,借鉴社会网络分析方法和仿真方法分析兴趣社交网络
中的商品供需信息传播匹配规律,探索最佳供需信息传播匹
配途径。论文建立适当的社会网络模型和传播匹配算法,进
行计算机模拟仿真实验,验证兴趣社交网络中信息传播匹配
效率与友邻信息相关度之间的关系。论文总体思路是,若在
重复实验 (随机选择节点和商品)的前提下,一项商品信息
在兴趣社交网络中沿着与该商品高度相关的好友不断传播,
并以较短的路径找到了匹配的节点,那么就可以认为信息传
播效率与所选择的好友特性高度相关。通过对相同的实验样
本使用两套不同的供需信息传播匹配算法并重复实验,产生
四组相互对照的实验数据,根据本研究的假设和相关度量指
标,对照分析得出结论。
本文内容安排是,绪论部分介绍研究背景、研究意义、
研究思路及内容等;文献综述部分介绍2O世纪60年代至现
在,社会网络分析的兴起、发展及实践应用现状;第三部分
给出了研究假设并界定相关概念,介绍网络样本数据的获取
与分析方法,以及相关算法的度量含义、算法公式、算法流
程、仿真实验方案设计与说明。最后是实验结果分析及其结
论。
~ 42一
小世界网络理论最早用于研究疾病传播,社会学大师
Coleman 以非正式关系解释传染病流传及信息流通问题,开
始了关于分析非正式社会网在创新、发展和传播知识的研究。
Watts和 Strogatz 证明疾病传播所需的时间与社会网络特
征路径长度非常相似,只要在传播网络中加入一些捷径就可
以使传播速度明显加快。Granovetter提出的 “弱连带优势
(The Strength of Weak Ties)”发现人际网络中的弱关系
相比强关系在劳动力市场有更大作用Ⅲ。弱关系倾向于连接
与行动者本人具有较高异质性 (Heterogeneity)的人群,这些
人之间关系疏远,信息沟通很不充分,恰因如此弱关系充当
了沟通不同群体的 “关系桥 (Local Bridge)”,在信息的
扩散传播方面,弱连接能够传递对于行动者来说可能是未知
的、新鲜的,因而也是有价值的信息。作为研究的补充和延
伸,1992年美国芝加哥大学社会学教授伯特 (Ronald S·Burt)
提出结构洞(Structural Hole)理论,将结构洞定义为 “非冗
余联系之间的分割” 。在具有结构洞的网络中,占据中心
位置的个体可以获得更多更新的非重复信息,具备传播影响
力。不过这个原则并非普适,边燕杰等人研究了本土找工作
方式,证明中国文化环境下强关系比弱关系有更重要的作用
。 更何况赵延东发现连带强度在东西方具备不同的背景:
西方个体间的关系主要是建立在态度、价值观和性格等个人
特征相同或相似基础上,而传统中国人关系形态则主要以先
赋性的血缘关系为基础 。美国著名华裔社会学家林南(Lin,
1982)认为,无论是强关系还是弱关系,关系人本身的社会地
位都是决定关系所能涉取的资源数量和质量的重要变量“ 。
显然,关系的作用最终是由关系人的能力与意愿的合力所决
定的。上述研究均考察关系的强弱对供需匹配 (找工作)的
影响,未能发现个体与需求的相关性在当中的作用,研究方
法也有很大差异。同时,全球化传播下对特定商品供需匹配
的探讨,显然摆脱不开其特殊文化背景。这使得在丰富的西
方学者资料面前,我们仍然面临艰巨的检视任务。
在社会网络中信息传播模型方面,格兰诺维特将其门槛
模型应用在消费者需求上,且基于下面的假定:商品信息是
单向扩散被消费者所获知 。“” 。包括 Rogers也认为创新是单
方面的扩散,采纳者被动接受 。wil1 Jam Brock,Steven
Durlauf提出了著名的B-D模型,探讨了谢林/格兰诺维特模
型的形式化 。此类模型虽然从微观出发,但从描述统计角
度解释扩散范围,仍然停留在宏观层面。近期一些研究也提
出其他质疑,例如 Yen—Sheng Chiang就认为,门槛模型并没
有回答不同心理门槛的个体在不同的网络位置从而引起从众
效应的差异这个问题 。Abrahamson利用仿真技术证明了社
会网络结构、特性对创新扩散范围的影响 。Dodds与其老
师Duncan Watts一起将现有的模型按机理归为独立交互和门
Vo1.29.No.2 管 理 工 程 学 报 2015年 第2期
槛两类,并提出了一个通用的濡染模型 。作为描述性研究,
研究者在图论基础上开发了若干度量指标用以研究社会网
络 ,为我们研究互联网上的社交圈子提供了参考指标。在利
用社交网络进行信息传播方面,Junichiro Mori等人提出了
一 个 SNS中面向实体世界的信息共享机制,并对其中的信息
共享做了centrality,closeness和 betweenness的分析“ 。
然而以上研究共同的问题是,信息在传播过程中都是采用广
播的形式,这样会导致传播效率低下且容易造成网络拥塞。
怎样使信息通过一定的渠道传播而非广播,更重要的是在供
需匹配方面将经由什么节点找到对方?Kleinberg用仿真运
行研究小世界网络中的搜索问题,证明了任意两个节点间超
短路径的存在,而当网络簇集指数为 n=2的情况下,可以达
到最快的搜索时间 。注意到 Kleinberg的仿真实验只是使
用本地信息在规则网格上进行无启发式的检索,而现实社会
网络中信息传播的时候存在大量辅助性线索,例如社会网络
中节点往往有一定的偏好,尤其是基于兴趣的社交网络,节
点一般都拥有爱好、职业、收藏 (书、音乐、电影)等若干
属性。从实证的视角,这些都必须纳入考虑。这类网络中,
往往信息网络的结构和功能之间存在极强的耦合演化关系:
结构的变化会影响信息传播的动力学性质,与此同时,用户
会因为对某些信息内容的兴趣,而建立一些新的连接,造成
结构的改变。Centola在线社交网络中的行为传播实验也同
样证明了网络结构对个体的影响 。研究表明小世界网络中
的信息传播效率比其他网络高得多 “。
2供需匹配实验设计
2.1数据获取与分析
本文之所以选取豆瓣网作为样本网络,是因为豆瓣网不
仅是个典型的兴趣社交网络,运营已经有若干年,用户增长
稳定同时覆盖的人群广泛,而且拥有大量藏书及其标签信息
可以作为仿真模拟实验中的商品及其特征的度量。整个数据
获取和仿真实验均采用 Python语言。
社交网络数据的获取 考察豆瓣网用户及其关注 的人所
构成的社交网络,鉴于用户数 目庞大,把全部用户构成的社
交网络作为样本网络是不现实的。本文采取雪球采样的方法
获取数据,编写网页抓取及解析程序,先随机选取一个豆瓣
用户作为起始点,获取起始点的关注的人,进而迭代地对关
注的人进行同样的操作,直到获得足够的数据。然后基于该
社交网络数据,用复杂网络分析库 NetworkX构建一个有向
的社交网络图,即在豆瓣用户与其关注的人之间建立一条有
向的关系,由豆瓣用户指向其关注的人。
网络用户藏书数据的获取 在用户的读书主页上存在三
种读书信息,分别是“想读”、“在读”和“读过”,本研究获取
的是“读过”的藏书信息。在己获取的社交网络数据基础上,
提取出所有网络节点 (历,户 /d)。进而以循环以届 /d为参
数,在其 “读过的书”页面上通过网络爬虫将 书 抓取下
来,并以“用户一藏书”的形式保存。
图书标签数据的获取 图书标签来源于用户在收藏图书
的过程中给图书添加的标签 (user annotation)。豆瓣网只给
出了频次排在前面的 8个标签,本文即下载这 8个标签作为
图书的标签。步骤是,先对获取到的用户藏书集合做去重处
理,形成存放 书 的列表,再根据 书 获得图书页面
的url,通过网络爬虫抓此页面的标签信息 (豆瓣网采用 gbk
编码,为避免出现乱码,将标签转为 utf-8),以“图书一标签”
的形式保存。
数据描述性分析 利用 NetworkX对获取到的社交网络的
网络结构进行分析,得到的各个描述统计量如表 1所示。可
以看出该网络整体密度较低,说明豆瓣用户与其关注的人相
互之间的交流十分稀疏。另外,全网络的强连通子图数为
204663。最大强连通图包含 2229个节点,50505条连接数。
强连点,说明小团体之间成员通子图中除了最大连通子图外,
其余的都很小。该社交网络的小团体(Subgraph或称 Cliques)
个数为 571250,最大的小团体包含 32个节重复现象严重,
整个网络呈分散化,扁平化趋势。
表1兴趣社交于网络的描述统计量
统计量 统计结果
节点数 (网络规模)
连接数
聚类系数
直径
平均路径长度
小团体个数
网络密度
度相关性
表2用户图书收藏信息统计表
统计量 统计结果
总藏书量
去重后藏书量
藏书量最大量
藏书量最小量
平均藏书
1308.6734本
61.9750本
24974(共 1个用户)
0(共 48678个用户)
63本
度分布:(1)该网络节点的度值最大的为 2079,说明该
节点与其他节点的关系数最多。另外,该网络的平均度为 5,
标准差为 1921,方差为 43.83,则说明该网络中各节点的度
值表现出显著的异质性,即各节点与其他节点建立的关系数
相差较大。(2)该网络节点的出度值最大的为 2000,说明该
用户关注的人数最多。另外,该网络的平均出度为 2,标准
差为 16965,方差为 41.18,则说明该网络中各用户的关注的
一 43一
肼 腓
汤 胤等:兴趣社交网络中的供需匹配研究
人数表现出显著的异质性。(3)该网络节点的入度值最大的
为 419,说明该用户被其他用户关注的最多。另外,该网络
的平均入度为2,标准差为39,方差为6.24,则说明该网络
中各用户被其他人关注的差异较大。该社交网络图的度分布
曲线见图 1(用matplotlib绘制)。
图 l豆瓣网络关注关系的度分布曲线
从图1可见,该网络图的度分布总体来看近似符合Power
law规律,因此该社交网络具有 Barabfisi—Albert网络的无标
度特性。总体而言,用户个体间联系人个数存在很大的差异,
绝大多数用户只有少数几个联系人,他们可能注册之后很少
再登陆这个网站,也可能即使登陆也很少添加关注的人或很
少被别人关注。虽然平均度值仅为 5,但仍有少数几位用户
拥有上千个联系人,他们组成了整个网络中活动性最强的群
体 。该 网络 的节 点度 同配指 数 (度 相关 系数 ,Degree
Correlation)为 r=:一0.142,为负值,表明中心节点(Hub)倾向于
与小度节点相连,网络的度连接模式表现为异配特征(Degree
Disassortativity),这跟现实的社会网络有很大的区别,大量
实证结果表明:大多数现实社会网络具有同配特 ~(Degree
Assortativity)。这主要是因为 SNS社交网络打破了社会阶层
间无形的壁垒,在 SNS社交网络中,每个人都有机会并很容
易可以跟那些人气值很高的个人建立联系。
因为平均最短路径要求计算网络上任意两个节点之间的
最短距离,因此必须针对于完全连通的网络,而经验证该社
会网络图不是强连通图,所 以须先求得该社会网络图的最大
强连通图,得到一个包含 2229个节点和 50505条连接数的最
大强连通图,然后再求该强连通图的平均最短路径长度。直
径的计算类似。最大强连通图的直径为 9,平均最短路径为
3.18,小于同样节点数和平均度数的Erdos.Rcnyi随机图的平
均最短路径 lnN=ln1206891=12.24。将该有向社会网络图转化
成无向图,得到聚类系数为0.075,远大于具有同样节点总数
和平均度数的Erdos.Renyi随机图的聚类系数 2.42E.05(对一
个包含 N个节点的 ER随机图网络,当N很大时,有 C 平
均度数/N)。因此,该社交网络图具有 Watts.Strogatz小世界
特性,与随机图不同。
一 44一
表3图书拥有的收藏者统计裹
统计量 统计结果
拥有最多收藏者
拥有最少收藏者
平均拥有收藏者
35384(共 1本图书)
1(共 275131本图书)
21个
裹4图书标签统计裹
统计量 统计结果
总标签数量
去重后标签数量
最热门标签
最冷门标签
平均使用次数
249,3864个
27,7501个
1(“小说” ,57278本书使用)
178237(如 “中国家具史”)
4.02
通过对社交网络中所有用户的图书收藏数据进行分析,
得知该网络中收藏图书最多的用户收藏图书24974本,无图
书收藏的用户数为48678人,所有用户平均收藏图书 63本,
收藏的图书数低于平均数的用户数为 151528人。通过这些数
据可以看出:(1)用户之间的藏书高度重复,不重复的图书
占用户藏书总和的比重仅为 4.74%。(2)不同的网络用户收
藏的图书数量表现出很大的差异性,很多用户没有收藏图书
或收藏的图书数目很少,只有少部分人收藏了较多的图书,
也可以看作是这部分人掌握了整个网络的资源。用户图书收
藏信息统计如表 2。
通过从图书被多少用户收藏的角度进行分析,得知所有
图书中拥有最多的收藏者的图书为 《挪威的森林》,拥有
35384位收藏者,拥有最少收藏者的图书拥有的收藏者数位 1
(275131本,占总藏书的 44.39%),所有图书平均拥有 2l
位收藏者,处于平均水平以下的有 555010本书。图书拥有的
收藏者数也表现出很大的差异性,即每本图书的热门程度不
同。图书拥有的收藏者统计情况如下表 3所示。通过对图书
的标签信息进行分析得:(1)最热的标签为“小说”,反映了
该子网络图的群体阅读偏好 ;只被使用 了一次的标签多达
178237个,占去重后标签总量的 64.22%,这给后面运用基
于标签的友邻信息相关度度量算法来进行供需信息的匹配带
来一定的难度。(2)去重标签总量 占总标签数量的 11.13%,
对比藏书的重复情况,标签的重复情况较轻。图书标签统计
情况如表 4所示。
本文使用的标签信息由用户藏书的标签信息导出,通过
“用户一藏书”、 “藏书一标签”两个对应关系导出 “用户一
标签”关系数据。
2.2研究假设与主要概念界定
研究通过实证研究考察以下假设:H1:友邻信息相关度
与供需信息传播匹配效率成正比,即友邻信息相关度越大,
通过其传播匹配供需信息效率越高。自变量和因变量分别是
友邻信息相关度与供需信息传播匹配效率。
Vo1.29,No.2 管 理 工 程 学 报 2015年 第 2期
概念 (1)供需信息传播匹配效率:供需信息匹配成功所
需的步长。步长越小,说明供需信息传播匹配效率越高;(2)
友邻信息相关度:表示朋友的兴趣爱好、买、卖信息与供需
信息的相关匹配程度 。本文中具体指标是指友邻的图书收藏
信息与供需信息 (图书)的相关匹配程度。友邻信息相关度
度量算法参考了推荐算法,如“购买了该商品的用户还购买
了”,主要是计算朋友的图书收藏信息与供需信息的相关匹配
程度,采用社会化标签组合来计算。
为了使实验更完备,本文共设计了两套不同的相关度度
量算法。第一套算法是基于用户的藏书信息 (后文中称该套
算法为相关度算法 1),第二套算法是基于用户的藏书以及藏
书的标签使用信息 (后文中称该套算法为相关度算法 2)。
2.3算法 1基于用户藏书的友邻信息相关度
定义I 图书相关度 记收藏了图书bookl的所有用户构
成集合 Ul={U1J,U12,U1 . ),收藏了图书 book,?的所有
用户构成集合 U2={U21,U22,U23⋯ )。图书 bookl对图书
book2的相关度用记为 R(bookl,book2)。则有:
U1={ fI收藏了bookl的用户, i∈1⋯⋯”}
U2={u2f J收藏了book2的用户, i∈I⋯⋯m}
B Rfbo0kl,book2):! ! (I)
一
l U2l
1、一 IU1nU2l (2)B R(b ook2
, book1、=
一 ’
I U1l
从书与书之间的相关度计算公式可知,(1)书与书之间
的相关度是有向的,当tUll~tU2t且 与【,2存在非空交集,
R (bookl,book2)不等于 R (book2,book1)。(2)书
与书之间的相关度的值在 0到 1之间。如果 bookl对 book,?
的相关度等于 1,则表示 bookl与 book2完全相关,即收藏
了 book2的用户都同时收藏了 bookl。如果 bookl对 book2
的相关度等于 0,则表示 bookl与 book2完全不相关,即收
藏了book2的用户都没有收藏 bookl。
考虑到实验时间和计算机内存的限制,在不影响实验结
果的前提下,本文在计算用户与图书的相关度之前,对用于
仿真实验的 200本图书建立相关图书及其相关度的字典文
件,在计算用户与图书的相关度时,可通过图书 或者标签,
直接查找与其相关的图书或标签及其相关度。用于仿真实验
的图书集合记为 S = {boo~ I实验图书样本中的图书,
i∈【1,200]}所有藏书集合记为B= {BOOKi l所有藏书集合
中的图书},对于 中每一本图书,利用计算书与书之间
的相关度的测量算法,计算该书与 中所有图书的相关度,
图书之间的相关度信息存放在 mXn的矩阵中,其中 m=lB Sl,
n=lBl。通过这种计算方法得出的与某一图书相关的图书可能
有很多,考虑到相关度过小甚至为 0的图书并无实验意义,
故对与某本书相关的所有图书,按照其相关度进行降序排列,
取前 100本相关的图书作为该书相关的书,如果没有 100本
相关图书,则取全部。其他图书由于与该书的相关度太小,
我们认为他们与该书不相关,即相关度为零。
定义 2 用户与图书 (供需信息)相关度 用户与某本图
书之间的相关度等于该用户收藏的图书与该图书的相关度之
和。记用户 user的藏书集合B={bookl、book2⋯⋯book~),
收藏了booki的用户集合为 ,收藏 book的用户集合为 ,
该用户与图书 book之间的相关度用 U R(user,book)表示。
则有:
B={6DD岛l某用户 user收藏的图书,f∈1⋯⋯n}
U
_ R(user,book)= book~,book
eB i=1 如。 I u I
2.4算法2基于用户藏书以及藏书标签的相关度
社会化标签在 web2.0的不断发展下得到了广泛的应用,
标签系统已经成为 Web2.0网站的基本功能之一,为用户的
个性化服务发挥了重要的作用。利用标签信息进行个性化推
荐的研究主要有基于聚类分析的个性化推荐,基于矩阵处理
的个性化推荐,基于网络的个性化推荐几种。本文主要采用
“用户.资源”矩阵、“资源.标签”矩阵和“用户.标签”矩阵构造
简单的相关度算法 。
标签与标签之间的相关度的计算与书与书之间的相关度
的计算类似 。基于用户藏书以及藏书标签的相关度度量算法
的理论依据和基础是标签共现网络研究和标签个性化推荐体
系研究。简单地说,如果标签 1和标签 2常常用于描述同一
事物,这两者就实现了共现,并存在某种语义上的关联性。
我们把标签与标签之间的相关度定义为两个标签在所有网络
用户收藏的所有图书中配对使用的频率。“配对使用”是指这
两个标签同时被某本书使用;“频率”是指两个标签之间的相
关度是一个相对值,计算 tag2对 tagJ的相关度时,被除数是
使用了 tag1的图书数量,除数是所有同时使用了 tag1和 tag2
的图书的数量。计算 tag1对 tag2的相关度时,被除数是使用
了tag2的图书数量,除数是所有同时使用了tagJ和 tag2的图
书的数量。即两个标签之间的相关度是有向的,tag2与 tag2
的相关度不等同于 tag2与tagJ的相关度。数值上,两个标签
的相关度在0到1之间。标签与自身的相关度等于 1。
定义 3标签相关度:记使用了 垤 的图书集合 B1=
{bookiI使用了f昭,图书},使用了tag2的图书集合B2={book:l
使用了 tag2图书}。标签 tagJ对 tag2的相关度记为 T
_ R(tagt,
tam)。那么 tagl对 tag2的相关度:
一 45—
汤 胤等:兴趣社交网络中的供需匹配研究
T_R rtag l,cag2
tag2对tagl的相关度:
(4) (3)计算 T S中每一个标签与 T中所有标签的相关度,
T
—
R (tag2'tag。 : (5)
考虑到计算速度和计算机内存的限制,在计算用户与图
书的相关度之前,对用于仿真实验的 200本图书建立其标签
相关度的字典文件t
(1)提取用于仿真实验的所有图书使用的所有标签,其
集合记为 ;
(2)以社交网络中所有用户收藏的所有图书使用的所有
标签为全集,记为
U R(user,book)= T R (
一 』
1 产 1
2.5仿真算法以及实验方案
User
●
k呷
圆
图2供需信息匹配成功的高相关度路径图
算法使用广度优先搜索。值得注意的是,为验证假设,
本研究借用了资产投资组合分析法的思想,分别迭代地选择
友邻中相关度高的用户 (前 50%的用户)或友邻中相关度低
的用户 (后 50%的用户)传播供需信息,直至找到某个用户
收藏 (供给 )起始用户所需的图书,此时供需匹配成功。算
法返回供需信息匹配成功所需步长 (友邻度数)。称前者算法
为高相关度传播,其传播匹配路径为高相关度路径,称后者
为低相关度传播,其传播匹配路径为低相关度路径。图2所
示为高相关度路径图。
Book视为本研究中的供需信息,起始用户 User为发出
需求信息的节点,在 User的友邻中查找是否有友邻收藏
Book,若有,则停止查找,返回本次查找路径的友邻度数。
若没有,则使用友邻信息相关度度量算法在其友邻中查找与
Book相关度最高的前一半友邻,将需求信息传递至这一半友
邻,然后再对这一半友邻进行上述同样的操作,每查找一度
友邻,友邻度数加 1,若最后找到该书,则停止查找,返回
本次查找路径的友邻度数,若查找完 User所有度数内的好友
— — 46——
标签之间的相关度信息同样可以通过矩阵表述。
对某一标签的一组相关标签,按照其相关度进行降序排
列,取前50个标签作为与该标签相关的标签,其他标签由于
与该标签的相关度很小,我们认为他们与该标签不相关,即
相关度为零。如果没有 5O个相关标签,则取全部。
定义 4图书与用户的相关度 图书与用户的相关度实质
是两个标签集之间的相关度。记图书book使用的标签集合记
为 T b= {tagil图书 book使用的标签},用户 user使用的标
签集合记为 T“= {tagiI用户user使用的标签1。则用户user
与book之间的相关度计算公式如下:
tag,,tag),tagf∈ ,tag,∈
仍没找到该书,则返回空值。图2中的友邻度数为 3。
实验样本为用于仿真实验的样本,分为图书样本和用户
样本。
图书样本 研究所选图书样本容量为 200本,其中 100
本为最热门的图书,选取方法如下:(1)从“用户——藏书”
导出“图书——收藏者”数据;(2)按照图书的收藏数量降序
排列,取收藏数量排名前 100本的最热门图书,记为 Topl00。
另外 100本图书的选取方法如下:(1)在上述步骤 (1)的基
础上,按收藏数量降序排列;(2)系统地每隔 1500本取一本
书,共选取 100本图书 (去掉收藏数量少于 5个的部分,总
体为 153898本)。我们记为 Samplel00。
用户样本 用户样本中的个体是仿真实验中具有图书需
求的起始用户,选取方法为从获取的社交网络用户中获取关
注的人数大于 0的用户 (共 153898个),再在循环中随机抽
取 1000个用户。
出于完备性的目的,本文设计了两套供需信息传播匹配
路由算法作为对照,使用上述提取的相同的图书样本和用户
样本,分开独立实验。仿真实验分成了独立的四个部分进行,
分别是基于用户藏书的友邻信息相关度度量算法的高相关度
传播匹配实验、基于用户藏书的友邻信息相关度度量算法的
低相关度传播匹配实验、基于用户藏书以及藏书标签的相关
度度量算法的高相关度传播匹配实验、基于用户藏书以及藏
书标签的相关度度量算法低相关度传播匹配实验。仿真实验
产生四组数据,实验的分析工作将根据这四组数据的交叉对
照而进行,并验证研究假设。
仿真实验步骤如下:
(1)顺序选择用户样本中的一个用户;
(2)顺序选择图书样本中的一本图书作为其“需求”;
(3)以此图书作为需求信息,按照供需信息传播匹配路
由算法传播此需求信息,返回本次查找路径的友邻度数,并
Vo1.29,No.2 管 理 工 程 学 报 2015年 第2期
将结果保存到 Excel表格中;
(4)返回步骤 (2),循环运行完图书样本中的所有图书;
(5)返回步骤 (1),循环运行完用户样本中的所有用户。
3仿真模拟实验结果
3.1基于用户藏书信息的友邻相关度
最热门的 100本图书通过高相关度度传播算法匹配的仿
真模拟实验结果保存为一个 1000行 100列的Excel表格,A
列是 1000个样本用户的id,第一行是 100本样本图书的 id,
表格中的数值代表所在列的用户查找所在行的图书所需的友
邻度数 。如单元格 B4=2,代表 用户‘1046265’查找 图书
‘24148689’所需的友邻度数为 2,亦即图书‘24148689’首次出
现在用户‘1046265’的第 2度好友的藏书中。
为了表述方便起见,定义图书热度为:藏书量的大小;
定义友邻度数为:从起始节点出发到匹配节点所需步长。图
书热度用于分析不同藏书量的藏书对友邻度数的影响。之所
以选择图书热度作为分析维度,是因为在数据的预处理过程
中发现,在不同的藏书量下匹配供需信息的友邻度数有很大
区别,同时藏书量太小的图书经常无法在整个子网络中找到,
对实验 已经没有意义。因此选择了收藏量为前 100的图书进
行预分析,命名为 Topl00。为了覆盖所有样本,我们另外采
用系统抽样的方式,隔 1500本取出一本图书,共 100本,命
名为 Sample100。论文采用的研究方法也决定了无法直接建
立信息传播步长与高 (低)相关度路径的关系。
ToplOO图书的仿真结果分析 以图书热度为横坐标,通
过高相关度传播和低相关度传播成功匹配供需信息所需友邻
度数对比分析如图 3所示。通过高相关度传播匹配算法成功
图 3基于相关度算法1的最热门100图书中不同
热度图书匹配成功所需友邻度数
图4基于相关度算法 1的最热门1OO图书中不同
热度图书匹配成功所需友邻度数差值
匹配供需信息所需友邻度数的平均值为 1.08,通过低相关度
传播匹配算法成功匹配供需信息所需友邻度数为 1.09。通过
高相关度传播匹配算法和通过低相关度传播匹配算法成功匹
配供需信息所需步长 (友邻度数)之间的差值 (低相关度路
匹配步长.高相关度路劲匹配步长)如图4所示。
通过高相关度传播匹配成功所需的友邻度数大于通过低
相关度传播匹配算法匹配成功所需的友邻度数的比率是 9%,
通过低相关度传播匹配成功所需的友邻度数大于通过高相关
度传播匹配算法匹配成功所需的友邻度数的比率是 91%,由
此可知:大部分情况下,某个用户有某本图书需求时,通过
高相关度传播匹配算法匹配成功所需的友邻度数小于通过低
相关度传播匹配算法匹配成功所需的友邻度数。
SamplelO0图书仿真结果分析 以图书热度为横坐标,通
过高相关度传播和低相关度传播成功匹配供需信息所需友邻
度数对比如图 5。通过高相关度传播匹配算法成功匹配供需
信息所需友邻度数的平均值为 2.47,通过低相关度传播匹配
算法成功匹配供需信息所需友邻度数为 2.79。通过高相关度
传播和低相关度传播成功匹配供需信息所需友邻度数之间的
差值如图 6所示。
图5基于相关度算法 1的Samplel00图书中不同
热度图书匹配成功所需友邻度数
图6基于相关度算法 1的Samplel00图书中不同
热度图书匹配成功所需友邻度数差值
通过高相关度传播匹配算法匹配成功所需的友邻度数大
于通过低相关度传播匹配算法匹配成功所需的友邻度数的比
率是 5%,通过低相关度传播匹配算法匹配成功所需的友邻
度数大于通过高相关度传播匹配算法匹配成功所需的友邻度
数的比率是95%,由此可知:大部分情况下,某个用户有某
本图书需求时,通过高相关度传播匹配算法匹配成功所需的
. . — — 47...——
捌 劓《 哮
汤 胤等:兴趣社交网络中的供需匹配研究
友邻度数小于通过低相关度传播匹配算法匹配成功所需的友
邻度数。
3.2基于用户藏书及其标签的友邻相关度
Topl00本图书的仿真结果分析 以图书热度为横坐标,
通过高相关度传播匹配算法和通过低相关度传播匹配算法成
功匹配供需信息所需友邻度数对比分析如图7所示。通过高
相关度传播匹配算法成功匹配供需信息所需友邻度数的平均
值为 1.07,通过低相关度传播匹配算法成功匹配供需信息所
需友邻度数为 1.09。通过高相关度传播匹配算法和通过低相
关度传播匹配算法成功匹配供需信息所需友邻度数之间的差
值如图8所示。
鏊
臣书热度
图7基于相关度算法2的最热门100图书中不同
热度图书匹配成功所需友邻度数
臣书 度
图8基于相关度算法 2的最热门100图书中不同
热度图书匹配成功所需友邻度数差值
通过高相关度传播匹配算法匹配成功所需的友邻度数大
于通过低相关度传播匹配算法匹配成功所需的友邻度数的比
率是 1%,通过低相关度传播匹配算法匹配成功所需的友邻
度数大于通过高相关度传播匹配算法匹配成功所需的友邻度
数的比率是99%,由此得知:绝大部分情况下,某个用户有
某本图书需求时,通过高相关度传播匹配算法匹配成功所需
的友邻度数小于通过低相关度传播匹配算法匹配成功所需的
友邻度数。
Sample 100本图书仿真结果分析 以图书热度为横坐标,
通过高相关度传播匹配算法和通过低相关度传播匹配算法成
功匹配供需信息所需友邻度数对比分析如图 9所示。通过高
相关度传播匹配算法成功匹配供需信息所需友邻度数的平均
一 48一
值为 2.84,通过低相关度传播匹配算法成功匹配供需信息所
需友邻度数为4.33。通过高相关度传播匹配算法和通过低相
关度传播匹配算法成功匹配供需信息所需友邻度数之间的差
值如图 10所示。
c。
:
蔡
竹
寸
n
一
匪书热度
图9基于相关度算法2的Samplel00图书中不同
热度图书匹配成功所需友邻度数
臣书热庹
图1O基于相关度算法2的Samplel00图书中不同
热度图书匹配成功所稀友邻度数差值
通过低相关度传播匹配算法匹配成功所需的友邻度数大
于通过高相关度传播匹配算法匹配成功所需的友邻度数的比
率是 100%,由此得知:某个用户有某本图书需求时,通过
高相关度传播匹配算法匹配成功所需的友邻度数小于通过低
相关度传播匹配算法匹配成功所需的友邻度数。
从不同角度对仿真结果进行分析,可以得出结论:任意
用户查找任意图书时,通过高相关度传播匹配算法匹配成功
所需的友邻度数小于通过低相关度传播匹配算法匹配成功所
需的友邻度数,由此可以验证研究假设 H1为真,即友邻信
息相关度与供需信息传播匹配效率成正比,即友邻信息相关
度越大,通过其传播匹配供需信息实现供需信息匹配成功所
需的友邻度数越少,匹配效率越高。另外,算法 2定义的相
关度并不能有效提高匹配效率,因而也无法推翻上述结论。
4结论
本文是针对兴趣社交网站中商品供需信息传播匹配的规
律以及如何提高匹配的效率等方面的实证研究。研究的特色
姆制簸 筘
Vo1.29。No.2 管 理 工 程 学 报 2015年 第 2期
在于基于实际的兴趣社交网络数据进行计算机仿真模拟实 [4]
验,从而验证假设。通过实验产生的四组对照数据进行分析
的结果,验证了本文中的研究假设,即:在兴趣社交网络中,
友邻信息相关度与供需信息传播匹配效率成正相关,即友邻 【5]
信息相关度越大,通过其传播匹配供需信息实现供需信息匹
配成功所需步长 (友邻度数)越少,匹配效率越高。论文的 [6】
贡献在于:(1)用实证研究回答了前文提出的问题:人们在
寻找指定商品的时候,从直观的感觉出发倾向于向与该商品 【7]
有相关性的个体求助。本文虽然得出的结论未有 凉喜”,但
采用科学论证的方式证实了长久以来的经验性判断的正确 [8】
性;(2)传统研究主要采用市场调查方法或者数学模型分析,
而本文基于实际的兴趣社交网络数据进行计算机仿真实验。 【9]
同时,论文中验证假设的方法类似金融工程学科的资产组合
分析,供需信息在网络中经由若干节点传播,如果若干次高
相关度组合的匹配效率能够统计上显著地超越低相关度组 [1o】
合,即可认为相关度因素是显著的。这在研究方法上为社交 【l1]
网络上信息传播的研究提供了新的思路。
鉴于时间、经费以及作者能力限制,研究还存在诸多局
限与不足:(1)实验数据不足。本文基于一个基本假设:认 [12]
为社交网络的子图具备与父图完全的特性。因而只针对豆瓣
网的一个子网络数据进行了研究,在样本网络方面缺乏对照; 【13]
(2)相关度度量的局限性。友邻信息与商品供需信息的相关
度可能有很多方面的影响因素,本文只考虑了用户的藏书信
息和其藏书使用的标签信息,而没有考虑用户的友邻个数、 [14】
用户在网络图中的结构位置特点等更多用户的特征。基于标
签的友邻信息相关度度量算法没有考虑每个标签的权重,即 【15】
标签被图书和用户使用的频次,而只考虑了标签的语义信息。
这些都会使结论的适用性受到一定的限制。 【l6】
未来的研究:(1)可以进一步对其他的社交网站如人人
网、朋友网的数据做类似的研究,比较分析各个社交网站中 [17】
的供需信息传播匹配的规律也是一个值得深入研究的问题;
(2)在设计友邻信息相关度度量算法时,可以把用户的友邻
数等用户个人特征和标签被使用频次作为一个权重,这样会 [18]
使友邻信息与供需信息相关度的计算结果更为精确,更贴近
实际。(3)可将本文设计的友邻相关度度量算法运用于其他 [19]
供需信息 (不仅仅是图书)的传播匹配当中,如寻找拥有相
同阅读偏好的好友,寻找同一主题、同一类型的其他图书等
等。 【20】
参 考 文 献
[211
[1】 CNNIC.第十六次中国互联网络发展状况报告[R].www.cnnic.org
2005.7 [22】
【2] Milgram S.The small world problem[J].Psychol,1967(2):60—67
[3] 刘军.社会网络分析导论【M】.北京:社会科学文献出版社,2004
Gl~tnovetter,Mark.1985.Economic action and social structure:the
problem ofembeddedness[J].American Journal ofSociology,91(3):
481.510
Coleman.James S.Tbe mathematics of collective action[M].
Chicago:A1dine.1973
WaRs D.J.Stroga~ S H.Collective dynamics of“small world”
networks[J].Nature,1998,393:440—442
Granovetter,Mark.The strength of weak ties[J].American Journal of
Sociology,1973,78(6):1360-1380
Butt R.Structural holes:the social structure of competition[M].
Cambridge,MA:Havard University Press,1992:345—356
Bian,Yanjie.Bringing s~ong ties back in:indirect ties,network
bridges and job searches in China[J].1997,Am erican Sociological
Review,62:266—285
赵延东.再就业中的社会资本:效用与局限[J].社会学研究,2002(4)
Lin Nan.Socia1 rgsoBrCes and instrumenta1 action.in P.Marsden.and
L.Nan(eds.),Social structure and network analysis[M].London:Sage
Publications,1982:72—85
Granovene~Mark.1978.Threshold Models ofCollective Behavior[J].
TheAmerican Journal ofSociology,1978,83(6):1420-1443
GranoveRer,M.and Soong,R.Threshold models of interpersonal
effects in consumer demand[J].Journal of Economic Behavior&
Organization,1986,7:83-99
Rogers,Everett M..Diffusion of Innovation[M].4th ed.New Y0rk,
Th e Free Press,1995,10—37
Brock and Durlauf.Discrete choice with social interactions[J].Review
ofEconomic Studies,2001,68(2)
Chiang Yen—Sheng.A network analysis ofthreshold models[C].ASA.
proceedings.2004
Abraham son Eric,Rosenkopf Lori.Social netw ork effects on the
extent ofinnovation diffusion:A computer simulation[J].Organization
Science,1997,8(3):289—309
Dodds Watts D.Universal behavior in a generalized model of
contagion[J].Physical Review Letters,2004,92(21)
Junichiro Mori,Tatsuhiko Sugiyama,Yutaka Matsuo:Real-world
oriented information sharing using social networks[J].GROUP 2005:
8l-84
Kleinberg.Navigation in a small world[J].Nature.VOL 406,24
AUGUST 2000
Centola D.Th e spread of behavior in all online social network
experiment[J].Science.VoD29.Sept,3 2010.
LV Lin—yuan,CHEN Duan—bing,ZHOU Tao.Th e small world yields
the most effective information spreading[J].New Journal of Physics.
13(201 1)123005(10pp).
. . — — 49...——
汤 胤等:兴趣社交网络中的供需匹配研究
[23] Karen H C Tso-Sutter,Leandro Balby Marinho,Lars Schmidt-Thieme. algorithms[C].In proceeding SAC’08
Tagaware recomment systems by fusion of collaborative filtering
Supply-Demand Matching in Online Interest-based Social Networks:A Douban.com Case
TANG Yin,OU Zhi—hua,CHEN Xin—hui,WANG Wei
(Management School,Jinan University,Guangzhou 5 10632,China)
Abstract:Building trust on the Intemet has become a challenging issue in the E—commerce era.In addition,the increase of unstructured and overloaded
information creates inefficient dissemination of supply—demand information.Trust issue may be tackled by online social networks(e.g.Facebook)based on
emotional connections.However,emotion-based societies do not support commercial atmosphere.Fackbook also fails to implement its F·commerce strategy.
Under these circumstances,Interest-based social netw ork may be able to solve the abovementioned problems.When searching fur a desired product,does an
individual oRen consult friends about the characteristics ofproducts that they are interested in buying? The paper flies to answer the question.
Traditional social netw ork researches,mostly based on empirical surveys,focus on structural issues such as strong or weak tie,and neglect the relationship
between individual characteristics and need.Smal1 World theories have enriched researches on information dissemination in socia1 network based on local
information hypothesis.However,these theories are proposed based on heuristic clues and nodes tend to have inclinations without considering real world
situations.
This paper flies to answer the above questions by employing social netw ork analysis and computer simulation based on real world Interest—based social
network data.Hypothesis is proposed that need information dissemination efficiency is positively related to neighbor’s characteristics in relation to the need
information.These hypotheses represent steps required to reach the supply in the network and individual’s bookmarks.A piece of need(a book enquiry)is
being relayed via linked nodes(individuals)to the matching one in the social network.If the path of high—relevant nodes statistically requires fewer steps to
reach the supply node than that oflow—relevant ones,the relevance can be confirm ed under repeated experiments.
With Douban.com chosen as an empirical object,a sub—graph ofthe follower’s network,including book collections ofusers together with tags,is retrieved.
A number ofindicators ofthe networks has proven its characteristics of small—world and scale—free.For comparison,a set oftop 100 most collected books and a
set of 100 systematically sampled books are retrieved as need inform ation.We designed tw o models to measure the relationship between neighbor’s interest and
deman d inform ation.A total of 1000 starting nodes are ran domly chosen,based on which a high—relevan t an d a low-relevan t path algorithm relay the need
inform ation.Th e simulation experiment generates four groups of data and the results confirm the proposed hypothesis. Th us,we conclude that the efficiency
of matching supply-demand inform ation in online interest-based social netw ork is highly related to neighbor’s interest in relation to the relayed need
information.
Th is paper confirm s the well—known yet implicit experience based on scientifically empirical study.Based on real world Interest-based social netw ork data,
computer simulation is employed in the study.Moreover,the method used to test the proposed hyp otheses is adapted from the Portfolio Analysis method.The
statistical method compares the required steps to reach supply node between path of high—relevant nodes and path of low-relevant ones.Th is study provides a
new methodology to study inform ation dissemination in social netw orks.
Keywords:social network analysis; interest-based social netw orks ; supply and demand matching
一 50一
中文编辑:杜 健 :英文编辑:Charlie C.Chen