智库文档所有分类

兴趣社交网络中的供需匹配研究：以豆瓣网为例.pdf

下载

Iseeley

10页 | 737KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

Vo1．29．No．2 管理 Jonrnal of Industrial 工程学报 Management 2015年第 2期兴趣社交网络中的供需匹配研究：以豆瓣网为例汤胤，欧治花， (暨南大学管理学院，陈杏惠，王玮广东广州 510632) 摘要：近年来兴起的兴趣社交网络中因其内在的商业价值引起了人们的注意。兴趣社交网络中涌现出大量的商品供需信息，带来的问题之一就是商品供需信息传播匹配效率低下。为解决上述问题，本文依托社会网络分析方法，探讨在具备小世界特性的兴趣社交网络中商品供需匹配的特点，研究商品传播和匹配的规律和提高匹配效率的策略。本文选取豆瓣网关注关系为实证数据，提出在兴趣社交网络中友邻信息相关度与供需信息传播匹配效率正相关的假设，并采用计算机仿真方法来验证假设。论文荻取豆瓣网的社交网络数据、包括网络用户藏书数据和图书的标签数据，针对随机选取的 1000个用户和 200本图书作为实验样本，分别设计两套友邻信息相关度度量算法和两套兴趣社交网络中商品供需信息传播匹配算法，采用进行仿真模拟实验进行了比较。实验结果证实了人们对于商品检索的直观判断，得出在兴趣社交网络中，商品供需信息传播匹配效率与友邻信息相关度正相关的结论。关键词：社会网络分析，兴趣社交网络，供需匹配中图分类号：F713．36 文献标识码：A 文章编号：1004．6062(2015)02．0041．10 DoI：10．135870．cnki．jieem．2015．02．005 O 引言近年来拍卖、集市、交易会等传统供需匹配的手段以各种形式不断被移植到互联网上，形成指数速度增长的趋势。然而，由于虚拟世界的不确定性，上述商业模式的简单移植也引入了很多新的挑战。其中最重要的挑战就是信任问题。据 2005年 7月的第 l6次中国互联网络调查报告，“用户认为目前网上交易存在的最大的问题”中，“产品质量、售后服务及厂商信用得不到保障”占了48．4％，远远高于其他项】(后期干脆去除了该问题)。毫不夸张地说，信任问题已经成为电子商务的最大障碍。另外，由于商品信息本身的非结构化，商品信息的组织、搜索、识别、验证、传播和匹配比较困难，加上 Internet上存在海量的商品信息，电子商务网站之间存在大量冗余、缺失链接，通常供需方访问的时候，很难迅速找到想要的信息，包括一些知名的电子商务网站，真正要得到有用信息往往需要相当大的精力，若要最大程度的广播商品供需信息无疑将引起网络拥塞及信息爆炸，并带来糟糕的用户体验从而降低整个社区的吸引力。这些都成为阻碍电子商务进一步往前推进的障碍。部分电子商务网站推出了基于用户行为或者特点的个性化的商品推荐功能。如亚马孙网上书城的“为我推荐”。该功能的实现基于用户在该电子商务网的浏览记录和交易记录，此项功能在一定程度上提高了用户搜索目标商品的效率，但问题仍然存在，一是用户只能被动接受推荐信息，而不能主动发出供需信息，另一方面是该推荐系统的推荐依据较为单一，如用户浏览商品记录和交易记录。 20世纪 60年代，社会心理学家 Stanley Milgram[ 1所做的 “六度分离 (six degrees of separation)”实验揭示了人际网络中的小世界现象，成为一个涉及社会学，数学和计算科学问题的多学科交叉问题。20世纪 90年代以来，社会网络分析方法 (Social Network Analysis)[3]成为一种新的研究范式。与传统的经济学以“低度社会化”、静态偏好、理性选择、信息充分等为基础假设不同的是，社会网络分析强调结构功能主义原则。社会网络理论认为，社会是由一群行动者与行动者间的关系以及这些关系所构成的网络结构所组成，作为社会人，其包括经济在内的许多行为是“镶嵌”在社会网络中的【】；个人行为除了自身的理性因素外，还受到周围人际等各种因素影响，从而导致许多非理性的决策：信息的传播与交流受社会关系的影响；信任在熟人社会中更容易建立起来[51。收稿日期： 2012—12—13 修回日期： 2013—04—11 基金项目：国家自然科学基金资助项目 (71271102)，中央高校基本科研业务费专项资金资助项目 (12JNYH005)，广东省部产学研结合重点资助项目 (2011B0904)；暨南大学管理学院重点学科建设育题基金资助项目作者简介：汤胤 (1975一)男，福建省宁德市人。暨南大学管理学院副教授，博士，硕士生导师，研究方向：电子商务、商务智能。．． — — 41．．．—— 汤胤等：兴趣社交网络中的供需匹配研究小世界现象为建立更好的信息传播途径提供了新的理论指导 1国内外研究现状和方法。利用人际网络的小世界特性，产品信息的传播和匹配会更加有效。近几年来大量兴起的以 MySpace，Facebook，人人网等为首的 Web2．0网络 SNS社区，已经成为商家熟知的交互营销平台，也被证明具有小世界网络的特性，给我们解决上述问题提供了方向和可能。但在实践中发现，由于朋友社会网络的维系往往基于情感连接，缺乏情感维系的商家社交网络战略效果并不明显，例如 Facebook的 F—Commerce模式最终以失败告终。显然在线社交网络中的 C2C供需匹配应不仅仅是传统环境下商业的简单移植，而是会服从互联网人际网络传播规律，呈现一些新的形式。012年以来的Pinterest，国内的蘑菇街、花瓣网以及豆瓣网等均是以兴趣为基础的社会化电子商务模式开始获得较大成功，这营销者和研究者开始转向以兴趣为纽带的社会网络。由于关系建立在共同兴趣基础上，基于兴趣的社交网站沿着共同的爱好推送一定的供需信息，相比之下会是个较为自然的行为，这给企业提供了自然的营销空间。问题在于，在希望找到指定商品的时候，人们从直观的感觉出发，一般都会寻找与该商品有相关性的个体求助，这样的判断有无科学依据呢?这是在以兴趣为基础的社交网络上传播相关信息从而有效进行商品供需信息匹配的关键问题，目前这些直觉经验仍然没有更多的研究作为支撑。本文以兴趣社交网络中的商品供需信息传播匹配为研究对象，借鉴社会网络分析方法和仿真方法分析兴趣社交网络中的商品供需信息传播匹配规律，探索最佳供需信息传播匹配途径。论文建立适当的社会网络模型和传播匹配算法，进行计算机模拟仿真实验，验证兴趣社交网络中信息传播匹配效率与友邻信息相关度之间的关系。论文总体思路是，若在重复实验 (随机选择节点和商品)的前提下，一项商品信息在兴趣社交网络中沿着与该商品高度相关的好友不断传播，并以较短的路径找到了匹配的节点，那么就可以认为信息传播效率与所选择的好友特性高度相关。通过对相同的实验样本使用两套不同的供需信息传播匹配算法并重复实验，产生四组相互对照的实验数据，根据本研究的假设和相关度量指标，对照分析得出结论。本文内容安排是，绪论部分介绍研究背景、研究意义、研究思路及内容等；文献综述部分介绍2O世纪60年代至现在，社会网络分析的兴起、发展及实践应用现状；第三部分给出了研究假设并界定相关概念，介绍网络样本数据的获取与分析方法，以及相关算法的度量含义、算法公式、算法流程、仿真实验方案设计与说明。最后是实验结果分析及其结论。～ 42一小世界网络理论最早用于研究疾病传播，社会学大师 Coleman 以非正式关系解释传染病流传及信息流通问题，开始了关于分析非正式社会网在创新、发展和传播知识的研究。 Watts和 Strogatz 证明疾病传播所需的时间与社会网络特征路径长度非常相似，只要在传播网络中加入一些捷径就可以使传播速度明显加快。Granovetter提出的 “弱连带优势 (The Strength of Weak Ties)”发现人际网络中的弱关系相比强关系在劳动力市场有更大作用Ⅲ。弱关系倾向于连接与行动者本人具有较高异质性 (Heterogeneity)的人群，这些人之间关系疏远，信息沟通很不充分，恰因如此弱关系充当了沟通不同群体的 “关系桥 (Local Bridge)”，在信息的扩散传播方面，弱连接能够传递对于行动者来说可能是未知的、新鲜的，因而也是有价值的信息。作为研究的补充和延伸，1992年美国芝加哥大学社会学教授伯特 (Ronald S·Burt) 提出结构洞(Structural Hole)理论，将结构洞定义为 “非冗余联系之间的分割” 。在具有结构洞的网络中，占据中心位置的个体可以获得更多更新的非重复信息，具备传播影响力。不过这个原则并非普适，边燕杰等人研究了本土找工作方式，证明中国文化环境下强关系比弱关系有更重要的作用。更何况赵延东发现连带强度在东西方具备不同的背景：西方个体间的关系主要是建立在态度、价值观和性格等个人特征相同或相似基础上，而传统中国人关系形态则主要以先赋性的血缘关系为基础。美国著名华裔社会学家林南(Lin， 1982)认为，无论是强关系还是弱关系，关系人本身的社会地位都是决定关系所能涉取的资源数量和质量的重要变量“ 。显然，关系的作用最终是由关系人的能力与意愿的合力所决定的。上述研究均考察关系的强弱对供需匹配 (找工作)的影响，未能发现个体与需求的相关性在当中的作用，研究方法也有很大差异。同时，全球化传播下对特定商品供需匹配的探讨，显然摆脱不开其特殊文化背景。这使得在丰富的西方学者资料面前，我们仍然面临艰巨的检视任务。在社会网络中信息传播模型方面，格兰诺维特将其门槛模型应用在消费者需求上，且基于下面的假定：商品信息是单向扩散被消费者所获知。“” 。包括 Rogers也认为创新是单方面的扩散，采纳者被动接受。wil1 Jam Brock，Steven Durlauf提出了著名的B-D模型，探讨了谢林／格兰诺维特模型的形式化。此类模型虽然从微观出发，但从描述统计角度解释扩散范围，仍然停留在宏观层面。近期一些研究也提出其他质疑，例如 Yen—Sheng Chiang就认为，门槛模型并没有回答不同心理门槛的个体在不同的网络位置从而引起从众效应的差异这个问题。Abrahamson利用仿真技术证明了社会网络结构、特性对创新扩散范围的影响。Dodds与其老师Duncan Watts一起将现有的模型按机理归为独立交互和门 Vo1．29．No．2 管理工程学报 2015年第2期槛两类，并提出了一个通用的濡染模型。作为描述性研究，研究者在图论基础上开发了若干度量指标用以研究社会网络，为我们研究互联网上的社交圈子提供了参考指标。在利用社交网络进行信息传播方面，Junichiro Mori等人提出了一个 SNS中面向实体世界的信息共享机制，并对其中的信息共享做了centrality，closeness和 betweenness的分析“ 。然而以上研究共同的问题是，信息在传播过程中都是采用广播的形式，这样会导致传播效率低下且容易造成网络拥塞。怎样使信息通过一定的渠道传播而非广播，更重要的是在供需匹配方面将经由什么节点找到对方?Kleinberg用仿真运行研究小世界网络中的搜索问题，证明了任意两个节点间超短路径的存在，而当网络簇集指数为 n=2的情况下，可以达到最快的搜索时间。注意到 Kleinberg的仿真实验只是使用本地信息在规则网格上进行无启发式的检索，而现实社会网络中信息传播的时候存在大量辅助性线索，例如社会网络中节点往往有一定的偏好，尤其是基于兴趣的社交网络，节点一般都拥有爱好、职业、收藏 (书、音乐、电影)等若干属性。从实证的视角，这些都必须纳入考虑。这类网络中，往往信息网络的结构和功能之间存在极强的耦合演化关系：结构的变化会影响信息传播的动力学性质，与此同时，用户会因为对某些信息内容的兴趣，而建立一些新的连接，造成结构的改变。Centola在线社交网络中的行为传播实验也同样证明了网络结构对个体的影响。研究表明小世界网络中的信息传播效率比其他网络高得多 “。 2供需匹配实验设计 2．1数据获取与分析本文之所以选取豆瓣网作为样本网络，是因为豆瓣网不仅是个典型的兴趣社交网络，运营已经有若干年，用户增长稳定同时覆盖的人群广泛，而且拥有大量藏书及其标签信息可以作为仿真模拟实验中的商品及其特征的度量。整个数据获取和仿真实验均采用 Python语言。社交网络数据的获取考察豆瓣网用户及其关注的人所构成的社交网络，鉴于用户数目庞大，把全部用户构成的社交网络作为样本网络是不现实的。本文采取雪球采样的方法获取数据，编写网页抓取及解析程序，先随机选取一个豆瓣用户作为起始点，获取起始点的关注的人，进而迭代地对关注的人进行同样的操作，直到获得足够的数据。然后基于该社交网络数据，用复杂网络分析库 NetworkX构建一个有向的社交网络图，即在豆瓣用户与其关注的人之间建立一条有向的关系，由豆瓣用户指向其关注的人。网络用户藏书数据的获取在用户的读书主页上存在三种读书信息，分别是“想读”、“在读”和“读过”，本研究获取的是“读过”的藏书信息。在己获取的社交网络数据基础上，提取出所有网络节点 (历，户／d)。进而以循环以届／d为参数，在其 “读过的书”页面上通过网络爬虫将书抓取下来，并以“用户一藏书”的形式保存。图书标签数据的获取图书标签来源于用户在收藏图书的过程中给图书添加的标签 (user annotation)。豆瓣网只给出了频次排在前面的 8个标签，本文即下载这 8个标签作为图书的标签。步骤是，先对获取到的用户藏书集合做去重处理，形成存放书的列表，再根据书获得图书页面的url，通过网络爬虫抓此页面的标签信息 (豆瓣网采用 gbk 编码，为避免出现乱码，将标签转为 utf-8)，以“图书一标签” 的形式保存。数据描述性分析利用 NetworkX对获取到的社交网络的网络结构进行分析，得到的各个描述统计量如表 1所示。可以看出该网络整体密度较低，说明豆瓣用户与其关注的人相互之间的交流十分稀疏。另外，全网络的强连通子图数为 204663。最大强连通图包含 2229个节点，50505条连接数。强连点，说明小团体之间成员通子图中除了最大连通子图外，其余的都很小。该社交网络的小团体(Subgraph或称 Cliques) 个数为 571250，最大的小团体包含 32个节重复现象严重，整个网络呈分散化，扁平化趋势。表1兴趣社交于网络的描述统计量统计量统计结果节点数 (网络规模) 连接数聚类系数直径平均路径长度小团体个数网络密度度相关性表2用户图书收藏信息统计表统计量统计结果总藏书量去重后藏书量藏书量最大量藏书量最小量平均藏书 1308．6734本 61．9750本 24974(共 1个用户) 0(共 48678个用户) 63本度分布：(1)该网络节点的度值最大的为 2079，说明该节点与其他节点的关系数最多。另外，该网络的平均度为 5，标准差为 1921，方差为 43．83，则说明该网络中各节点的度值表现出显著的异质性，即各节点与其他节点建立的关系数相差较大。(2)该网络节点的出度值最大的为 2000，说明该用户关注的人数最多。另外，该网络的平均出度为 2，标准差为 16965，方差为 41．18，则说明该网络中各用户的关注的一 43一肼腓汤胤等：兴趣社交网络中的供需匹配研究人数表现出显著的异质性。(3)该网络节点的入度值最大的为 419，说明该用户被其他用户关注的最多。另外，该网络的平均入度为2，标准差为39，方差为6．24，则说明该网络中各用户被其他人关注的差异较大。该社交网络图的度分布曲线见图 1(用matplotlib绘制)。图 l豆瓣网络关注关系的度分布曲线从图1可见，该网络图的度分布总体来看近似符合Power law规律，因此该社交网络具有 Barabfisi—Albert网络的无标度特性。总体而言，用户个体间联系人个数存在很大的差异，绝大多数用户只有少数几个联系人，他们可能注册之后很少再登陆这个网站，也可能即使登陆也很少添加关注的人或很少被别人关注。虽然平均度值仅为 5，但仍有少数几位用户拥有上千个联系人，他们组成了整个网络中活动性最强的群体。该网络的节点度同配指数 (度相关系数，Degree Correlation)为 r=：一0．142，为负值，表明中心节点(Hub)倾向于与小度节点相连，网络的度连接模式表现为异配特征(Degree Disassortativity)，这跟现实的社会网络有很大的区别，大量实证结果表明：大多数现实社会网络具有同配特 ~(Degree Assortativity)。这主要是因为 SNS社交网络打破了社会阶层间无形的壁垒，在 SNS社交网络中，每个人都有机会并很容易可以跟那些人气值很高的个人建立联系。因为平均最短路径要求计算网络上任意两个节点之间的最短距离，因此必须针对于完全连通的网络，而经验证该社会网络图不是强连通图，所以须先求得该社会网络图的最大强连通图，得到一个包含 2229个节点和 50505条连接数的最大强连通图，然后再求该强连通图的平均最短路径长度。直径的计算类似。最大强连通图的直径为 9，平均最短路径为 3．18，小于同样节点数和平均度数的Erdos．Rcnyi随机图的平均最短路径 lnN=ln1206891=12．24。将该有向社会网络图转化成无向图，得到聚类系数为0．075，远大于具有同样节点总数和平均度数的Erdos．Renyi随机图的聚类系数 2．42E．05(对一个包含 N个节点的 ER随机图网络，当N很大时，有 C 平均度数／N)。因此，该社交网络图具有 Watts．Strogatz小世界特性，与随机图不同。一 44一表3图书拥有的收藏者统计裹统计量统计结果拥有最多收藏者拥有最少收藏者平均拥有收藏者 35384(共 1本图书) 1(共 275131本图书) 21个裹4图书标签统计裹统计量统计结果总标签数量去重后标签数量最热门标签最冷门标签平均使用次数 249，3864个 27，7501个 1(“小说” ，57278本书使用) 178237(如 “中国家具史”) 4．02 通过对社交网络中所有用户的图书收藏数据进行分析，得知该网络中收藏图书最多的用户收藏图书24974本，无图书收藏的用户数为48678人，所有用户平均收藏图书 63本，收藏的图书数低于平均数的用户数为 151528人。通过这些数据可以看出：(1)用户之间的藏书高度重复，不重复的图书占用户藏书总和的比重仅为 4．74％。(2)不同的网络用户收藏的图书数量表现出很大的差异性，很多用户没有收藏图书或收藏的图书数目很少，只有少部分人收藏了较多的图书，也可以看作是这部分人掌握了整个网络的资源。用户图书收藏信息统计如表 2。通过从图书被多少用户收藏的角度进行分析，得知所有图书中拥有最多的收藏者的图书为《挪威的森林》，拥有 35384位收藏者，拥有最少收藏者的图书拥有的收藏者数位 1 (275131本，占总藏书的 44．39％)，所有图书平均拥有 2l 位收藏者，处于平均水平以下的有 555010本书。图书拥有的收藏者数也表现出很大的差异性，即每本图书的热门程度不同。图书拥有的收藏者统计情况如下表 3所示。通过对图书的标签信息进行分析得：(1)最热的标签为“小说”，反映了该子网络图的群体阅读偏好；只被使用了一次的标签多达 178237个，占去重后标签总量的 64．22％，这给后面运用基于标签的友邻信息相关度度量算法来进行供需信息的匹配带来一定的难度。(2)去重标签总量占总标签数量的 11．13％，对比藏书的重复情况，标签的重复情况较轻。图书标签统计情况如表 4所示。本文使用的标签信息由用户藏书的标签信息导出，通过 “用户一藏书”、 “藏书一标签”两个对应关系导出 “用户一标签”关系数据。 2．2研究假设与主要概念界定研究通过实证研究考察以下假设：H1：友邻信息相关度与供需信息传播匹配效率成正比，即友邻信息相关度越大，通过其传播匹配供需信息效率越高。自变量和因变量分别是友邻信息相关度与供需信息传播匹配效率。 Vo1．29，No．2 管理工程学报 2015年第 2期概念 (1)供需信息传播匹配效率：供需信息匹配成功所需的步长。步长越小，说明供需信息传播匹配效率越高；(2) 友邻信息相关度：表示朋友的兴趣爱好、买、卖信息与供需信息的相关匹配程度。本文中具体指标是指友邻的图书收藏信息与供需信息 (图书)的相关匹配程度。友邻信息相关度度量算法参考了推荐算法，如“购买了该商品的用户还购买了”，主要是计算朋友的图书收藏信息与供需信息的相关匹配程度，采用社会化标签组合来计算。为了使实验更完备，本文共设计了两套不同的相关度度量算法。第一套算法是基于用户的藏书信息 (后文中称该套算法为相关度算法 1)，第二套算法是基于用户的藏书以及藏书的标签使用信息 (后文中称该套算法为相关度算法 2)。 2．3算法 1基于用户藏书的友邻信息相关度定义I 图书相关度记收藏了图书bookl的所有用户构成集合 Ul={U1J，U12，U1 ． )，收藏了图书 book,?的所有用户构成集合 U2={U21，U22，U23⋯ )。图书 bookl对图书 book2的相关度用记为 R(bookl，book2)。则有： U1={ fI收藏了bookl的用户， i∈1⋯⋯”} U2={u2f J收藏了book2的用户， i∈I⋯⋯m} B Rfbo0kl,book2)：! ! (I) 一 l U2l 1、一 IU1nU2l (2)B R(b ook2 , book1、= 一 ’ I U1l 从书与书之间的相关度计算公式可知，(1)书与书之间的相关度是有向的，当tUll~tU2t且与【，2存在非空交集， R (bookl，book2)不等于 R (book2，book1)。(2)书与书之间的相关度的值在 0到 1之间。如果 bookl对 book,? 的相关度等于 1，则表示 bookl与 book2完全相关，即收藏了 book2的用户都同时收藏了 bookl。如果 bookl对 book2 的相关度等于 0，则表示 bookl与 book2完全不相关，即收藏了book2的用户都没有收藏 bookl。考虑到实验时间和计算机内存的限制，在不影响实验结果的前提下，本文在计算用户与图书的相关度之前，对用于仿真实验的 200本图书建立相关图书及其相关度的字典文件，在计算用户与图书的相关度时，可通过图书或者标签，直接查找与其相关的图书或标签及其相关度。用于仿真实验的图书集合记为 S = {boo~ I实验图书样本中的图书， i∈【1,200]}所有藏书集合记为B= {BOOKi l所有藏书集合中的图书}，对于中每一本图书，利用计算书与书之间的相关度的测量算法，计算该书与中所有图书的相关度，图书之间的相关度信息存放在 mXn的矩阵中，其中 m=lB Sl， n=lBl。通过这种计算方法得出的与某一图书相关的图书可能有很多，考虑到相关度过小甚至为 0的图书并无实验意义，故对与某本书相关的所有图书，按照其相关度进行降序排列，取前 100本相关的图书作为该书相关的书，如果没有 100本相关图书，则取全部。其他图书由于与该书的相关度太小，我们认为他们与该书不相关，即相关度为零。定义 2 用户与图书 (供需信息)相关度用户与某本图书之间的相关度等于该用户收藏的图书与该图书的相关度之和。记用户 user的藏书集合B={bookl、book2⋯⋯book~)，收藏了booki的用户集合为，收藏 book的用户集合为，该用户与图书 book之间的相关度用 U R(user，book)表示。则有： B={6DD岛l某用户 user收藏的图书，f∈1⋯⋯n} U _ R(user,book)= book~,book eB i=1 如。 I u I 2．4算法2基于用户藏书以及藏书标签的相关度社会化标签在 web2．0的不断发展下得到了广泛的应用，标签系统已经成为 Web2．0网站的基本功能之一，为用户的个性化服务发挥了重要的作用。利用标签信息进行个性化推荐的研究主要有基于聚类分析的个性化推荐，基于矩阵处理的个性化推荐，基于网络的个性化推荐几种。本文主要采用 “用户．资源”矩阵、“资源．标签”矩阵和“用户．标签”矩阵构造简单的相关度算法。标签与标签之间的相关度的计算与书与书之间的相关度的计算类似。基于用户藏书以及藏书标签的相关度度量算法的理论依据和基础是标签共现网络研究和标签个性化推荐体系研究。简单地说，如果标签 1和标签 2常常用于描述同一事物，这两者就实现了共现，并存在某种语义上的关联性。我们把标签与标签之间的相关度定义为两个标签在所有网络用户收藏的所有图书中配对使用的频率。“配对使用”是指这两个标签同时被某本书使用；“频率”是指两个标签之间的相关度是一个相对值，计算 tag2对 tagJ的相关度时，被除数是使用了 tag1的图书数量，除数是所有同时使用了 tag1和 tag2 的图书的数量。计算 tag1对 tag2的相关度时，被除数是使用了tag2的图书数量，除数是所有同时使用了tagJ和 tag2的图书的数量。即两个标签之间的相关度是有向的，tag2与 tag2 的相关度不等同于 tag2与tagJ的相关度。数值上，两个标签的相关度在0到1之间。标签与自身的相关度等于 1。定义 3标签相关度：记使用了垤的图书集合 B1= {bookiI使用了f昭，图书}，使用了tag2的图书集合B2={book：l 使用了 tag2图书}。标签 tagJ对 tag2的相关度记为 T _ R(tagt， tam)。那么 tagl对 tag2的相关度：一 45— 汤胤等：兴趣社交网络中的供需匹配研究 T_R rtag l，cag2 tag2对tagl的相关度： (4) (3)计算 T S中每一个标签与 T中所有标签的相关度， T — R (tag2'tag。： (5) 考虑到计算速度和计算机内存的限制，在计算用户与图书的相关度之前，对用于仿真实验的 200本图书建立其标签相关度的字典文件t (1)提取用于仿真实验的所有图书使用的所有标签，其集合记为； (2)以社交网络中所有用户收藏的所有图书使用的所有标签为全集，记为 U R(user，book)= T R ( 一』 1 产 1 2．5仿真算法以及实验方案 User ● k呷圆图2供需信息匹配成功的高相关度路径图算法使用广度优先搜索。值得注意的是，为验证假设，本研究借用了资产投资组合分析法的思想，分别迭代地选择友邻中相关度高的用户 (前 50％的用户)或友邻中相关度低的用户 (后 50％的用户)传播供需信息，直至找到某个用户收藏 (供给 )起始用户所需的图书，此时供需匹配成功。算法返回供需信息匹配成功所需步长 (友邻度数)。称前者算法为高相关度传播，其传播匹配路径为高相关度路径，称后者为低相关度传播，其传播匹配路径为低相关度路径。图2所示为高相关度路径图。 Book视为本研究中的供需信息，起始用户 User为发出需求信息的节点，在 User的友邻中查找是否有友邻收藏 Book，若有，则停止查找，返回本次查找路径的友邻度数。若没有，则使用友邻信息相关度度量算法在其友邻中查找与 Book相关度最高的前一半友邻，将需求信息传递至这一半友邻，然后再对这一半友邻进行上述同样的操作，每查找一度友邻，友邻度数加 1，若最后找到该书，则停止查找，返回本次查找路径的友邻度数，若查找完 User所有度数内的好友 — — 46—— 标签之间的相关度信息同样可以通过矩阵表述。对某一标签的一组相关标签，按照其相关度进行降序排列，取前50个标签作为与该标签相关的标签，其他标签由于与该标签的相关度很小，我们认为他们与该标签不相关，即相关度为零。如果没有 5O个相关标签，则取全部。定义 4图书与用户的相关度图书与用户的相关度实质是两个标签集之间的相关度。记图书book使用的标签集合记为 T b= {tagil图书 book使用的标签}，用户 user使用的标签集合记为 T“= {tagiI用户user使用的标签1。则用户user 与book之间的相关度计算公式如下： tag，，tag)，tagf∈ ，tag，∈ 仍没找到该书，则返回空值。图2中的友邻度数为 3。实验样本为用于仿真实验的样本，分为图书样本和用户样本。图书样本研究所选图书样本容量为 200本，其中 100 本为最热门的图书，选取方法如下：(1)从“用户——藏书” 导出“图书——收藏者”数据；(2)按照图书的收藏数量降序排列，取收藏数量排名前 100本的最热门图书，记为 Topl00。另外 100本图书的选取方法如下：(1)在上述步骤 (1)的基础上，按收藏数量降序排列；(2)系统地每隔 1500本取一本书，共选取 100本图书 (去掉收藏数量少于 5个的部分，总体为 153898本)。我们记为 Samplel00。用户样本用户样本中的个体是仿真实验中具有图书需求的起始用户，选取方法为从获取的社交网络用户中获取关注的人数大于 0的用户 (共 153898个)，再在循环中随机抽取 1000个用户。出于完备性的目的，本文设计了两套供需信息传播匹配路由算法作为对照，使用上述提取的相同的图书样本和用户样本，分开独立实验。仿真实验分成了独立的四个部分进行，分别是基于用户藏书的友邻信息相关度度量算法的高相关度传播匹配实验、基于用户藏书的友邻信息相关度度量算法的低相关度传播匹配实验、基于用户藏书以及藏书标签的相关度度量算法的高相关度传播匹配实验、基于用户藏书以及藏书标签的相关度度量算法低相关度传播匹配实验。仿真实验产生四组数据，实验的分析工作将根据这四组数据的交叉对照而进行，并验证研究假设。仿真实验步骤如下： (1)顺序选择用户样本中的一个用户； (2)顺序选择图书样本中的一本图书作为其“需求”； (3)以此图书作为需求信息，按照供需信息传播匹配路由算法传播此需求信息，返回本次查找路径的友邻度数，并 Vo1．29，No．2 管理工程学报 2015年第2期将结果保存到 Excel表格中； (4)返回步骤 (2)，循环运行完图书样本中的所有图书； (5)返回步骤 (1)，循环运行完用户样本中的所有用户。 3仿真模拟实验结果 3．1基于用户藏书信息的友邻相关度最热门的 100本图书通过高相关度度传播算法匹配的仿真模拟实验结果保存为一个 1000行 100列的Excel表格，A 列是 1000个样本用户的id，第一行是 100本样本图书的 id，表格中的数值代表所在列的用户查找所在行的图书所需的友邻度数。如单元格 B4=2，代表用户‘1046265’查找图书 ‘24148689’所需的友邻度数为 2，亦即图书‘24148689’首次出现在用户‘1046265’的第 2度好友的藏书中。为了表述方便起见，定义图书热度为：藏书量的大小；定义友邻度数为：从起始节点出发到匹配节点所需步长。图书热度用于分析不同藏书量的藏书对友邻度数的影响。之所以选择图书热度作为分析维度，是因为在数据的预处理过程中发现，在不同的藏书量下匹配供需信息的友邻度数有很大区别，同时藏书量太小的图书经常无法在整个子网络中找到，对实验已经没有意义。因此选择了收藏量为前 100的图书进行预分析，命名为 Topl00。为了覆盖所有样本，我们另外采用系统抽样的方式，隔 1500本取出一本图书，共 100本，命名为 Sample100。论文采用的研究方法也决定了无法直接建立信息传播步长与高 (低)相关度路径的关系。 ToplOO图书的仿真结果分析以图书热度为横坐标，通过高相关度传播和低相关度传播成功匹配供需信息所需友邻度数对比分析如图 3所示。通过高相关度传播匹配算法成功图 3基于相关度算法1的最热门100图书中不同热度图书匹配成功所需友邻度数图4基于相关度算法 1的最热门1OO图书中不同热度图书匹配成功所需友邻度数差值匹配供需信息所需友邻度数的平均值为 1．08，通过低相关度传播匹配算法成功匹配供需信息所需友邻度数为 1．09。通过高相关度传播匹配算法和通过低相关度传播匹配算法成功匹配供需信息所需步长 (友邻度数)之间的差值 (低相关度路匹配步长．高相关度路劲匹配步长)如图4所示。通过高相关度传播匹配成功所需的友邻度数大于通过低相关度传播匹配算法匹配成功所需的友邻度数的比率是 9％，通过低相关度传播匹配成功所需的友邻度数大于通过高相关度传播匹配算法匹配成功所需的友邻度数的比率是 91％，由此可知：大部分情况下，某个用户有某本图书需求时，通过高相关度传播匹配算法匹配成功所需的友邻度数小于通过低相关度传播匹配算法匹配成功所需的友邻度数。 SamplelO0图书仿真结果分析以图书热度为横坐标，通过高相关度传播和低相关度传播成功匹配供需信息所需友邻度数对比如图 5。通过高相关度传播匹配算法成功匹配供需信息所需友邻度数的平均值为 2．47，通过低相关度传播匹配算法成功匹配供需信息所需友邻度数为 2．79。通过高相关度传播和低相关度传播成功匹配供需信息所需友邻度数之间的差值如图 6所示。图5基于相关度算法 1的Samplel00图书中不同热度图书匹配成功所需友邻度数图6基于相关度算法 1的Samplel00图书中不同热度图书匹配成功所需友邻度数差值通过高相关度传播匹配算法匹配成功所需的友邻度数大于通过低相关度传播匹配算法匹配成功所需的友邻度数的比率是 5％，通过低相关度传播匹配算法匹配成功所需的友邻度数大于通过高相关度传播匹配算法匹配成功所需的友邻度数的比率是95％，由此可知：大部分情况下，某个用户有某本图书需求时，通过高相关度传播匹配算法匹配成功所需的．． — — 47．．．—— 捌劓《哮汤胤等：兴趣社交网络中的供需匹配研究友邻度数小于通过低相关度传播匹配算法匹配成功所需的友邻度数。 3．2基于用户藏书及其标签的友邻相关度 Topl00本图书的仿真结果分析以图书热度为横坐标，通过高相关度传播匹配算法和通过低相关度传播匹配算法成功匹配供需信息所需友邻度数对比分析如图7所示。通过高相关度传播匹配算法成功匹配供需信息所需友邻度数的平均值为 1．07，通过低相关度传播匹配算法成功匹配供需信息所需友邻度数为 1．09。通过高相关度传播匹配算法和通过低相关度传播匹配算法成功匹配供需信息所需友邻度数之间的差值如图8所示。鏊臣书热度图7基于相关度算法2的最热门100图书中不同热度图书匹配成功所需友邻度数臣书度图8基于相关度算法 2的最热门100图书中不同热度图书匹配成功所需友邻度数差值通过高相关度传播匹配算法匹配成功所需的友邻度数大于通过低相关度传播匹配算法匹配成功所需的友邻度数的比率是 1％，通过低相关度传播匹配算法匹配成功所需的友邻度数大于通过高相关度传播匹配算法匹配成功所需的友邻度数的比率是99％，由此得知：绝大部分情况下，某个用户有某本图书需求时，通过高相关度传播匹配算法匹配成功所需的友邻度数小于通过低相关度传播匹配算法匹配成功所需的友邻度数。 Sample 100本图书仿真结果分析以图书热度为横坐标，通过高相关度传播匹配算法和通过低相关度传播匹配算法成功匹配供需信息所需友邻度数对比分析如图 9所示。通过高相关度传播匹配算法成功匹配供需信息所需友邻度数的平均一 48一值为 2．84，通过低相关度传播匹配算法成功匹配供需信息所需友邻度数为4．33。通过高相关度传播匹配算法和通过低相关度传播匹配算法成功匹配供需信息所需友邻度数之间的差值如图 10所示。 c。：蔡竹寸 n 一匪书热度图9基于相关度算法2的Samplel00图书中不同热度图书匹配成功所需友邻度数臣书热庹图1O基于相关度算法2的Samplel00图书中不同热度图书匹配成功所稀友邻度数差值通过低相关度传播匹配算法匹配成功所需的友邻度数大于通过高相关度传播匹配算法匹配成功所需的友邻度数的比率是 100％，由此得知：某个用户有某本图书需求时，通过高相关度传播匹配算法匹配成功所需的友邻度数小于通过低相关度传播匹配算法匹配成功所需的友邻度数。从不同角度对仿真结果进行分析，可以得出结论：任意用户查找任意图书时，通过高相关度传播匹配算法匹配成功所需的友邻度数小于通过低相关度传播匹配算法匹配成功所需的友邻度数，由此可以验证研究假设 H1为真，即友邻信息相关度与供需信息传播匹配效率成正比，即友邻信息相关度越大，通过其传播匹配供需信息实现供需信息匹配成功所需的友邻度数越少，匹配效率越高。另外，算法 2定义的相关度并不能有效提高匹配效率，因而也无法推翻上述结论。 4结论本文是针对兴趣社交网站中商品供需信息传播匹配的规律以及如何提高匹配的效率等方面的实证研究。研究的特色姆制簸筘 Vo1．29。No．2 管理工程学报 2015年第 2期在于基于实际的兴趣社交网络数据进行计算机仿真模拟实 [4] 验，从而验证假设。通过实验产生的四组对照数据进行分析的结果，验证了本文中的研究假设，即：在兴趣社交网络中，友邻信息相关度与供需信息传播匹配效率成正相关，即友邻【5] 信息相关度越大，通过其传播匹配供需信息实现供需信息匹配成功所需步长 (友邻度数)越少，匹配效率越高。论文的 [6】贡献在于：(1)用实证研究回答了前文提出的问题：人们在寻找指定商品的时候，从直观的感觉出发倾向于向与该商品【7] 有相关性的个体求助。本文虽然得出的结论未有凉喜”，但采用科学论证的方式证实了长久以来的经验性判断的正确 [8】性；(2)传统研究主要采用市场调查方法或者数学模型分析，而本文基于实际的兴趣社交网络数据进行计算机仿真实验。【9] 同时，论文中验证假设的方法类似金融工程学科的资产组合分析，供需信息在网络中经由若干节点传播，如果若干次高相关度组合的匹配效率能够统计上显著地超越低相关度组 [1o】合，即可认为相关度因素是显著的。这在研究方法上为社交【l1] 网络上信息传播的研究提供了新的思路。鉴于时间、经费以及作者能力限制，研究还存在诸多局限与不足：(1)实验数据不足。本文基于一个基本假设：认 [12] 为社交网络的子图具备与父图完全的特性。因而只针对豆瓣网的一个子网络数据进行了研究，在样本网络方面缺乏对照；【13] (2)相关度度量的局限性。友邻信息与商品供需信息的相关度可能有很多方面的影响因素，本文只考虑了用户的藏书信息和其藏书使用的标签信息，而没有考虑用户的友邻个数、 [14】用户在网络图中的结构位置特点等更多用户的特征。基于标签的友邻信息相关度度量算法没有考虑每个标签的权重，即【15】标签被图书和用户使用的频次，而只考虑了标签的语义信息。这些都会使结论的适用性受到一定的限制。【l6】未来的研究：(1)可以进一步对其他的社交网站如人人网、朋友网的数据做类似的研究，比较分析各个社交网站中 [17】的供需信息传播匹配的规律也是一个值得深入研究的问题； (2)在设计友邻信息相关度度量算法时，可以把用户的友邻数等用户个人特征和标签被使用频次作为一个权重，这样会 [18] 使友邻信息与供需信息相关度的计算结果更为精确，更贴近实际。(3)可将本文设计的友邻相关度度量算法运用于其他 [19] 供需信息 (不仅仅是图书)的传播匹配当中，如寻找拥有相同阅读偏好的好友，寻找同一主题、同一类型的其他图书等等。【20】参考文献 [211 [1】 CNNIC．第十六次中国互联网络发展状况报告[R]．www．cnnic．org 2005．7 [22】【2] Milgram S．The small world problem[J]．Psychol，1967(2)：60—67 [3] 刘军．社会网络分析导论【M】．北京：社会科学文献出版社，2004 Gl~tnovetter,Mark．1985．Economic action and social structure：the problem ofembeddedness[J]．American Journal ofSociology，91(3)： 481．510 Coleman．James S．Tbe mathematics of collective action[M]． Chicago：A1dine．1973 WaRs D．J．Stroga~ S H．Collective dynamics of“small world” networks[J]．Nature，1998，393：440—442 Granovetter,Mark．The strength of weak ties[J]．American Journal of Sociology,1973，78(6)：1360-1380 Butt R．Structural holes：the social structure of competition[M]． Cambridge，MA：Havard University Press，1992：345—356 Bian，Yanjie．Bringing s~ong ties back in：indirect ties，network bridges and job searches in China[J]．1997，Am erican Sociological Review,62：266—285 赵延东．再就业中的社会资本：效用与局限[J]．社会学研究，2002(4) Lin Nan．Socia1 rgsoBrCes and instrumenta1 action．in P．Marsden．and L．Nan(eds．)，Social structure and network analysis[M]．London：Sage Publications，1982：72—85 Granovene~Mark．1978．Threshold Models ofCollective Behavior[J]． TheAmerican Journal ofSociology,1978，83(6)：1420-1443 GranoveRer,M．and Soong，R．Threshold models of interpersonal effects in consumer demand[J]．Journal of Economic Behavior& Organization，1986，7：83-99 Rogers，Everett M．．Diffusion of Innovation[M]．4th ed．New Y0rk， Th e Free Press，1995，10—37 Brock and Durlauf．Discrete choice with social interactions[J]．Review ofEconomic Studies，2001，68(2) Chiang Yen—Sheng．A network analysis ofthreshold models[C]．ASA． proceedings．2004 Abraham son Eric，Rosenkopf Lori．Social netw ork effects on the extent ofinnovation diffusion：A computer simulation[J]．Organization Science，1997，8(3)：289—309 Dodds Watts D．Universal behavior in a generalized model of contagion[J]．Physical Review Letters，2004，92(21) Junichiro Mori，Tatsuhiko Sugiyama，Yutaka Matsuo：Real-world oriented information sharing using social networks[J]．GROUP 2005： 8l-84 Kleinberg．Navigation in a small world[J]．Nature．VOL 406，24 AUGUST 2000 Centola D．Th e spread of behavior in all online social network experiment[J]．Science．VoD29．Sept，3 2010． LV Lin—yuan，CHEN Duan—bing，ZHOU Tao．Th e small world yields the most effective information spreading[J]．New Journal of Physics． 13(201 1)123005(10pp)．．． — — 49．．．—— 汤胤等：兴趣社交网络中的供需匹配研究 [23] Karen H C Tso-Sutter,Leandro Balby Marinho，Lars Schmidt-Thieme． algorithms[C]．In proceeding SAC’08 Tagaware recomment systems by fusion of collaborative filtering Supply-Demand Matching in Online Interest-based Social Networks：A Douban．com Case TANG Yin，OU Zhi—hua，CHEN Xin—hui，WANG Wei (Management School，Jinan University,Guangzhou 5 10632，China) Abstract：Building trust on the Intemet has become a challenging issue in the E—commerce era．In addition，the increase of unstructured and overloaded information creates inefficient dissemination of supply—demand information．Trust issue may be tackled by online social networks(e．g．Facebook)based on emotional connections．However，emotion-based societies do not support commercial atmosphere．Fackbook also fails to implement its F·commerce strategy． Under these circumstances，Interest-based social netw ork may be able to solve the abovementioned problems．When searching fur a desired product，does an individual oRen consult friends about the characteristics ofproducts that they are interested in buying? The paper flies to answer the question． Traditional social netw ork researches，mostly based on empirical surveys，focus on structural issues such as strong or weak tie，and neglect the relationship between individual characteristics and need．Smal1 World theories have enriched researches on information dissemination in socia1 network based on local information hypothesis．However，these theories are proposed based on heuristic clues and nodes tend to have inclinations without considering real world situations． This paper flies to answer the above questions by employing social netw ork analysis and computer simulation based on real world Interest—based social network data．Hypothesis is proposed that need information dissemination efficiency is positively related to neighbor’s characteristics in relation to the need information．These hypotheses represent steps required to reach the supply in the network and individual’s bookmarks．A piece of need(a book enquiry)is being relayed via linked nodes(individuals)to the matching one in the social network．If the path of high—relevant nodes statistically requires fewer steps to reach the supply node than that oflow—relevant ones，the relevance can be confirm ed under repeated experiments． With Douban．com chosen as an empirical object，a sub—graph ofthe follower’s network，including book collections ofusers together with tags，is retrieved． A number ofindicators ofthe networks has proven its characteristics of small—world and scale—free．For comparison，a set oftop 100 most collected books and a set of 100 systematically sampled books are retrieved as need inform ation．We designed tw o models to measure the relationship between neighbor’s interest and deman d inform ation．A total of 1000 starting nodes are ran domly chosen，based on which a high—relevan t an d a low-relevan t path algorithm relay the need inform ation．Th e simulation experiment generates four groups of data and the results confirm the proposed hypothesis． Th us，we conclude that the efficiency of matching supply-demand inform ation in online interest-based social netw ork is highly related to neighbor’s interest in relation to the relayed need information． Th is paper confirm s the well—known yet implicit experience based on scientifically empirical study．Based on real world Interest-based social netw ork data， computer simulation is employed in the study．Moreover，the method used to test the proposed hyp otheses is adapted from the Portfolio Analysis method．The statistical method compares the required steps to reach supply node between path of high—relevant nodes and path of low-relevant ones．Th is study provides a new methodology to study inform ation dissemination in social netw orks． Keywords：social network analysis； interest-based social netw orks ； supply and demand matching 一 50一中文编辑：杜健：英文编辑：Charlie C．Chen

联系我们

智库文档公众号

客服微信

标签

联系我们

意见反馈