Journal of Computer Applications
计算机应用,2012,32(5):1439—1442
ISSN 1001—9081
CODEN JYIIDU
2012.05一O1
http:// . oca.cn
文章编号:1001—9081(2012)05—1439—04 doi:10.3724/SP.J.1087.2012.01439
基于改进 RFM 模型的电子商务客户细分
徐翔斌 ,王佳强 ,涂 欢 ,穆 明
(1.中南大学 交通运输工程学院,长沙410083; 2.华东交通大学 机电工程学院,南昌330013)
( 通信作者电子邮箱wangjiaqiang628@sina.eom)
摘 要:对电子商务企业的客户进行准确细分,采取相应的营销策略,是电子商务发展的重要环节。在传统零售
行业客户细分的 RFM模型上,引入总利润属性,创建 RFP模型,使 用数据挖掘 K-Means算法对某电子商务企业客户
进行聚类分析,与 RFM模型比较,并分析了模型属性的关联性对聚类结果的影响,得出了模型比较的六个结论和四个
营销策略,能为电子商务行业以及其他销售行业提出相关营销策略。
关键词:电子商务 ;数据挖掘;RFM模型;聚类分析;客户细分
中图分类号:TP391 文献标志码:A
Customer classification of E-commerce based on improved RFM model
xu Xiang.bin 一,WANG Jia.qiang ,TU Huan。,MU Ming
(1.School of Traffic and Transportation Engineering,Central South University,Changsha Hunan 410083,China;
2.School ofMechanical and Electrical Engineering,East China Jiaotong University,Nanchang jiangxi 330013,China)
Abstract:It iS essential to classify E—commerce customers accurately and take suitable marketing strategy for the
development of E-commerce.Based on the RFM (Recency,Frequency,Monetary)model used in customer classification of
traditional retail.the total profit attributes were introduced to set RFP model and K-Means clustering method was used to
analyze customers of a firm in E—commerce and compared with the RFM mode1.The relevance of model attributes impact on
clustering results was analyzed.Finally,the paper gets six conclusions about the comparison between the both models and puts
forward four strategies for E—Commerce and other sales industries.
Key words:E—commerce;data mining;RFM (Recency,Frequency,Monetary)model;cluster analysis;customer
classification
0 引言
近年来,电子商务在短短几年中以惊人的速度蓬勃发展,
它的迅速发展引发了交易方式、流通模式、商业模式的不断创
新和进步。一方面它规避了创业者由于实体店面投资而产生
的资金风险;另一方面,提高了客户服务水平以及更多的商品
选择机会。随着电子商务交易量快速增加和市场的激烈竞
争 ,电子商务领域需要像传统的市场营销一样进行客户细分 ,
从而满足客户 日益增长的个性化需求,并且通过差异化服务 、
针对性策略吸引客户,形成长期购买行为,提高客户忠诚度,
在激烈的市场竞争中立于不败之地。杜修平等⋯引入投资
回报率建立 RFM—ROI模型对证券行业客户流失进行了分析 ;
张玲芳等 将 RFM(Recency,Frequency,Monetary)模型
与原协同过滤机制进行结合,制定了差异化的电子商务推荐
策略;刘慧婷等 提出了基于经验模态分解方法 (Empirical
Mode Decomposition,EMD)和 K-Means的客户行为聚类方法 ,
为商家提供了促销依据。然而大多数国内学者主要进行算法
改进 ,没有对模型进行更符合实际的描述 ,营销策略仍存在表
面阶段,对利润详细分析的模型更是少之又少。
1 技术路线和模型背景
1.1 研究思路和方法
本文首先引入客户关系管理中 RFM模型,建立了 RFP
(Recency,Frequency,Profit)模型,然后收集并清洗了某 B2C
电子商务企业(如卓越网、苏宁易购等)的销售数据,对RFM
模型和 RFP模 型进行 聚类效 果较 好 的 K-Means聚 类分
析 ,最后比较两种模型效果;同时针对利润分析,提出了
相应的营销策略,能够为大型电子商务企业或者购物网站以
及其他销售行业提供客户区分依据。
1.2 RFM模型背景
RFM模型是客户关系管理领域中的一种定量分析模型,
它通过三个属性值来描述客户的重要程度和客户类型,即最
近购买时问(R),某一期间内购买的次数(F),某一期间内购
买的总金额( )。它主要用于传统零售行业 ,在反应客户购买
偏好方面具有良好的表征性,研究发现R越小(或F越大或M
值越大),客户越有可能与企业达成新的交易,常用于数据挖
掘客户细分。
1.3 改进的 RFP模型背景
国外学者认为客户细分模型的构建直接影响到数据挖掘
技术 的准确性 ” 。模型描述越准确,数据挖掘的效果越
好。购买金额高但带来低利润的客户不一定是大客户,不一定
满足企业的大客户策略。高销售额虽然提高了企业的资金周
转率,但是给企业带来根本利益的是利润,不应该在模型中被
忽略,尤其是针对目前产品丰富、利润相差较大 ,拥有较高利润
的电子商务企业。如果企业拥有若干个购买金额相差不多利
收稿 日期:2011—11-01;修回日期:2011 12—17。
基金项目:国家 863计划项目(2009AA04Z106);江西省自然科学基金资助项目(2009GZSO015);江西省教育厅科技公关项目(GJJ10467)。
作者简介:徐翔斌(1975一),男 ,江西湖口人,副教授,博士,主要研究方向:知识管理、供应链管理; 王佳强(1984一),男,福建南平人,硕
士研究生 ,主要研究方向:智能电子商务; 涂欢(1987一),男,江西南昌人,硕士研究生,主要研究方向:复杂网络; 穆明(1987一),男,湖北荆
州人,硕士研究生,主要研究方向:模拟计算。
计算机应用 第32卷
润却相差很多的客户,RFM模型就无法准确分辨。针对若干
个购买金额差别较大的客户,若购买金额大的客户利润仍少于
购买金额小的客户,RFM模型甚至会造成错误的聚类结果,采
用错误的营销方式丢失客户。利润的分析存在一定的难度,大
多数学者描述利润是销售额与成本之差。然而针对目前电子
商务这种新模式,大多数商家的销售经常预先估计商品的利润
率,因此可以考虑利润是销售额与利润率的乘积。
2 RFP模型与利润算法
2.1 RFP模型
考虑到电子商务企业商品利润不同且差别较大,引入了
商品利润属性(P)替代销售额( )来描述客户对网站的价
值,即:最近一段时间内客户购买所有商品带来的总利润。已
知如下假设。
R:客户三个月内最近最近一次购买距离现在的天数 ;
F:客户三个月内的购买次数;
P 三个月内对第 i个客户销售第 类商品的利润。
2.2 RFP模型构建规则
RFP模型构建关键是对购买利润矩阵尸的算法设计。设
P 为P矩阵中的元素。P 表示第i个客户对象,P 表示购买
第 项产品(i=1,2,⋯,m, =1,2,⋯, )。
由此 ,用P 来表示第i个客户对象购买第 个产品给企业
带来的利润率。一般模式下 P.,=P :⋯ =P P利润率矩
阵如式(1)所示 :
P11 P12 ⋯ Pl
l P22 ⋯ P2
Pm1 P 2 ⋯ P
设X 为 矩阵中的元素,X 表示第 个客户对象,X+,表
示购买第 项产品(i=1,2,⋯,m, =1,2,⋯,n), 表示第
i个客户购买第 个产品所花费的金额。x购买金额矩阵如式
(2)所示:
l1 12 ⋯ J
如 ⋯
l m2 ⋯
d(i, )=
3 数据分析
3.1 数据描述
从某 B2C商家收集清理数据得到 30种商 品 2个月
(2011年2月至 2011年 3月)1 000次购买记录数据,构建购
买事务矩阵(见表 1,其中:⋯1’表示购买,“0”表示未购买)。
表 1 购买事务矩阵举例
统计出期 间每个客户 (有效客户共 475名)购买次数
(F),最近一次购买距离现在的天数( )和购买金额( ),得
到475×30矩阵,根据商家预计的商品利润率P矩阵(1)和售
价 矩阵(2)计算出每个客户期问给卖家带来的总利润w矩
阵(3),并运用式(4)计算出RFP模型利润属性(P ),如表2。
表2 销售情况数据表某客户数据
3.2 数据规格化变换
为克服 RFP模型不同变量 的计量单位对聚类分析结果
产生不合理的影响,因此对各属性进行规格化变换。规格化
变换又称为极差正规比变换。它是从数据矩阵中的每一个变
量最大值和最小值,并用最大值减去最小值得出极差。然后
用每一个原始数据减去该变量中的最小值 ,再除以极差 ,即得
到规格化数据,计算公式如式(6)所示:
⋯
一 }
l i n 1 ≤ ≤ ≤ ≤n
4 聚类结果和策略分析
(6)
(2) 4.1 RFP模型聚类结果
对 K值进行分析(K=2、3、4),通过sig<0.01并使用 F
对P矩阵和 矩阵点乘操作 ,即 W,j=P X ,可得Nw
矩阵。Wq表示第 i个客户购买第 项产品所带来的利润。w利
润矩阵如式(3)所示 :
l】 l2 ⋯ l
. : ⋯
l m2 ⋯
(3)
因此,第 i个客户带来的全部利润为:
P = =1,2,⋯,m (4)
2.3 K—Means算法
K-Means算法是使用距离来衡量两个对象之间的相异
度 ,认为两个对象距离越近,其相似度越大。给定 后 ,随机
的把所有对象分配到K个非空的簇 中,然后计算每个簇的平
均值,并使用该平均值代表相应的簇,将每个对象根据其与各
个簇中心的距离重新分配到与它最近的簇中,直到不再有新
的分配发生。距离的计算方法主要有欧几里得距离、曼哈坦距
离等,本文中使用欧几里得距离,如式(5)所示 :
值检验,最终定 K =3。结果如表 3、4所示。
表3 RFP模型最终簇中心
表4 RFP模型每个簇中的类成员数量
RFP模型结果描述为 1类、2类和 3类的客户数量分别
为 256、17和202。其中,2类客户的利润最高,频率最大而且
最近一次购买时间是最近的,数量最少,是企业 的大客户;1
类客户的利润较高,频率也较大,最近一次购买时间也是较近
的,数量最多,是企业较常合作的潜在客户;3类客户利润最
少,频率也最低,最近一次购买时间最远,数量较多,可以看出
是企业临时的客户。由表 4中第 2类潜在客户最多可见,此
第 5期 徐翔斌等:基于改进 RFM模型的电子商务客户细分 1441
商务企业的口碑较好,有大量的回头客,但也面临着潜在客户
有可能消失的情况 ,有较大的机遇和调整,与此商务企业的实
际情况非常符合。
4.2 RFM模型聚类结果
同样对 K分析值为3,如表 5、6所示。
表5 RFP模型最终簇中心
表6 RFP模型每个簇中的类成员数量
RFM模型描述为 1类,2类和 3类的客户数量分为278,
27和 170。其中2类客户的利润最高,频率最大而且最近一
次购买时间是最近的,数量最少 ,是企业的大客户;1类客户
的利润较高,频率也较大,最近一次购买时间也是较近的,数
量最多,是企业较常合作的潜在客户;3类客户利润最少 ,频
率也最低,最近一次购买时间最远,数量较多,可以看出是企
业临时的客户。
4.3 两种模型结果比较
结论1 从簇中心来看,两个模型的结果非常相近,这证
明RFP模型也具有可行性。从聚类的大客户数量看 ,RFP模
型的大客户数量减少了近40%,使大客户显现度更高。从大
客户和潜在大客户的数量比例看,RFM模型为 64%,而 RFP
模型为 57%,重要客户数量下降 7%,重要客户的显现程度更
高。假设一共有,v位客户,重要客户的营销成本与一般客户
的营销成本差值单价为 C,则通过 RFP改变营销策略后所节
省的成本估计为:
AC :0.07NC
尤其面对超大数据量的电子商务企业 ,Ⅳ是巨大的,成本
降低也相应增大。
结论 2 从微观成员分组的区别上看,根据返回的两个
模型的两组 QCL值,可以找出两种模型下聚类结果不一致的
个体。对两组 QCL数据匹配分析,如表7所示。
表7 两模型部分聚类 QCL值
R F P M QCLnrp QCLRFM
统计有 52个个体分类不同,占总体客户的 11%,即两个
模型的结果差别率为 11%。其中有36个个体原属于RFM模
型的 1类,后属于 RFP模型的3类;1个个体原属于 RFM的 1
类,后属于 RFP的2类;11个个体原属于RFM的2类,后属
于 RFP的 1类;4个个体原属于 RFM的3类,后属于 RFP的
1类。由此看出,RFP模型把36个个体从原来的潜在客户调
整到一般客户,把 11个个体从原来的大客户调整到了潜在的
客户,并且纠正了一个原本认为是潜在客户而实际是大客户,
其销售信息如表 8所示,PR为利润率。
表8 RFP模型纠正为大客户的销售信息
参数 值 参数 值
ID 4O5 朋 56O7.9O
尺 2O PR 0.88
F 4 P 4914.80
结论 3 根据 RFP模型,可以分析各个类别的利润分布
情况。根据 RFP模型返 回的 QCL值,即每个个体 的具体分
类,通过计算出对三类客户的利润,如图 1所示。
1
鐾25
1442 计算机应用 第32卷
RFM模型。
结论5 两个模型 (P)属性权重增加后 , (P)属性的
簇中心将明显提高。M(P)属性权重设置越极端,M(P)属性
簇中心有明显提高的类的成员数有明显增加 ,出现集聚效应。
模型中原 M(P)属性的权重为 1/3,调整为 0.6后,大客户和
潜在大客户的人数剧增说明了权重的灵敏度较高。R和 F属
性的变化影响与M(P)属性相似。
结论6 改变权重后,RFM与RFP模型共有22个不同的
分类结果。RFP模型将大客户数从 251减少为 238;将潜在
客户从 217增加到 223;将一般客户数从 7个增加到 14。其
中,l3个大客户被下调为潜在大客户 ,8个潜在大客户下调为
一 般客户,1个客户从一般客户上升为潜在大客户。RFP模
型仍然优于 RFM模型。由于权重越极端,其模型效果越接近
RFM模型。
4.4.2 基于利润率的灵敏度分析
基于原始销售额(肘),对每个顾客的原利润率(原利润 /
销售额)提高 10%,重新计算利润 尸值,对 RFP模型重新聚
类后 ,发现新 RFP聚类结果仅将原 RFP结果的4个潜在大客
户调整成一般客户,未有太大影响。
4.5 基于 RFP模型新营销策略分析
策略1 与传统策略相同,即争取留住大客户,并对潜在
的客户进行客户提升活动,对一般客户的投入最少。
策略2 从结论 3看出,应该集中资源提升潜在的客户,
重新调整客户维护资金的投入比例,而不是一味地投资在大
客户上。可以利用 MNL(Muhinomial Logit,MNL)模型,以营
销方案效用和利润为目标函数 ,以成本总投人为约束条件 ,进
行多目标规划。
策略 3 从结论5中得到,属性的权重对大客户和潜在大
客户的数量的灵敏度较高,企业可通过适当调整权重,使大客
户和潜在大客户数量调整到企业设定的数量或比重的范围内。
策略4 由于RFP模型涉及到商品利润率,而不同的行业
商品的利润率差别较大,因此可以通过 RFP模型,统计重要客
户类的行业构成,这样企业可以开发高利润率的行业的商品种
类,例如服装行业占重要客户行业比重较大,那么企业就可以
开发一些服装商品,开拓市场,获得更多的额外利润 。
5 结语
数据挖掘的结果,很大程度上取决于模型的建立,更好的
模 型能给数据挖掘技术带来更大的知识量。本文将0—1规划
思想与 RFM模型相结合 ,创建了购买事务矩阵,并通过改进
RFM模型,增加“利润”属性,发现 RFP模型对客户细分更加
准确,并且能挖掘出更多的知识量,RFP模型更加适合目前企
业进行数据挖掘的应用。未来对 B2C电子商务的客户细分
和数据分析必然是建立在数据仓库的展示基础上进行聚类等
分析。本文的事务矩阵表也正是数据仓库的“某个维”。未
来的工作将是分析策略 2,即利用 MNL模型,以营销方案效
用和利润为 目标函数,以成本总投人为约束条件,进行多目标
规划 ,计算营销投资分配。
参考文献:
【1】 杜修平,王中.基于决策树的证券客户流失模型[J1.计算机应用
与软件,2009,26(9):230—233.
[2] 张玲芳,张婧.基于RFM模型和协同过滤的电子商务推荐机制
[J].江苏科技大学学报:自然科学版,2010,24(3):285—289.
[3】 蒋国瑞,刘沛,黄梯云.一种基于 AHP方法的客户价值细分研究
[J].计算机工程与应用,2007,43(8):238—241.
【4】 周欢.基于 RFM分析模式的零售业客户分群实现过程[J1.金陵
科技学院学报,2008,24(1):84—86.
[5] 赵裕啸,倪志伟,王园园,等.SQL Server 2O05数据挖掘技术再证券客
户忠诚度的应用【J1.计算机技术与发展,2010,20(2):230—232.
[6] 孙瑛,马宝龙,李金林.基于RFM模型方法的忠诚计划会员顾客
价值识别研究【J】.数学的实践与认识,2011,41(15):75—79.
[7】 刘慧婷,倪志伟.客户行为的有效聚类[J】.计算机工程及应用,
2010,46(4):12—14.
[8] 陈治平,胡宇舟,顾学道.聚类算法在电信客户细分中的应用研
究[J】.计算机应用,2007,27(10):246—248.
[9] 詹海亮,薛惠锋,苏锦旗.基于人工免疫系统的克隆一 均值算法
[J].计算机仿真,2008,25(11):191—194.
【10】苏清华,胡中波.基于差分演化的 K-均值聚类算法[J】.武汉理
工大学学报,2010,32(1):187—191.
[1 1]HAN JIAWEI,KAMBER M.Data mining:Concepts and tech—
niques【M】.北京:机械工业出版社,2002.
[12】MAIA M,ALMEIDA J,ALMEIDA V.Identifying user behavior in
online social networks[C】//Proceedings of the 1 st Workshop on
Social Network Systems.New York:ACM.2008:1—6.
[13]CAVERLEE J,WEBB S.A large—scale study of myspace:Observations
and implications for online social networks[EB/OL].[2011—10一O1].
http://faculty.CS.tanlu.edu/caverlee/pubs/caverled38alarge.
【14]PHILLIPS R L.定价与收益优化【M].陈旭,慕银平,译.北京:中
国财政经济出版社,2008,
【15】赵晓煜,黄小原.基于 RFM分析的促销组合策略优化模型【J].
中国管理科学,2005,13(2):60—64.
(上接第 1438页)
[5] THET T M M,QUAH T—S.Application of neural networks for software
quality prediction using object—oriented metrics[C]//Proceedings of
Intemational Conference on Software Maintenance. Washington,
DC:IEEE Computer Society.2003:1 16—125.
[6] 吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术【J].
计算机工程与设计,2009,30(12):2956—2959.
[7] 张家海,胡恒章.组合导航系统可靠性的神经网络静态预测[J].
哈尔滨工业大学学报,2002:34(4):697—699.
[8] 张小艳,李强.基于 SVM的分类方法综述[J】.科技信息,2008
(28):344—345.
【9】 McCABE T.A complexity measure[J 1.IEEE Transactions of
Software Engineering,1976,12(4):308—320
[10] 高书亮,杨东凯,黄智刚.Galileo系统伪随机序列生成及其
FPGA实现f J].微计算机信息,2008,24(26):124—125.
[11] 史峰,~]b311,郁磊,等.Matlab神经网络 3O个案例分析[M】.
北京:北京航空航天大学出版社,201 1.
[12] 姜慧研,宗茂,刘相宝.基于 ACO—SVM的软件缺陷预测模型的
研究[J].计算机学报,2011,34(6):1148—1154.
[13】 崔正斌,汤光明,乐峰.遗传优化支持向量机的软件可靠性预测
模型[J].计算机工程与应用,2009,45(36):71—74.
[14] 林盾,陈俐.BP神经网络在模拟非线性系统输出中的应用[J].
武汉理工大学学报,2003,27(5):731—734.
[15】 BRIAND L C,MELO W L,WUST J.Assessing the applicability
of fault-proneness models across object—oriented software pmjects
[J】.IEEE Transactions on Software Engineering,2002,28(7):
706—720.