\ 研 究与开 发
\
文 章 编 号 :1007— 14 23 (2013 )35 — 0006— 04 D O I:10. 3969/j. issn . 1007— 14 23 . 2013 . 35 . 002
K 一 均值聚类算法在 网络商城促销 中的应 用
万 华 , 常珊 。 涂 淑琴
(华南农 业 大学 信息学 院 , Y
-
,~l,I 5 1064 2)
摘 要 :
随着市场竞争的 日益 激烈 . 促销技术对 于 网络商城提 升销售额 至 关重 要 。 在对 网络商城 的访 问 Et志 和 客户 交易 的历
史数据 分析基 础 上 , 采用 K 一 均值 聚类算法设 计实现 基 于用 户兴趣 、 基 于 用 户 消费偏好 、 基 于 用 户价值 的三 种类 型 的
促销策略 , 为企 业 提供可 行 的个性化促销决策支持模 型 。
关键 词 :
数据挖 掘 : K 一 均值聚类算法 : R F M 模 型
基 金 项 目 :
国家 自然科学基 金项 目(No.3 1200990)
0 引 言
电子 商务 正 以 令人 难 以 置 信 的速度 蓬 勃 发 展 . 网
络 商城 面 临越 来越激烈 的竞争 。 要 想 有效地 吸 引客户 .
增 加 企 业 销 售利润 . 必 须对 传统 的 电子 商务 信息进行
有 效 的组 织 和 利用 。 例 如 , 通 过 数据挖 掘分 析【11客户 的
行 为信息 , 可 以 更 多地 了解顾 客 的兴趣 和 消费 习 惯 . 有
针对 性 地 制定促销 策略 。 本文应 用 K 一 均 值 聚类算法 121
对 网 络 商城 的历 史 交 易 信 息 和 El志 访 问 信 息 进 行 分
析 . 设 计实现 了 网站 的促销管理 模块 。
@ 现 代计算机 2013 . 12 中
数据预处理
1 采 用 聚 类方法 的促 销策略设 计
网 络 商城 由商 品浏 览 、 商 品检 索 、 购物 车管 理 、 订
单管理 、 发 货管 理 、 会 员 管理 、 购 物评 价 管 理 及 促销 管
理 等多个模块组 成 。 本文 的重 点是促销管理 模块 . 它 的
主 要 功能是 采用 聚类方法 . 在对 网络商城 历 史 数据分
析 基础 上 . 得 出 一 些 有助 于 商 品销售 的参考规 律 . 为用
户定制个性 化 的促 销 策略 。 本文 的促 销管理 模块设 计
如 图 1 所 示 , 主要 采用 了 三 种 聚类方案 :
(1)基 于 用户兴趣 的聚类 。 在对 网站 的 一 次访 问过
图 1 基 于 聚类 的促 销 管理 模 型
生成 促销策略
┏━
━
━━━
━
━━
━
┓┃┃
┣
━━
━
━━━
━
┳━
┫
┃
热门商品推荐
┃
┃┣━
━
━━
━
━━┻
━
┫┃
┃
┣━━
━
━━
━
━┳━
┫
┃
多买多折扣
┃
┃
┣━
━
━━━
━
━┻
━
┫┃┃
┣
━━
━
━━━
━
┳━
┫
┃
用户分级促销
┃
┃┣
━
━━
━
━━━
┻
━┫
┃
┃┗
━
━━
━
━━━
━
━┛
琴
飘令
? -登 //
程 中 . 用 户 一 般会对感兴趣 的商 品所 在 的 网 页停 留较
长 的时 间 . 以 此 可 表征 该用 户 的兴 趣 度 。 因此 。 按 网 页
访 问 的驻 留时 间对 用 户 进 行 聚类 . 可 以 得 到访 问兴 趣
类似 的用 户簇 。 提 取 出用 户簇对 网页访 问兴趣 最 高 的
前几 个 商品 网 页 . 将 其对 应 的商 品作 为热 门商 品推荐
给该 簇 的所 有用 户 。
(2)基 于 用 户消费偏好 的聚类 。 用 户消费 一 般会带
有 一 定 的偏好 . 例如宝 宝 妈妈购买 奶粉 和 玩 具 的消 费
金 额 比重 比较 大 . 学生 可 能 购买 文 具 和 图书 的 比重 比
较 大 ,. 他们为特定类 型 的商品贡献 了较 大 的利润 , 为 了
提 升这部分顾 客 的忠诚度 . 可 在价格 上 给予 折扣优 惠 。
因此 . 按 用 户对 各类 商 品 的消 费 比 重进行 聚类 , 可 以 得
到 消费 支 f{J 分 布类 似 的用 户簇 。 提取 出用 户簇 购 买 比
重 最 大 的前 几 个商 品类别 . 对 该簇 的所 有用 户 在购 买
这 几 个类别 的商品时实施 梯度折扣优惠 。
(3 )基 于 用户 价值的聚类 。 用 户价值 一 般采用 R F M
模 型 即 睐 衡量 。 该模型 使用 三 项 指标来描述该客户 的
价值 :R fR ecency) 表示 距 用 户最 近 一 次 购买 的时 间天
数 ;F (F requen cy)表 示 用 户 的 购买 次 数 ;M fM onetary)表
示 用 户 消 费 的金 额 。 根 据 R F M 模 型 . 按 用 户 价 值对 商
城 所 有用 户 进 行聚类 . 可 以 得 到不 同等级 的用 户 价 值
类 型 . 再依据用 户的价值类 型 采用 不 同的营销 策略 。
本文 以 3 个 月 为 聚类计算 的更新 周期 . 下 面 分 别
介绍 这 i 种基 于 聚类 的促销设计 和 实现 。
2 基 于 用 户兴 趣 的聚 类促 销
由于 用 户兴趣 度 的定 义 是 根据用 户对 网页 的访 问
时 间来确定 的 . 因此 首先要 从 站点服务器 的 日志文件
中提取 出用 户 的访 问信息 . 这 个 过 程 称 为数据 预 处 理 。
W eb 日志 文件 的每 一 条 记 录包 括 IP 访 问地 址 、 访 问 时
间时 区 、 请求 的方法 、 请求访 问 的页 面 U R L 、 请求协议 、
响应 的状 态 码 、 发 送 的字节 数等属性 。 本 文 对数 据 的预
处 理 过 程 为 :首 先 逐 条 扫 描 W eb 日志 文 件 记 录 , 对 原
始数据进行数据 清洗 去 除无 关 的 日志 数据 . 只 留下 必
要 的数据项 , 建立 日志记 录 表 ;然后 进行用 户 识 别建立
用 户访 问表 . 方 法是 采用不 同 IP 地 址 表征不 同的访 问
用 户 :最后通 过会话识 别建立 会话 表 , 方法 是定 义 一 个
超 时时限 A t(25 分 钟 ). 在 △t内的同 一 个 用 户 (IP )访 问
该 网站 的点击记 录归 为 同 一 会话 . 会话表 中记 录 了每
个用 户在 一 次会话 中对各访 问 网页 的驻 留时间 。
接下 来 . 聚类 算法需要 建 立 待分类 对 象 的 向量 模
型 以 反 映对象 的分类 特点 。 基 于 用 户兴趣 的 聚类 模 型
可 表示 为 m X n 的矩 阵 A , 其 中 m 表示访 问用 户数 目 . n
表示 商品 网页数 目 , 矩 阵元 素 ai 表示 用 户 i对 网 页 i的
兴 趣度 。 用 户兴 趣 度 根 据用 户对 网页驻 留时 间进 行 量
化 . 驻 留时间越 长则兴趣度就越大 . 具体如表 1 所 示 。
表 1 用 户 兴 趣 度 量 化
K 一 均值聚类算法 的主要 思 想是 : 首先初 始化簇 的
数 目 k和 k个 任意值 的聚类 中心 向量 。 接下 来计算 每
个输入 向量 与各 聚类 中心 向量 之 间 的相 似度 (= 向量 之
间 的夹 角余 弦值 ). 将该 向量 分 配 到 相 似度最 高 的簇
中 。 形 成 聚类后 , 重新计算 聚类 中心 值 (= 簇 内所有 向量
的平均值 )并依据新 的聚类 中心 进行下 一 次 聚类 。 随着
聚类算法 的迭 代执行 . 聚类会逐 渐趋于 稳定并达 到收
敛标准 。 K 一 均值聚类算法具 体描述 如 下 :
输 入 : 簇 的数 目 k; m 个 向量 集合 V = {V 。, V :, ⋯ ,
V 。 1
输 出 : k个簇 的 向量集 合
(1)从 V 中任意选择 k个输入 向量作为初始聚类 中
心 向量 :{C l, C 2 , ⋯ ,C k};
(2)R epeat;
(3 )F or 每 一 个 向量 对象 V j, 其 中 i_ {1 ,2 , ⋯ , m )D o
计算 V i与每个 聚类 中心 向量 C ; 的相 似度 即夹 角
余 弦 值 , 其 中 j= {l, 2 , ⋯ , k}, 夹 角 余 弦 值 C O S (V i, C j)=
不考妻箍矿 , 根据相似度将 V i分 配 到最 相似 的簇 ;
(4 )F or 每 一 个 聚类 中心 向量 C ., 其 中 j= {1 , 2 , ⋯ , k)
D o
计算 C , 簇 中的所 有 向量 对 象 的平 均值 . 替换 为新
的聚类 中心 向量 , 即 :c,= 击∑V i, 其 中Ic,J代表簇 中向
0u j’ V , E q
量对象 的个数 。
(5 )计算 所 有 向量 对 象 的平 方误 差 的总 和 作 为 准
则 函数 ,E : ∑ ∑IV 。一 C jI:;
】∈ l V . ∈ C j
(6)U ntil 准则 函数 E 不 再 明显 发 生 变化 。
矩 阵 A 所 有 的行 代 表所 有 用 户 访 问 向量 的集合 ,
现 代计算机 2013 . 12 中 o
\ 研 究 与开 发
\
以 该 向量 集合为输入 . 设 置 簇 的数 目 k为商 品类 型 总
数 . 应 用 以 上 K 一 均 值 聚类算法 . 即 可 得 到 k个 用 户 访
问兴趣类 似 的用 户簇 。 每个用 户 的簇编号 被记 录在 用
户 访 问 表 中 . 当某 个用 户 在 线访 问 时 . 根 据 其 IP 地 址
查 找 用 户 访 问表 得 到他所 属 的簇 号 . 找 到该 簇 的 聚类
中 心 向量 即 该 簇 中所 有 用 户 对 各 网 页 兴 趣 度 的平 均
值 。 从 聚类 中心 向量 中取 最 大 的前 5 个 分量 . 根 据 网 页
编号 提取 m商品信息推荐给该 用 户 。
3 基 于 用 户 消 费偏 好 的聚类促 销
在 基 于 用 户 消 费偏好 的聚类 处 理 中 . 所 需 的 购物
信息可 以 从数据 库 汀单表 中直接提取 出来 。 为 了兼顾
商城 的利润 . 可 设 置 一 个最 低消 费总 金额 对 用 户 进 行
过 滤 。 其聚类模 型 可 表示 为 一 个 m ×p 的矩 阵 B , n 1 为满
足 最 低 消 费金 额 的用 户 数 目 . P 为商 品细 类 总 数 . 矩 阵
元 素 b。. 表示 用 户 i对 i类商 品 的消费 比 重 (= 该类 商品
消 费金 额 x 100/消 费总 金 额 . 为 了 方 便计算将 比 重 值乘
上 100 进 行 了量 化 )。 那 么 . 矩 阵 B 所有 的行 即所 有用
户 消费 向量 的集合 . 以 该 向量 集合为输入 。 设 置 簇 的数
目 k为商品大类总数 。 应用 以 上 K 一 均 值聚类算法 即可
得 到 k个 消 费 比分 布相 似 的用 户簇 。 每个簇 的聚类 中
心 向量 为该簇 中所 有用 户对 各类 商品 的消费 比 的平均
值 . 从 聚类 中心 向量 中取 最 大的前 3 个 分量 得 到该 簇
所 有 用 户 可 获得 优 惠 的商品类 别 。 对 于 该簇 的所 有用
户 . 系统 依据其历 史 消费情 况 计 算其购买 这 几 类 优惠
商品 时可 获得 的折扣 . 用 户 的 历 史 消费金 额越 大则 获
得 的优惠折扣也 大 ,、
4 基 于 用 户价 值 的聚 类促 销
基 于 用 户价 值 的 聚类 采用 了 R F M 模 型 来 计 算用
户 价值l¨ 1. 该模 型 呵表示 为 m x3 的矩 阵 C , m 为用 户 数
目 . 3 表示 衡量 用 户价值的二三项 指标 : 第 一 项 表示 用 户
忠 诚 度 . 用 离最 近 一 次 购买 的时 间天 数来衡量 :第 二 项
表示 用 户 活 跃 度 , 用 3 个月 内用 户 购买 频 率衡量 :第 三
项 表示 用 户 贡 献度 . 用 3 个月 内用 户 购买 商 品 的 总 金
额衡量 . i 项 指标均采用 量 化 的方 法得 到 . 具 体如表 2
所 示 。
矩 阵 C 所 有 的行 即 所 有 用 户 价 值 向量 的集 合 . 以
该 向量 集合为输入 . 簇 的数 目 k设 置 为 8. 应 用 以 上 K 一
均值聚类算 法得 到 8个用 户簇 。 对 每个簇 的所 有用 户
@ 现 代计 算机 2013 . 12 中
的价值 向量求平均值 . 得 到簇平 均 向量 。 再 对所 有用 户
的价值 向量 求平均值 . 得到总平均 向量 。 将簇平均 向量
和 总平均 向量 的 3 个分量 进行单独 比较 : 簇平均值大
于等于 总平 均值的分量设 置 为 1 , 否 则设 置 为 0 。 那 么 ,
三 项 指 标最 多形 成 8个 不 同价值等级 的用 户簇 . 如 表 3
所 示 。
表 2 用 户价 值 指 标 量 化 ┏━━
━
━━
┳
━━
━
━━━
━
┳━
━
━━
━
━━
┳
━━
━
━━━
━
━━
━
━━┓
┃
量粥缀 ┃忠诚度 jt天 敷 ) ┃活跃 度 (次数 ) ┃贡 献魔 f金额 ) ┃┣━
━
━━
━
╋━━
━
━━
━
━╋
━
━━
━
━━━
╋
━━
━
━━
━
━━
━
━━
━
┫┃4
┃
≤ 7
┃
≥ 15
┃
≥ 5 , 000 ┃
┣
━━
━
━━
╋
━━━
━
━━
━
╋━
━
━━
━
━━╋
━
━━
━
━━
━
━━
━
━━
┫
┃3 ┃> 7 and ≤ 30 ┃≥ 8 and ‘15 ┃≥ 1 , 000 and ≮5 , 000 ┃┣
━
━━
━
━╋
━
━━
━
━━━
╋
━━
━
━━
━
━╋
━
━━━
━
━━
━
━━
━
━┫
┃
2 ┃)30 and ≤ 60
┃
≥ 4 an d ct8
┃
≥500 and il. 000 ┃┣
━
━━
━
━╋━
━
━━
━
━━
╋
━━
━
━━
━
━╋━
━
━━
━
━━━
━
━━
━
┫┃1 ┃> 60 and ≤ 90 ┃≥ 1 and < 4 ┃≥ 10 and < 500 ┃┣━
━
━━
━
╋━
━
━━━
━
━╋
━
━━━
━
━━
╋
━━
━
━━
━
━━
━
━━━
┫
┃O
┃
> 90 ┃= O
┃
≤ 10
┃
┗━━
━
━━
┻
━━
━
━━
━
━┻━
━
━━
━
━━
┻
━━
━
━━
━
━━━
━
━━
┛
表 3 用 户 价 值 分 类 ┏━━
━
━━
━
┳━
━
━━
━
━┳
━
━━━
━
━┳
━
━━━
━
━┳
━
━━
━
━━
━
┓┃用户簇鳊号 ┃悫诚痰比较 ┃活酝度 比较 ┃重 献度 比较 ┃价、值类型 ┃┣━
━
━━
━
━╋
━
━━━
━
━╋
━
━━
━
━━
╋
━━
━
━━━
╋
━━
━
━━
━
━┫
┃
l ┃1
┃
1 ┃1 ┃黄金价值 ┃┣
━
━━
━
━━
╋
━━━
━
━━
╋
━━
━
━━
━
╋━━
━
━━
━
╋━
━
━━
━
━━
┫
┃┃O
┃
l ┃1 ┃币 受挽留 ┃┣
━
━━
━
━━
╋
━━━
━
━━
╋
━━
━
━━
━
╋━
━
━━━
━
╋━
━
━━━
━
━┫
┃
3 ┃1 ┃0 ┃1 ┃最爱发展 ┃┣
━
━━
━
━━
╋
━━
━
━━━
╋
━━
━
━━━
╋
━━
━
━━
━
╋━
━
━━
━
━━┫
┃
4 ┃0 ┃O ┃1 ┃蕊要保持 ┃┣
━
━━
━
━━
╋
━━
━
━━━
╋
━━
━
━━
━
╋━
━
━━
━
━╋━
━
━━
━
━━┫
┃
5 ┃1 ┃1 ┃O ┃般价值 ┃┣
━
━━━
━
━╋
━
━━━
━
━╋
━
━━
━
━━
╋
━━
━
━━━
╋
━━
━
━━
━
━┫
┃
6 ┃0
┃
1 ┃O ┃‘ 般价仇 ┃┣
━
━━
━
━━
╋
━━━
━
━━
╋
━━
━
━━
━
╋━━
━
━━
━
╋━
━
━━
━
━━
┫
┃7 ┃1 ┃O ┃0 ┃潜4 :价“{
┃
┣━
━
━━━
━
╋━
━
━━
━
━╋
━
━━
━
━━╋
━
━━
━
━━
╋
━━
━
━━━
━
┫┃8 ┃O ┃O ┃0 ┃低 价值
┃
┗━━
━
━━
━
┻━━
━
━━
━
┻━
━
━━
━
━┻
━
━━━
━
━┻
━
━━━
━
━━
┛
通 过用 户 价值 聚类得 到所 有 用 户 的价 值 等级 . 可
以 帮助 网站 经 营者制定更有效 的营销策略 。 例如 . 对 于
黄金价 值用 户 . 他 们是 网络商城利 润 的最 大来源 . 应该
给予 最 高 的优惠力 度 :对 于 重 要挽 留的用 户 . 可 以 采用
免 费赠 送 小额 电子 购物券 . 吸 引用 户重新 对 网站 商品
感兴 趣 : 对 于 重 要 发 展 和 重 要 保持 的用 户则 可 以 邮寄
制作美观 的商 品彩 页 、 电话 回访 等方法加强 和 用 户 的
联 系 : 对 于 一 般价值和潜在价值 的用 户 则可 以 适 当提
高网站促销 短 信和 邮件 的发送 频率等 。
5 结 语
本 文 在 对 网 络 商 城 的 历 史 数 据 分 析 的 基 础 上 。 将
数 据 挖 掘 中 的 聚 类 方 法 应 用 于 网 络 商城 的 促 销 管 理
中 。 通 过 K 一 均值 聚类算法 分别得 到基 于 访 问 兴趣 的用
户群体 、 基 于 购买 偏好 的用 户群体 和 基 于 用 户 价值 的
用 户 群体 . 指导 企 业 经 营者有针 对性地 制定 网站 营销
策略 . 满 足 用 户 的个性 化需 求 . 增 加 了购物 网站 的竞争
力 .
参考文献:
【1]Margaret H.Dunham.数据挖掘教程【M】.北京:清华大学出社,2005.5
【21~~b吉贵,刘杰,赵连宇.聚类算法研究fJ].软件学报,2008,19(1):48~61
【3】官亚雄,陈卫东.基于数据挖掘的促销决策支持系统[J].浙江工业大学学报,2006,34(2):174~178
[4】汪永旗.一种改进的K—means算法在旅游客户细分中的应用[J】.宁波大学学报(理工版),2012,25(3):58~61
作者简介:
万华(1978一),女,江西南昌人 ,硕士研究生,讲师,研究方向为数据挖掘,算法设计与分析
常珊(1982一),男,湖南岳阳人,博士研究生,副教授 ,研究方向为算法设计、生物信息
涂淑琴(1978一),女,江西南昌人 ,硕士研究生,讲师 ,研究方向为智能算法,图像处理
收稿 13期:2013—10—12 修稿 13期:2013—12—03
Application of K-Means Clustering Algorithm in Sales Promotion of Online Mall
WAN Hua,CHANG Shan,TU Shu-qin
(College of Information,South China Agricultural University,Guangzhou 5 10642)
Abstract:
W ith more and more fierce market competition,sales promotion plays a key role in increasing sales for the online mal1.Analyzes histori.
cal sale data and web log records from the online mall,uses K-means clustering algorithm to design three kinds of promotion strategies
based on customer interest,customer consumption preference and customer value,respectively.Provides the personalized promotion deci.
sion suppo~ model for the enterprise.
Keywords:
Data Mining;K—Means Clustering Algorithm;RFM Model
(上接第5页)
Replica Creation Strategy Based on Bid Pattern and Accession Heat
PANG Lu—lu.GAO Yao-qin
(College of Information,the Second Artillery Engineering University,Xi an 710025)
Abstract:
Discusses typical strategy proposes of data replica creation,delivers a replication creation strategy that takes online rate and storage abili.
ty of the node as “price”.Based on a detailed analysis of traditional creation strategy on visitation frequency and typical replica strategy
on bid creation,improves the unity of consideration on node perform ance,considers the perform ance of node visitation frequency and
load,and achieves data creation strategy on a combination of bid pattern and visitation frequency.Through experiments on web bandwidth
utilization and system response time,article replica creation strategy and experimentaly compares two typical replica creation strategies to
verify better perform ance of replica creation strategy on bid pattern and visitation frequency proposed.
Keywords:
Replica Creation Strategy;Web Bandwidth Utilization;Visitation Frequency;Bid Pattern
毋 计笪加 9n1 1,由 ●l