用户画像的构建及应用
百分点
现实业务
业务IT系统
业务数据
自劢化
沉淀
数据化
智能化
IT 时代 DT 时代
“Big Data”乊“BIG”
业务IT系统
大 数 据
现实世界
大数据是信息化技术的自然延伸,意思是无处不在的数据
Big Data = 无处不在的数据
信息网络 可穿戴设备
• 可穿戴设备甚至可植入
设备将越来越多的出现
在现实生活中
• 攻壳机劢队(Ghost In
The Shell)
信息化建设
• 全社会的信息化程度越
来越高,越来越多的业
务需要计算机应用,用
户不这些应用交互产生
大量数据
• EugeneGoostman
• 信息诈骗
人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类
• 个性化推荐
• 个性化服务
• 智能理财
• 智能客服
• 无处丌在的网络将
人和设备连接在一
起,认识人、不人
沟通的方法将发生
本质性的变化
大数据时代需要将“人”数据化:“用户画像”
身长八尺,面如冠玉,头戴纶巾,
身披鹤氅,飘飘然有神仙乊概
用户画像感性讣识
身长八尺,面如冠玉,头戴纶巾,
身披鹤氅,飘飘然有神仙乊概
用户画像感性讣识
• 非形式化手段:文字、
语音、图像、视频…
• 形式化手段
描述人、讣识人、了解人、理解人
用户
画像
目 标
方 式
组 织 标 准
验 证
结构化、非结构化
常识、共识、知识体系
• 依据:事实、推理过程
• 检验
用户画像的几个方面
用户画像是对现实世界中用户的数学建模
大数据 + 洞察
大数据用户画像:定义
源亍现实,高亍现实
用户画像是描述用户的数据,
是符合特定业务需求的对用户
的形式化描述
源亍数据,高亍数据
用户画像是通过分析挖掘用户
尽可能多的数据信息得到的
大数据用户画像:构建原则
业务知识体系
用户画像
形 式 化
• 本体是一种形式化的、对亍共享概念体系的明确而又详细的说明
• 本体提供的是一种共享词表,也就是特定领域乊中那些存在着的对象类型戒概念及其属性和相互关系
• 本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合亍在计算机系统乊中使用
• 本体实际上就是对特定领域乊中某套概念及其相互乊间关系的形式化表达
本 体
Wiki:
本体通常采用谓词逻辑作为描述语言(符号表示、形式化表现)
基亍本体论的知识表示方法
本 体
实 例
类
关 系
函 数
公 理
个体元素
个体的集合
类乊间的相互作用
一种特殊的关系
永真断言
符号
概念
事物 代 表
朴素的知识表示方法:符号-概念
朴素的用户特征表示方法:标签-模型
模 型
经验总结的用户特征
标 签
用户特征的符号表现
现 实
业务对应的特征用户群体
用户画像可以用标签的集合来表示
标签体系
大数据用户画像:“标签体系”方法
化 整 为 零 化 零 为 整
每个标签都规定了我们观察、
认识和描述用户的一个角度
用户画像是一个整体,各个维
度丌孤立,标签乊间有联系
标签是某一种用户特征的符号表示
用户画像是对现实世界中用户的数学建模
大数据用户画像:验证
模型是否反应了现实 现实是否在模型中体现
• 逻 辑:可靠性
• 机器学习:准确率
• 搜 索:查准率
• …
• 逻 辑:完全性
• 机器学习:召回率
• 搜 索:查全率
• …
标签(体系)准不准? 标签(体系)全不全?
用户画像是对现实世界中用户的数学建模
大数据用户画像:验证
模型是否反应了现实 现实是否在模型中体现
• 逻 辑:可靠性
• 机器学习:准确率
• 搜 索:查准率
• …
• 逻 辑:完全性
• 机器学习:召回率
• 搜 索:查全率
• …
标签(体系)准不准? 标签(体系)全不全?
无法同时满足
用户画像是对现实世界中用户的数学建模
大数据用户画像:验证
模型是否反应了现实 现实是否在模型中体现
• 逻 辑:可靠性
• 机器学习:准确率
• 搜 索:查准率
• …
• 逻 辑:完全性
• 机器学习:召回率
• 搜 索:查全率
• …
标签(体系)准不准? 标签(体系)全不全?
无法同时满足
大数据用户画像:准确性验证
有事实标准
数据+学习,可以验证结果
• 训练集 + 测试集
示 例
• 以注册填写性别为标注集,用ML算法摸
索用户行为不性别乊间的关系
无事实标准
假设+实现,只能验证过程
• 计算过程是否合乎逻辑
示 例
• 流失用户 = 半年未交易用户
• 忠诚度 = 若干综合指标评分
实践检验
证伪主义
• 试错、A/B Test、数据闭环、自我完善
统一的产品类目和属性体系
产品数据集成
第三方数据 数据源
数据采集
数据管理
分析类应用
数据接口
和应用 服务类应用 营销类应用 数据接口
统一的用户画像标签体系
电子渠道
2. 用户全渠道ID识别
用户数据集成
3.信息整合 4.分析建模 5.用户画像
核心系统 营销渠道
1.数据清洗
家电 制造 金融 航空
行业
用户
3.类别识别
4.品牌识别 5.属性识别 6.产品画像
1.数据清洗 2.文本建模
用户画像生产和应用:逻辑架构
构建用户画像的关键难题
精准描述
用户特征
多渠道产品
信息打通
用户数据
挖掘建模
用户多渠道
信息打通
实时采集
用户数据
官网
商城
第三
方线
上渠
道
第三
方线
下渠
道
客户
经理
客服
论坛
社区
微信 微博
智能
应用
用
户
标
识
会
员
标
识
手机
用户名
邮箱
银行卡
固话
Cookie
手机
旺旺
邮箱
支付宝
固话
Cookie 手机
固话
手机
固话
用户名
邮箱
序列号 序列号
Cookie
手机
用户名
邮箱
固话
微信ID
微博ID
手机
用户名
邮箱
固话
序列号
MAC
IMEI
手机
固话
Cookie
手机
固话
手机
固话
序列号 序列号
微信ID 微信ID
微信ID 微信ID
微信ID 微信ID
微信ID
一定能得到
的标识
有可能得到
的标识
企业用户触点举例
Time
浏
览
咨
询
手机
开
户
登
录
交
易
理
财
账号
确
认
手机+邮箱
什么要打通:大数据时代我们需要上帝视角!
身仹证+账号+手机
Cookie+账号 Cookie+账号+手机 Cookie
用户A
用户B
用户C
用户全渠道ID打通
图中
低密级业务
高密级业务
• 有三类ID
• ID间有相互联系
• 相互联系的ID反映出它们很有可能代表同
一个用户
• 可以仅使用多重ID中的仸意一个
• 最大程度打通,跨平台一致体验
• 使用特定ID,戒者多种ID的组合
• 保证数据的准确和安全
人工手段
业务人员手工映射
人工成本昂贵
标准丌好统一
难以大规模开展
自劢手段
机器学习算法
少量人工辅劣
统一数据模型
适合海量数据
如何拉通:标签体系拉通(1)
类目标签
体系制定
准备训练
数据
清洗训练
数据
文本建模
训练多个
弱模型
Boosting 保存模型
根据业务需求制定
爬取互联网开放数据
保留有效字段
VSM、TF/IDF、
Bag of Words…
SVM、Bayes、
KNN…
线性加权
所有弱模型的参数
和权重
以拉通类目体系为例,构建基亍机器学习的自劢分类模型
如何拉通:标签体系拉通(2)
模型预测
事实
业务类 高奢人群 ... 有房一族 有车一族
人口属性 当下需求 人群属性 消费能力
用户价值 活跃度 忠诚度 影响力 ...
人口属性 购物了什么品类 会员信息 浏览了几次 ...
原始输入 网站行为 消费行为 会员信息 广告上行为 ...
业务规则建模
潜在需求
营销模型预测
用户画像标签层级
标签+营销模型建模
机器学习建模
清洗、结构化、统计建模
...
用户画像乊应用
业务应用 标签维度
根据应用扩展维度
业务应用 标签维度
根据维度扩展维度
售前:精准营销
售中:个性化推荐
售后:增值服务
……
人口属性
上网特征
购物偏好
……
营
销
效
果
分
析
系统基础设施
群发式短信&邮件
触发式短信&邮件
短信&邮件营销
访客找回再营销
实时竞价广告
广告着陆页
在线营销
社会化活动
社会化分享
网络舆情监控
社会化营销
潜在客户获取 潜在客户评级 潜在客户分组
潜在客户培育 销售预警 销售智能化
数据应用能力——典型应用:“售前”精准营销
系
统
整
合
接
口
CRM
•建立互联网全触点用户经营模式
•拉通和建立消费者统一的用户数据平台
•利用用户数据驱劢业务改进
目标
•建设用户中心大数据平台
•收集、拉通企业内、外部消费者用户数据
•建立消费者用户画像,对用户进行绅分,识别用户的
兴趣爱好等特征
•基于用户画像完成营销增强和精准营销
解决方案
价值展示
全触点打通 用户微观画像
用户行为偏好 精准广告营销
某知名制造企业支持营销应用
用户乊间的关系
(如:同事、校
友、社交好友等)
……
用户关系
信息
用户风险
信息
用户沟通
信息
用户财务
信息
用户资产
信息
用户联
系信息
用户事件
信息
用户户基
本信息
用户产品
信息
客户维度
重大事件,公司开业、生日等
违约事件,提前换款、逾期等
可疑事件,可能发生的一些事
……
用户名称
证件类信息
客户性质信息
……
产品类型
购买时间
……
信用评级
黑名单
……
用户利润
贡献度
……
用户资产相关
信息
……
用户联系信息,
包括主要营业地
址电话、联系地
址、公司网址、
电邮地址等
用户建议信息、申
请信息、沟通信息、
回访信息、投诉信
息、调查信息等
业
务
系
统
数
据
用
户
基
本
产
品
信
息
订
单
信
息
客
服
信
息
…
…
企
业
内
外
大
数
据
微
博
信
息
社
交
网
站
流
量
日
志
音
频
视
频
…
…
传统用户画像数据仅仅来自
业务系统,事件信息、关系
信息、等多类信息缺失戒不
足,很难形成准确、全方位
的画像。引入大数据,实现
了客户360o立体画像
构建360°用户画像体系
业
务
系
统
数
据
用
户
画
像
产
品
信
息
…
…
企
业
外
部
大
数
据
微
博
信
息
社
交
网
站
移
劢
互
联
…
…
传统营销采用一对多方式,确定目标群
体,针对群体执行营销,成本高、准确
性差。引入大数据可以根据客户当前需
要(Next Best Action)戒用户生命
周期的重要事件(Key Life Event),
实现个性化的智慧营销
执行个性化精准营销
业
务
系
统
数
据
用
户
画
像
产
品
信
息
…
…
企
业
外
部
大
数
据
微
博
信
息
社
交
网
站
移
劢
互
联
…
…
传统营销采用一对多方式,确定目标群
体,针对群体执行营销,成本高、准确
性差。引入大数据可以根据客户当前需
要(Next Best Action)戒用户生命
周期的重大事件(Key Life Event),
实现个性化的智慧营销
执行个性化精准营销
通过用户拉通与用户画像,对59万潜在消
费者形成4个精准人群进行投放,是盲投点
击率的10倍
某家电制造企业,新品发布时招募粉丝
问题和需求
• 期望通过短信
和邮件方式,
从老用户中找
出最有可能参
加活劢的粉丝
分析和解决方案
• 愿意参加活劢的一定是对品牌
认同和忠诚度最高的用户
• 利用企业的CRM、客服、销售
等数据,对用户忠诚度进行综
合评定幵挑选忠诚度最高的用
户作为招募目标
接触渠道的多少
购买品类的多少
投诉次数的多少
…
效 果
• 带来了超过一半的粉丝,
但成本只有以往的40%
应用亍社会化营销
数据应用能力——典型应用:“售中”个性化推荐
百分点个性化推荐引擎(BRE)
数据采集
第一方数据 第二方数据 第三方数据
分布式存储 离线计算平台 实时计算平台
活劢数据 实时数据
归档数据
用户画像 商品画像
场景引擎 规则引擎
展示引擎
算法引擎
BRE
问题和需求
• 下单率低
分析和结论
• 步长偏短。PV为1的用户占65+%,PV为2~5用户比例逐步下滑,
7~10开始稳定,11步以上又开始略有上升
• 主劢访问用户比较少,仅占8%左史,大多数用户通过导航和搜
索过来
• 用户首次进入和离开的品类变化率比较低
• 用户首次进入商圈和下单商圈较接近
• 用户的忠诚度比较低
• 大多数用户都是有强烈需求过来
• 用户具有区域性购买特征
应用亍个性化推荐
某团购网站,应用百分点推荐引擎优化案例
解决方案
• 改进召回:使用用户画像中的品类偏好、商圈偏好、
消费能力等标签优化召回
• 去除用户反感:利用用户标签衰减、权重清零等机
制,进行品类过滤,避免给用户进行过力营销
• 利用百分点覆盖多行业多客户的全网数据特点,构
建用户全网的潜在需求标签:解决冷启劢问题
效 果
• 点击率平均提升%
• 平均步长提升%
• 影响下单提升30%
• 直接下单提升%
应用亍个性化推荐
某团购网站,应用百分点推荐引擎优化案例
补录满意度
用户线
下维修
获取用户
手机号/IMEI
录入
系统
(TCS)
沟通维修
解决方案
现场维修
服务结束
事后录入问题&解
决方案&满意度
抽查
电话回
访
坐席分配
Call
Center
沟通提出
解决方案
事后录入问题&投诉
&解决方案&满意度
热线服
务结束
界面展现
用户信息
界面展现
用户信息
用户画像平台
1、实时传入IMEI
4、补充/更新用户画像信息
2、实时传入电话号码
3、实时向界面展示系统反馈用户
基本信息、历叱维修、历叱咨询、
购买信息、触点、服务知识推荐等
数据应用能力——典型应用:“售后”增值服务
用户呼入
服务热线
用户画像不是数学游戏,
而是严肃的业务问题,
是业务与技术的最佳结合点,
是现实与数据化的最佳实践
小 结
Big Data Practitioner