机器学习在美团用户画像中的应用
付晴川
fuqingchuan@
2015-11-21
3W
什么是用户画像?
为什么要做用户画像?
如何做用户画像?
什么是用户画像?
什么是用户画像?
什么是用户画像?
数据签化
为什么需要用户画像?
为什么需要用户画像?
• 用户体
验
• 自动化
• 营收提
升
• 运营效率
用户 商户
工程
师
美团
在对的时间获取对的服务! 获取更多的潜在优质客户!
更精准高效的活动策略制定
!
数据应用接口标准化/通用化
!
如何来做用户画像?
架构
• 特征
• 模型
算法
实践问题
架构 – 系统概览
架构——细节解读
M
T
d
m
sp
a 项目 统一特征提取框架
动机
1. 多工程师/多个模型“自给自足”,特征分
散。
2. 存在人力/计算资源冗余。
实现
1. 特征统一提取/集中存储——大一统特征库。
2. 支持no-coding/配置化提特征。
效果 1. 建模周期: 3~4周下降到1~2周。
2. 人力/计算冗余减少2倍(估算值)
架构——细节解读
M
T
u
tv
s系
列
项目 用户画像统一接口多系统项目
动机
1.数据挖掘成果需要友好统一的输出接口:
可视化+API
实现
1. 用户标签体系WEB可视化
2. 用户标签索引/实时查询
3. 报表自动化
效果
1. 成果推广加速/沟通成本降低
2. 传统用户问卷调查报报告周期1个月,
utvs系统10分钟!
算法 – 用户特征
需要做横跨多个产品线的特征提取!
算法 – 用户特征体系
用户特征体系
一级/业务
基本
团购
外卖
酒店
电影
上门
……
二级/行为
注册
登陆
浏览
下单
搜索
收藏
评论
消费
分享
LBS
……
三级/时间
年
月
日
周
早
中
晚
周末
工作日
节假日
……
+ 每
+ 最近
自由级/可选
品类
品牌
词条
…
M x N x K x L = ? 特征膨胀
算法 – 用户特征
算法 – 用户特征
算法 – 特征与效果实例
用户职业标签: 学生身份识别
算法 - 问题及常用模型
实践 - 问题及常用模型---实例
模
型
实
例
一
项目 有车一族标签挖掘
需求
1. 汽车服务推广活动需要精准圈定有车人群降低营销
成本。
实现
1. 样本:问卷调查正样本+随机负样本
2. 特征:信息增益特征离散化+卡方/信息增益/互信息
等特征选择
3. 模型: try SVM/MaxEnt/LR => SVM
效果
1. 离线评测:P93%,R85%
2. 线上对比:推送打开率提升3倍,下单率提升5倍
!
实践 - 问题及常用模型---实例
模
型
实
例
一
项目 常住地标签挖掘
需求
1. 决策支持:酒店需要分析用户下单与地域关
系,决定是否上异地推荐模块。
实现
1. 样本:问卷调查
2. 模型: try LR/SVM/RF/GBDT=> LR
3. 多个LR模型组合
效果
1. 离线评测:P96%, R73%
2. 线上对比:新上异地模块点击率超越历史最佳
“名店抢购”1个百分点!
实践 - 关于算法工程师的段子……
理想中的算法工程师
提出假设->收集数据->训练模型->解释结果
实际中的算法工程师
提出假设->收集数据->预处理->预处理->训练模型->调试->调试->
重新收集数据->预处理->收集更多数据->调试->调试->调试->…>
放弃
实践 - 分享:那些年踩过的坑……
目标效果 现实效果
分享一
数据挖掘的天花板实数据本身!
ToDo:努力逼近这个效果而不是较劲
!
实践 - 分享:那些年踩过的坑……
分享二
实际应用中特征作用远大于模型!
ToDo:在深度优化模型之前,先榨干数据特
征的增益吧!特征至少带来80%+的收益。
模型 特征
浏览次数
消费频次
下单品类
搜索分词
LR
SVM
实践 - 分享:那些年踩过的坑……
分享三
关于样本:样本少/不均衡! ToDo:1) SVM或TSVM, 2) under sampling/over sampling/SMOTE。
不均衡
?
实在无样本:
可以考虑随
机+规则过滤
方法挑样本
!
Smote要用
到KNN,高
维不靠谱!
收集样本才
是王道!
实践 - 分享:那些年踩过的坑……
分享四
训练集特征分布和自然待测数据不一致。
ToDo:特征如果跟Label有直接关联就
不要用了。
建模训/测效
果好的离谱
自然结果一
塌糊涂
实践 - 分享:那些年踩过的坑……
分享五
不要有把锤子,就把所有的问题当钉子。
ToDo:多了解模型的优缺点,选择合
适的模型!
考察
点
分类/回
归/…
样本大小
异常点敏
感度
效果/性
能
tradeoff
容易过拟
合?
线性/非
线性
Q&A
The mere formulation of a problem is far more essential than its
solution.
--Albert Einstein
Thank You !