机器学习@美团
——吃喝玩乐中的算法问题
•O2O行业及美团简介
•机器学习在用户端的应用
•机器学习在商户端的应用
•算法应用八大“坑”
概要
背景
算法应用
总结
什么是O2O?
O2O (Online to Offline)
= 本地服务(LBS) + 线上连接
通过信息流动,减少物理流动
平台
用户需求信息结构化
来源:TalkingData及品途网 2014 O2O移动应用行业报告
O2O�行业应�用图谱
来源:TalkingData及品途网 2014 O2O移动应用行业报告
外卖
打车
电影票
频度
门票
酒店
机票
租房 挂号 美业
租�车
拼车 家政
垂直 vs.�水平(平台)
什么样的领域有机会?
用户获取成本 vs. 用户价值
渗透率
团购
买房
微信
刷牙
All That Is Solid Melts into Air.
—— Karl Marx
猫眼电影 �
国内最大的电
影分销商 �
美团外卖 �
国内最大的外
卖平台 �
美团简介
美团团购 �
�
国内最大的本地生
活服务电商平台 �
美团酒店 �
国内第二大酒店
分销商 �
消费频度 vs 行业深度
O2O vs 网络电商
共同:双边市场
差异:LocaEon based,
消费距离受限
O2O的特点
市场规模大、增长速度快
懒人经济:质优价廉
低价格 高品质
低成本 高效率
低毛利 高科技
200
0
1000
800
600
400
1400
1200
2010 2011 2012 2013 2014 2015e
美团网交易额(亿元)
2014年12月:美团网拥有1亿多活跃移动用户,
移动端贡献>90%的交易额
80
70
60
50
40
30
20
10
0
2011 2012 2013 2014
美团移动交易占比
移动化
da
y:
1
da
y:
3
‐
3.
5
da
y:
5
‐
10
0h
r
3h
r
6h
r
9h
r
12
hr
15
hr
18
hr
21
hr
%
%
%
%
%
%
电影
酒店
美发/美容/美体
美食
摄影写真
生活服务
休闲娱乐
运动健身
所有品类
分品类持券时�长
%
4000
3500
3000
2500
2000
1500
1000
500
0
北 广 天 福 杭 无 合 成
京 州 津 州 州 锡 肥 都
美容美发
休闲娱乐
生活服务
运动健身
摄影写真
电影
酒店
美食
场景化、即时化
分品类持券80%距离
4500
美团持券时�长及消费距离
用户
• 个性化
• 场景化
• 即时化
O2O平台
商户
• 动态触达用户
• 提供丰富产品
平台
• 获取用户/商户
• 匹配供给需求
传统模型:边际收益递减
平台模型:双边市场的网络效应=》边际收益递增 =》平台价值
平台:�用户端
吸引访
问/再访
• 自然流量
• 站外广告
• 主动推送
促成购
买
• 信息聚合
• 用户行为引导
• 运营拉新
提升多
次访购
• 搜索、浏览主动
引导
• 个性化推荐
• 跨品类转新
平台:商户端
商机发现
• 销售拜访
路线优化
商家入住
及上单
• 预测可能入住商户
• 自动写单提高上单效率
运营
• 风控防刷单
• 销量预估
•O2O及美团介绍
•机器学习在用户端的应用
•机器学习在商户端的应用
•算法应用八大“坑”
概要
背景
算法应用
总结
• 运营拉新
• 推送引导
• 流量转化
用户
• 个性化
• 场景化
• 即时化
机器学习@美团
• 销量预估
• 电影票房预估
• ……
商户
• 动态触达用户
• 提供丰富产品
平台
• 获取用户/商户
• 匹配供给需求
�用户端:运营拉新
背景:首购‐>留存,吸引已注册用户完成首购
目标:少花钱,多办事
�用户端:运营拉新
方法:新用户画像 SVM分类
• 准确率:75%
• 召回率:68%
效果
• 拉新单位成本下降35%
单位用户营销成本=总花销/总新客数
• 总开支节省30%
选择对象
•选择准
则优化
�用户端:推送引导
背景:对不活跃用户发个性化推送消息,提升访问及购买
目标:提高用户转化,减少打扰用户
方法:
效果:有效降低了对用户的打扰。
发出消息
•目标:发出率
•固定时间拉取改
为灵活推送
•发送时机优化,
考虑用户的历史
联网时间,当前
位置
发出率提高100%+
打开消息
•目标:打
开率
•动态文案
(todo)
打开率提高21%
浏览/购买
•目标:转化
率
•类似推荐的
优化方式,
提高访购率
综合转化率提高94%
�用户端:流量转化
搜索
浏览
推荐
意图
强度
流量
规模
用户偏好
�用户端:流量转化
场景
位置 快速交互
�
�
�
�
�
�
首页推荐 �
个性化数据 �
�
�
�
�
同义词挖掘 �
�
专名识别 �
�
新词识别 �
�
user � profile � 挖
掘 �
�
deal/poi �
profile � 挖掘 �
�
query/deal � 的
topic � model �
�
…… �
�
�
�
评估框架 �
�
模型训练 �
�
数据清洗 �
�
特征抽取 �
�
数据流 �
�
…… �
�
推荐和搜索框架的统�一
搜索推荐平台
Poil化列表浏览 �
人工规则干预 �
CTR � model �
相关性模型 �
Query � Retrieval �
通用数据 �
Query补全 �
排序机制 �
Action � model �
业务规则 �
User � Retrieval �
关系数据 �
应
用
层
排
序
层
模
型
层
准
入
层
触
发
层
数
据
层
Flume
AgentImpression
Log
Order/Click
Log
Deal DB
Control Service
Model 1
Model 2
…
API
Online
train
feature
Labeled Data
Offline
train
服务架构演进
feature
monitor
�
�
�
�
�
高度可配置 �
LR � SVM �
API � Command �
应
用
层
模
型
层 �
�
选特
择征
一特
化征
归
Chi squared
Standard �
Topic �
Model � GBDT �
Mutual InformaEon �
MinMax �
分级日志 �
模型评估 �
基于spark的离线训练平台
美团搜索
历史查询词
查询补全 结果页
搜索系统实践
数据获取时效性
清洗提高准确性
基础数据获取
查询引导
同义词挖掘
团单品类映射
查询分析
系统架构调整
增加吞吐量
改进协议
架构支撑
特征工程
LR + GBDT
融合效果
重排序
实时品类偏好
实时下单位置
模型在线更新
实时化
分词/归一
化 �
查询纠错 �
语义扩展 �
意图识别 �
查询分类 �
紧密度计算 �
Term赋权 �
召回及 �
排序策略 �
Query � suggestion �
相关搜索 � 热搜词 �
用户查询自然语言化 �
检索基于字面匹配,缺乏语义
扩展 �
语义漂移 �
查询分析
查询分析面临的问题 �
用户意图多元化 �
• 精确/模糊查询 �
• 领域多:寻找吃喝玩乐,购物,旅
游,住宿… �
策略类型 �
及占比 �
商 �
家 �
品 �
类 �
商 �
圈 �
地 �
标 �
酒 �
店 �
旅 �
游 �
商 �
品 �
电 �
影 �
复合
意图
�
其 �
他 �
改进前 � 12%
�
8%
�
� 3%
�
� � � <1%
�
� 76%
�
改进后 � 21%
�
17%
�
7% � 5%
�
6%
�
<2%
�
<1%
�
4% � 9% � 28%
�
意图识别 �
搜索意图歧义示例及解决方案 �
找门票还是酒店? �
�
通过意图分类,将“旅
游”意图的POI排序提前 �
团单品类细分 �
品类内差异对用户造成的困扰 �
“咖啡/酒吧/蛋糕”在后
台配置为同一个类目下的
品类 �
通过文本分类拆分子品类,
或者说打标签 �
人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满
足用户精确品类检索的意图 �
美团频道筛选
groves
频道筛选实践
数据清洗
在线获取训练
所需特征
数据及特征工程
使用位置信息
引入排序模型
粗排序
新单推荐
使用位置信息
冷启动
Additive
使用位置
分品类细化
重排序
实时品类偏好
实时下单位置
实时特征更新
实时化
poi‐user特征
•当前距离
•历史距离
•最近点击/下单/支付
•历史点击/下单/支付
deal特征
•CTR/CVR
•CVR
•折扣力度
•是否新单
•是否促销
deal‐user特征
•商圈
•品类
•价格
user特征
•终端类型
•地理位置
•消费水平
•品类偏好
•CPR
重排序:特征
poi特征
•#评论数
•#有图评论/优质评论
•CTR/CVR/CXR
rank � Additive �
Groves �
数值类特征 �
详情页特有特
征 �
列表页特有特
征 �
GBDT � LR �
重排序:框架
数据实时化
• 预测结果随数据更新而变化
• 2小时销量数据
• 2小时内数据预测用户实时偏好
• 进入列表页请求用户地理位置,下单率提升3%
• 模型天级更新
• Online learning继续尝试中
美团推荐
其他展位:
搜索无结果推荐,购买后推荐,评价后推
荐,附近推荐
推荐系统实践
user/ item cf
相似性调整
经典算法改进
销量预估
用户分群
地理位置偏好
冷启动
附近热单
异地浏览
时间上下文
上下文筛选
LR
GBDT
融合效果
重排序
特征实时化
偏好实时化
算法实时化
实时化
hap://
�用户冷启动
• 行为少,找不到有意义的相似用户
• LocaEon,locaEon,locaEon
• 基于地理位置计算用户相似性:作为替
补策略,效果一般
• 浏览地附近热单,作为上下文信息使用
20
14
06
09
20
14
06
10
20
14
06
11
20
14
06
12
20
14
06
13
20
14
06
14
20
14
06
15
20
14
06
16
20
14
06
17
20
14
06
18
20
14
06
19
20
14
06
20
20
14
06
21
20
14
06
22
20
14
06
23
20
14
06
24
20
14
06
25
20
14
06
26
20
14
06
27
20
14
06
28
20
14
06
29
20
14
06
30
加�入context
baseline hot_for_local
• 附近热单
• “本地人热单”
• “本地热单”
下单率
浏览
推荐
意图
强度
流量
规模
�用户端:流量转化
统一框架,快速迭代,经验共享
搜索
商户端:不仅是算法挑战
训练数据规模小
标注标准复杂主
观
单用户特征不可
用
多团队合作
挖掘可扩展的特征
采用非线性、鲁棒模型
复杂目标进行模型分解
交叉验证减少噪音
人机结合提取稳定因素
使用用户统计特征
协调各方预期和利益
团购单销售额预估
背景:在线deal数量众多,需要关注deal的质量
目标:评估deal的质量
方法:
分解问题
• 以销售额来代表质量
• 再分解销售额
hap://
根据问题特征/模型并迭代
效果:
1. 访购率预测准确率(R2):
2. 价格特征权重符合产品预期
挑战:
电影票房预测
背景:电影票房预测数据可以
指导片方发行/院线排片
目标:得到可用票房预测
机遇:
猫眼30%+市占的数据
用户其他行为及消费记录
东西方人情世故不同
演员/导演的名气不靠谱
度量搜索/社交媒体效果不理想
•O2O及美团介绍
•机器学习在用户端的应用
•机器学习在商户端的应用
•算法应用八大“坑”
概要
背景
算法应用
总结
学习算法应�用�八�大 “坑”
确实需要上算法么?
星际可以穿越,但特征不能!
算法一定要酷炫
算法准确率不到90%就是耍流氓?
重算法、轻速度(响应速度/迭代速度)
上线就是大功告成
线上AB定�一切
统计分析实时化