用户画像–大数据时代下的用户洞察
刘黎春
SNG运营部/数据中心
May 2015
目录
用户画像体系 1
挑战及解决方案 2
用户画像挖掘举例 3
用户画像应用场景 4
SNG数据现状
人口属性
年龄
性别
地域
家乡
关系链
QQ群
QQ关系链
数据现状
移动互联网
LBS
手机APP
移动设备
手Q游戏
游戏
端游
页游
手游
社交&音乐
说说
相册
QQ音乐
增值业务
QQ会员
黄钻
绿钻
QQ秀
• QQ
• 月活跃亿+
• 最高同时在线2亿+
• QQ空间
• 月活跃亿+
用户画像体系
用户画像主要挑战
1. 如何充分利用腾讯各种丰富的数据资源及之间的联系
社交网络 用户群组 LBS日志 多媒体数据 登录IP UGC文本
2. 如何使用户画像适应各种不同的应用场景
推荐
系统
市场
营销
广告
定向
信用
评分
3. 如何高效的处理海量的用户数据(超过10亿的QQ用户,
超过千亿级别的各类日志数据)
用户画像解决方案
1. 针对不同的底层数据类型设计特定的挖掘算法,挖掘
用户的行为特征,形成底层标签。综合考虑不同数据
来源的,形成更上层的抽象用户标签
2. 建立完善的用户画像标签体系结构,从不同维度、
粒度对用户进行描述。
3. 搭建用户画像挖掘系统,基于大规模存储和机器学
习计算平台,定期对全量用户数据进行计算和挖掘,
并提供用户标签的使用和查询服务。
用户画像挖掘的基本框架
数据源
文本分类
结构数据统计
社交网络分析
LBS数据挖掘
… …
底层标签
底层标签
底层标签
高层标签
社交网络 底层标签
底层标签
底层标签
底层标签
单一数据源挖掘
标签在社交网络中的扩散
从底层标签挖掘高层标签
文本挖掘系统
QQ空间
… …
• 中文分词
• token抽取
• tf-idf
• LDA
• word2vec
文本预处理 特征提取
• logistic regression
• Kernel SVM
• Neural Networks
文本分类
针对短文本特点,利用LDA
与word2vec进行语义扩展
利用非线性分类器对神经网络
得到的特征向量进行分类
QQ群
基于LBS数据的用户画像挖掘
海量用户
上报LBS
日志
数据清洗
与汇总
LBS位置与
POI匹配
用户-POI
场景判断
用户LBS
标签挖掘
• POI类型
• 登陆次数
• 时间段分布
• 天数分布
• 居住
• 工作
• 餐饮
• 购物
工作
程序员
社交网络与用户画像
局部聚类系数:
(local clustering
coefficient)
反映用户与好友关系的稳定性
及QQ用户交友的主要目的
社团影响力
PageRank得分
1
2
3
…
反映用户在社交网络中人脉的
丰富程度或重要性
利用Pagerank算法对有向图
中的所有节点进行排序,得
到不同节点的影响力得分
根据用户间的重要
程度,将无向图转
化为有向有权重的
好友关系图
用户在社交网络中的行为反应出现实生活中的某些特质:
基于社交网络的标签扩散
好友关系
网络下的
标签传播
算法改进:
• 好友关系类型对传
播的影响
• 好友关系的稳定性
对传播的影响
算法应用:
• 用户基础属性优化
,如年龄
• 用户属性扩散,如
职业、学校等
群-用户二
部图下的
标签传播
算法改进:
• 针对QQ群的特殊场
景设计标签传播算
法,提升传播效率
和准确度
算法应用:
• 用户属性扩散,如
职业、学校等
• 用户兴趣扩散,如
文艺、体育等
不同数据源的融合 – 职业挖掘
如何判断一
个用户工作
所在的行业
思路1:根据用户加
入的QQ群文本及其
他UGC进行文本分类
存在问题:加入群只
能反专业业相关兴趣
,与职业并无绝对关
系
思路2:判断用户工
作地点,并根据工作
地点推测用户行业
存在问题:同一工作
地点可能存在多种不
同工作行业
思路3:利用同事间
好友关系网络进行行
业标签传播
存在问题:好友关系
类型比较复杂,无法
确定是否为同事
不同数据源的融合 – 职业挖掘
工作地点
该地点工作的用户及社交网络
Community Detection
(FastGreedy算法)
工作社团1 工作社团2
群文本分类
IT行业 金融行业
LBS数据挖掘
根据工作社团的特殊
性,将部分用户的行
业标签扩散给全体社
团成员
名称、简介、公告等
计算平台与系统部署
相册说说 APP文本 群文本
TDW数据仓库
操作行为 LBS数据 关系链 原始
数据层
数据处理层 结构化数据统计 文本分词 LBS与POI匹配
模型训练
与预测层
基于Hadoop,Spark和GraphLab等计算平台
无监督模型:
word2vec,
LDA,社区发现
半监督模型:
标签传播
监督模型:LR, Kernel
SVM, Random Forest
标签汇总层 不同算法、数据来源得到标签进行汇总
标签应用层 TDW 离线查询 HBase 实时查询(理论峰值40w/s)
外部数据
用户画像应用 – 广点通定向投放
用户画像应用 – 腾讯征信
偿还
历史
信用
账户
第三方
信息
身份
特质
履约
能力
社交
关系
虚拟
财产
腾讯系
用户资料
行为
(通讯/娱乐)
网络
支付
金融
数据模型
社交
数据模型
数据银行 ᅵ 机器学习 ᅵ 用户画像 ᅵ 统计学
谢谢!