招聘数据解决方案
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决方案5
落地实施方案6
招聘行业现状分析
互联网目前对招聘行业的改变,是极其有限的,只是让服务场景延伸了。和前互联网时代的“人才市场”模式相比,
现在招聘企业,在服务上,并没有实质性的提升,仍然是提供一个平台,然后把C端(候选人)卖给B端(用人
企业)。但服务场景延伸了.
1.这体现在,以前只能去人才市场找工作,现在在家
里找工作;以前只能在家里找工作,现在可以在公
交车上用手机找工作。包括新兴的“职场社交”,其
实仍然只是服务场景的改变:以前是通过中介、猎
头找工作,现在跟HR、跟CEO社交,通过相处,
熟悉后找工作。
2.招聘行业如果只是延伸服务场景,却不提升服务品
质,是迟早会被互联网市场淘汰的。
3.目前也有一些招聘企业,已经开始升级对C端的服
务品质,比如拉勾做的专车送入职者上班,比如强
制要求用人企业发布的招聘职位薪资透明,再比如
一些公司猎头给付费用户提供的一对一服务,帮他
们去完善简历。
求职者 求职者
人才市场 互联网招聘平台
招聘行业业务痛点分析
互联网给人类最大的财富就是前所未有的前沿实时资讯,所以互联网对招聘行业服务品质的提升,最终必然也
是依靠资讯的处理。
痛点分析
服务品质与
80,90后的
需求相去甚
远
招聘企业无
法给求职者
提供深度行
业资讯。
招聘企业只
是简单的中
介和信息聚
合者
求职者心慌,
无法找到合
适工作
服务痛点
信息痛点
模式痛点
需求痛点
为什么要引入大数据处理技术
移动互联网时代,新业务/新商业模式不断涌现,极大的丰富了人们生活,随之带来的是各种形态业务数据的爆发式增长;新形势下的数据仓库不再局
限于传统的经营决策统计分析报表,而是要改变运营方式、提供符合新业务/新商业模式的运营支撑能力;传统数据仓库技术难以满足高速增长的海量
数据的处理要求,迫切需要引新的技术来提升支撑系统的能力。
大数据特点
1.高端集中式存储设备扩容成本高
2.高端集中式计算小型机设备扩容成本高,且难
以扩展
传统数据仓库挑战
1.结构化文件数据采集和处理能力有限
2.缺少非结构化网页数据的采集和处理能力
1.海量数据分析及时性难以保障
2.缺乏实时消息/信令数据的采集和处理能力
1.应用多为统计分析报表,数据价值有限
2.缺乏实时商业机会捕捉和处理能力
数据量巨大
处理速度快
数据多样化
商业价值高
1.基于廉价X86服务器的Hadoop和MPP数据库的分布式存储和计算
技术,降低投资成本,保障长期的可扩展性
大数据解决方案
1.基于Hadoop的云化ETL技术,实现海量结构化文件数据的采集和
处理
2.基于Hadoop的网页爬取技术,实现非结构化网页数据的采集与解
析
数据库技术,实现大规模数据的并行处理
2.流处理/内存数据库技术,实现消息/信令数据的实时采集和处理
1.基于Hadoop的分布式数据挖掘技术,实现从海量数据中挖掘更深
的价值
2.基于流处理和复杂事件处理技术,及时捕捉商业机会,并基于预定
义的策略,执行相应的运营动作
观点1:大数据是一种正在进行的业务转型
大数据是互联网经济的主要支撑模式,强调以数据先行的方式孕育创新,平台技术
以适应变化的方式支持业务发展。数据驱动业务是终极目标。
1.大数据概念席卷了各个领域,造成了传统经
济阵营的一种恐慌。但是,这种恐慌的根源
并非来自大数据,而是背后充满活力、高速
发展的互联网经济。
2.因此,我们无法仅仅借鉴大数据的细枝蔓藤,
应用一两种新技术、或模仿建设某一种平台
来根本上消除这种差距。
3.从业务角度看,出路在于向数字时代的商业
模式转型。
观点2:大数据同时是一种技术革新
软件发展趋势
海量数据处理、实时、智能,既关注群体规模又关注个性化,是商业模式对
大数据技术发展的主要诉求。业界软硬件平台总的发展方向,可以总结为两
点:更高的处理性能、以及更多的细分领域。
灵活、松耦合的设计,适应业务变化
分布式架构,充分利用网络的力量
混搭,以最合适的技术支撑业务
云化,将分散的设备资源聚合
善用内存、闪存和高带宽,这些设备发
展速度远远超过CPU
虚拟化,适用于需要将资源分隔使用的
场景
硬件发展趋势
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决分析5
落地实施方案6
招聘行业大数据需求分析—求职端需求
• 智能招聘的入口和核心,
高成功率的智能匹配
• 根据用户基本属性与行
为,进行精确推荐
简历
智能
优化
一键
求职
智能
推荐
个人
求职
里程
核心需求
之求职端
• 结合求职反馈与招聘需
求,提供简历智能优化
• 记录个人求职里程,形
成求职基因分析库
1
2
3
4
针对求职端而言,亦是求职者,他们急需能够快速的找到合意的工作;求职者也需要了解自身在求职过程中的
得失。求职端的信息需求主要表现为对工作机会的精确推荐需求以及有效清晰的掌控求职过程。
招聘行业大数据需求分析—企业端需求
HR端的智能
匹配功能 HR智能
SaaS系统
求职者
诚信评价
对于企业端而言,大数据驱动的招聘平台能够提供它们针对HR工作的全面解决方案。基于该解决方案不仅能够
获取优秀人才而且能全面掌控人才动态,生化HR工作。
• 智能匹配、高
精度算法、
数据分析推
荐。
• 依据求职者的
求职经历结
合
HR反馈形成统一
的诚信指
标评价体系
,对HR工作提
供决策支持
招聘行业大数据需求分析—增值需求
• 构建社会诚信体系
• 支撑社会治理工作
• 信息服务
• 征信支撑
• 信息服务商
• HR服务大脑
数据价值
变现需求
社会服务
需求
核心竞争
力提升
另外结合内外部数据,招聘大数据还可实现变现,数据直接产生价值,亦即是增值服务。
招聘行业大数据需求分析—技术更新需求
部分数据
开放
实时/近实
时
封闭
延时
报表/KPI
“大” 数据
更深入
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决分析5
落地实施方案6
对内数据价值提升—构建数据分析与数据可视化平台
大数据基础平台
人才画像 人才雷达 数据智能
自有数据 网络爬虫
PYMK 人才测评
对外数据直接变现—构建大数据信息服务平台
大数据平台
信用评估
数据服务
人才
动态监控
社会治理服务
对于外部合作厂商而言,基于自有大数据基础平台,可推出信用评估数据服务、人才动态监控、社会治理服务。
自有数据 网络数据 交换数据
数
据
生
产(
价
值
挖
掘)
数
据
消
费(
价
值
变
现)
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决分析5
落地实施方案6
大数据平台的建设原则
技术-按需频度的数据获取
批量和实时数据采用不同的技术手段和工具,遵循统一的文件接口标准
技术-多样化数据共存
跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载
数据-数据即服务
业务人员通过逻辑数据对象组件访问数据,而不用关心数据的物理存储方式。
通过数据组织与前端应用功能,使业务人员可以较容易、较快地定位和了解数据
的内容。
数据-数据质量控制
通过一系列的技术和业务手段实现数据集成平台数据质量控制,主要体现在
数据正确性(技术)、完整性、一致性(业务)、有效性。
大数据平台的分层体系
大数据平台的总体架构
大数据平台的功能结构图
数据查询 数据统计
信息检索
数据分析
语义分析 数据挖掘
经营管理 人才画像
市场口碑 人才雷达
决策支持 用户服务
大数据总体数据处理流程
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决方案5
落地实施方案6
目录
1 2 3
基础平台 数据分层规划 应用技术方案
关键技术分析
核心技术路线—基于Hadoop生态圈
数据采集技术方案
分布式网络爬虫 分布式文件系统
分布式存储
横向扩容(Scale-out) 架构
分布式软件架构
并行计算框架
Hadoop技术体系与MPP的集成思路
目录
1 2 3
基础平台 数据分层规划 应用技术方案
大数据平台数据分层:分级存储
数据分级存储原则 数据融合与分级存储实施
按数据血缘按逻辑层次 按业务种类
按设备网络划分 按设备物理地址
在线、近线、离
线
按访问频
度
内存数据库
按响应
及时性
内存数据库
数据生命周期中在线数据对高性能存储的需求,以及随
着数据生命周期的变更,逐渐向一般性能存储的迁移,
是分级存储管理的一条主线。同时兼顾考虑其他分级原
则,共同作用影响数据迁移机制。
基于生命周期
基于访问压力
基于业务用途
基于物理属性
分级原则
高性能
磁盘库
磁带
光盘库
中低性能
磁盘库
将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库
的核心模型中,减少数据冗余,提升数据质量。
将主数据仓库(MPP)中的历史数据和冷数据迁移到低成本分布式
文件系统(hdfs),减轻MPP数据库的计算与存储压力并支撑深度
数据分析。
数据 数据 数据
1、核心模型融入MPP数据库
基础资源库基础资源库
2、历史数据迁移到hdfs
HadoopHadoop集群集群
大数据平台数据分层:数据分层
Hadoop平台
传统关系数据库
报表
数据
元数
据
管理
数据
临时数
据
……
信息子层
各业务平台接口数据
非结构化数据
信息子层:报表数据、管理数据、元数据等
数据来源于汇总层和ETL过程。
高度汇总层:主题域之间进行关联、汇总计
算。汇总数据服务于信息子层,目的是为了
节约信息子层数据计算成本和计算时间。
轻度汇总层:主题域内部基于明细层数据,
进行多维度的、用户级的汇总。
明细数据层:主题域内部进行拆分、关联。
是对ODS操作型数据按照主题域划分规则进
行的拆分及合并
ODS层:数据来源于各生产系统,通过ETL
工具对接口文件数据进行编码替换和数据清
洗转换,不做关联操作。未来也可用于准实
时数据查询。
明细数据层 (DW)
轻度汇总层(MK)
高度汇总层(MK)
分析
支撑
精准
推荐
应用库
分布式数据库MPP
信息
服务
应用层:应用系统的私有数据,应用的业务
数据。
关系库做为大数据平台的一个上层应用,由
大数据平台提供数据支撑
数据
访问
SQL
FTP
HQL
API
ETL
数
据
采
集
E
T
L
互联网
视频
非结构化数据非结构化数据
系统1
系统2
APP
外围系统
合作系统
其他平台
结构化数据结构化数据
数据源获取层
1 2
1
2
3
3
4
4
大数据平台数据分层:数据处理流程
① 源数据导入ETL,进行数据的清洗、
转换和入库。
② 基础数据加载到主数据仓库,规划
保存3年
③ 清洗、转换后的ODS加载到分布式
数据库规划保存1+1月,在分布式
数据库内完成明细数据和轻度汇总
数据加工生成,规划保存2年
④ ODS数据和非结构化数据,如爬到
的网页数据ftp到Hadoop平台做长久
保存
⑤ 非结化数据分析处理在Hadoop平台
完成,产生的结果加载到分布式数
据库
⑥ 生成KPI和高度汇总数据加载到主数
据仓库。
Hadoop平台
主数据仓库
报表
数据
标签
库
客户
统一
视图
……
信息子层
话单数据
非结构化数据
明细数据层 (DW)
轻度汇总层(MK)
高度汇总层(MK)
应用库
分布式数据库
MPP
数据
访问
SQL
FTP
HSQ
L
API
ETL
数
据
采
集
E
T
L
互联网
GN口
非非结构化数据结构化数据
系统1
系统2
APP
外围系
统
合作系
统
其他平
台
结构化数据结构化数据
数据源获取层
1
2
3
4
6
5
⑦ 业务应用通过数据访问接口获取所
需求数据。
7
分析
支撑
精准
推荐
信息
服务
指标
数据
大数据平台数据管控思路
目录
1 2 3
基础平台 数据分层规划 应用技术方案
数据应用思路—人才画像
职业背景:利用文本挖
掘技术从用户的社交账
户中获取其教育经历和
从业经历,以此来判定
其职业背景,
工作地点:根据其
Cookie地址,历史填
写信息、言论等多维度
判别,可以了解该被推
荐人合适的工作地点
好友匹配:社交关系也
是判断一个人职业能力
的因素之一。
求职意愿:用户在网络
上的言行有一些明显暗
示或变化时,可能表示
其将要转换职业方向或
离职。
性格匹配:依据人类行
为语言学,将其在网络
上的抽象言行转换为对
应的性格特点。
信任关系:通过对用户
社交网络的分析,判断
出招聘者到达用户的最
有效关系链和这个层级
中用户之间的信任关系,
职业倾向:用户在社交
网络上的行为表现将有
助于系统判别其对职业
的符合程度是否与其个
人描述的职业愿景相符
行为模式:例如发微博
的时间规律,在专业论
坛上的时间长短,这些
行为模式可以用来判别
其工作时间规律,
数据应用思路—构建基于人才画像的PYMK体系
数据应用思路—推荐系统
通过大数据分析、匹配、推荐基于人才画像,让HR不再为搜索和筛选简历浪费时间,通过机器在亿级简历库中
匹配合适简历,企业只需对合适简历批量发起约Ta邀请,按效果付费,有意向面试才产生收费。
数据应用思路—人才测评
可考虑接入专·业的测评公司, 包括(适职能力,销售素质,领导力,认知力),多维度评估候选人。
数据应用思路—征信服务
简历认证
(生成简历征信报告)
信用视图
大
数
据
服
务
平
台
岗位胜
任力
对
外
数
据
交
互
平
台
考拉
征信
个人诚
信
用工成
本
法律风
险
芝麻
信用
其他
征信
求职者 外部合
作机构
对于职场人士来言,个人信用得分或将成为未来求职的重要考量指标之一,也是能否在职场赢得尊重、获得长足发展的重要品
质。个人的信用不仅仅体现在金融、消费、生活理财等方面,也要注意,在线社交平台上的个人信息也可能对自身的信用造成
影响。大数据平台与技术进入人力资源行业做个人职业征信与职业信用体系建设。
目录
背景分析
需求分析
1
2
总体架构4
产品思路3
技术解决分析5
落地实施方案6
总体实施蓝图
第一阶段:
应用场景驱动
的大数据开发
第二阶段:
各业务系统、
各渠道系统等
配合大数据改
造优化
第三阶段:
管理信息体系
下的大数据平
台建设
第四阶段(目
标):
以大数据驱动的,
实时的、整体联
动的IT解决
方案
Think big, start small.
大处着眼,小处着手。
大数据实施方法论
大数据业务
战略
大数据建设目标 大数据架构设计 大数据实施 大数据运维
企业战略目标
业务目标
业务模式
大数据治理目标
应用场景
服务模式
服务对象
大数据服务定义
大数据信息模型
大数据管理定义
技术选择
验证测试
容量规划
安装,配置
验收测试
系统上线
大数据服务管
理
服务性能管理
生命周期管理
资源调度
系统监控
大数据持续改进
业务调整 服务改进 技术升级 架构优化
实施阶段划分
大
数
据
平
台
业
务
部
门
数据查重
异常值/缺
失值处理
选择分析
方法
标签/报告
输出
营销实施
数据收集
第一阶段
需求分析 数据筛选 数据处理 数据挖掘 营销建议
数据源
业务需求
需求/数据
确认
数据提取
建立模型
调整与优
化
模型理解
与建议
业务意见
输入
第二阶段
数据挖掘 营销建议数据提取
数据源
数据提取 数据整合
数据分析
数据发现
业务建议
业务策略
调整
数据收集
资源投入评估
• 从大数据中掘金需要具备两个条件:大数据的核心并不仅仅是你拥有多少数
据,而是你用这些数据产生了什么样的价值
• 我们需要建设两个团队:
– 核心技术团队:负责大数据平台核心技术研究和跟踪,以及大数据价值挖掘工作
– 大数据运营团队:负责应用大数据,将已挖掘后的数据实现最终价值转换。
数据处理平台+应用解决方案
团队构成 职责分工 人力资源预估
核心技术团队
基础平台研发 10
数据挖掘 5
数据应用开发 5
大数据运营团队
产品经理 2
产品运营 3
25人
(前期投入)
阶段进度计划
1
落地服务器
落地数据库
整合现有数据
2
设计调查问卷
第三方数据补充
构建人才画像
3
测试与应用
营销应用
优化模型
4 人才推荐系统
优化模型
5
多数据类产品
数据可视化应用
信用分析体系
1个月(数据
准备)
3个月(数据
补充&建模)
6个月(模型
成熟应用)
12个月(应用
扩充)
24个月(数据
驱动业务)
谢谢!