收稿日期:2011-11-10;修回日期:2012-02-16
基金项目:安徽省省级青年人才基金项目(2011SQRL167)
作者简介:洪海燕(1983-) ,女,硕士,讲师,研究方向为谱图理论及
其应用。
基于贝叶斯分类器的简历筛选模型
洪海燕
(安徽大学 江淮学院,安徽 合肥 230031)
摘 要:现代社会网络招聘兴起,为社会、企业节省了不少物力、人力、财力,但如何快速、简捷地从众多的电子简历中找出
符合要求的简历又是一个让人头疼的问题。文中在贝叶斯网络的基础上,分别从朴素贝叶斯分类器和 TAN分类器角度,
构建一个基于贝叶斯分类器的电子简历筛选模型,并通过实验验证该模型对电子简历进行分类时的准确率和查全率,且
引入一个新的评价指标 f同时考虑准确率和查全率,得出没有属性变量相互独立限制的 TAN分类器具有较好的分类效果
的结论。
关键词:贝叶斯网络;贝叶斯分类器;朴素贝叶斯分类器;TAN分类器
中图分类号:O212. 8;TP391. 1 文献标识码:A 文章编号:1673-629X(2012)07-0085-03
Screening of Resumes Based on Bayesian Classifier
HONG Hai-yan
(Jianghuai College of Anhui University,Hefei 230031,China)
Abstract:To be on the upgrade of network recruitment in the modern society,it saves a lot of material,human and financial resources for the
community. But it is a problem to find qualified resumes from electronic resumes quickly and simply. In this paper,construct the screening of
electronic resumes on Bayesian network from the Nave Bayesian classifier and tree augmented Nave Bayesian classifier. Then discuss the
precision and recall of Bayesian classifier model through experiment,and bring a new evaluation index f. Finally,TAN classifier has good
classification results.
Key words:Bayesian network;Bayesian classifier;Nave Bayesian classifier;TAN classifier
0 引 言
现代企业的人员招聘途径已经越来越多,网络、招
聘会、校园招聘等等,为招聘单位提供了大量的人才信
息。在众多的招聘方式中,简历筛选成为很重要的一
个环节,尤其是网络招聘。文中结合实际,在贝叶斯网
络基础上,构建一个简历筛选模型。
1 贝叶斯网络基本概念
贝叶斯网络属于概率网络范畴,是用于处理不确
定性知识与数据的表达与推理的模型,是目前社会处
理不确定信息技术的主流[1]。贝叶斯网络基本上由两
部分组成:首先具备一个有向但无环的图形结构 G,
其中图形中的每一个节点表示一个变量,节点与节点
之间的有向弧刻画了变量与变量之间的依赖关系,图
形中节点 X的父节点指的是指向 X 的所有节点;其次
必须具备与每个节点相关的条件概率表,此表中需列
出节点相对于其父节点的所有可能的条件概率,以表
示不同信息之间的影响程度[2 ~ 5]。
在贝叶斯网络中,把节点 Xi 的所有父节点作为条
件,并且规定节点 Xi与任意一个非 Xi子节点的节点条
件独立,按照变量之间相互独立的性质,有 m 个节点
的贝叶斯网络的联合概率分布为[6]:
P(X1,X2,…,Xm)=∏
m
i = 1
P(Xi π(Xi) )
其中把贝叶斯网络中 Xi 的所有父节点集合中的
变量取值后的一个组合记为 π(Xi) ;若贝叶斯网络中
Xi 恰恰没有父节点,则令 P(Xi π(Xi) )= P(Xi)。
同时贝叶斯分类亦是一种非规则分类,基本思想
是通过训练集的训练总结归纳出较适合的分类器,并
充分利用该分类器对没有分类的数据进行分类[7]。
若有一待分类的样本 D,U = {X1,X2,…,Xn,C}
表示一个离散型随机变量的集合,其中 X1,X2,…,Xn
表示为属性变量,xi 是属性变量 Xi 的取值;C 表示类
别变量,C ={c1,c2,…,cm}。则 D是属于类别 cj 的概
率为:
P(cj x1,x2,…,xn)=
P(x1,x2,…,xn cj)P(cj)
P(x1,x2,…,xn)
第 22 卷 第 7 期
2012 年 7 月
计 算 机 技 术 与 发 展
COMPUTER TECHNOLOGY AND DEVELOPMENT
Vol. 22 No. 7
July 2012
=
P(cj)
P(x1,x2,…,xn)
∏
n
i = 1
P(xi x1,x2,…,xi-1,cj)
其中 P(cj)是类 cj 的先验概率,P(cj x1,x2,…,xn)是
类 cj 的后验概率。根据贝叶斯最大后验准则,待分类
的样本 D的类标签选择使后验概率 Max
1≤j≤m
P(cj x1,x2,
…,xn)那个类别 cj 为该样本 D的类标签。
2 贝叶斯网络在电子简历筛选中的应用
基于贝叶斯分类器的简历筛选模型是以电子简历
为研究对象,通过对简历样本集进行训练,获得有用的
标识,并通过标识的划分、精化处理获得能区分是不是
合格简历的训练结果,再以此训练结果为基础构建贝
叶斯分类器,进而对电子简历进行检测,找到符合要求
的简历,淘汰不符合要求的简历。
在贝叶斯网络中把代表类别变量的节点作为根节
点,其余变量作为它的子节点,贝叶斯网络变成贝叶斯
分类器。基于贝叶斯分类器的简历筛选如图 1 所示:
图 1 基于贝叶斯分类器的简历筛选过程
2. 1 贝叶斯模型属性变量、类别变量的确定
选取某企业,获取近几年投递他们公司的简历,整
理样本。并在对简历进行学习之前,先把简历人工分
成符合要求(c1)的简历和淘汰(c2)的简历两类,避免
造成错误的学习。假设 P(c1 X)为待分类简历 X 为
符合要求简历的概率,P(c2 X)为待分类简历 X 为淘
汰简历的概率,只需 P(c2 X) < P(c1 X) ,则简历是
符合企业招聘要求的,否则淘汰。
对样本进行整理,得到的属性集如表 1。
表 1 属性变量
变量 属性 变量 属性
X1 应聘岗位 X5 毕业院校
X2 应聘者类别 X6 所学专业
X3 工作 /实践经历 X7 个人学历
X4 个人技能 X8 性别
2. 2 贝叶斯分类器的选择
现今常用的最具代表性的贝叶斯分类器主要有三
种:朴素贝叶斯分类器[8]、TAN 分类器[9,10]、贝叶斯网
络分类器[7,11],三种分类器各有优点,分类程度较好的
当属贝叶斯网络分类器,但此种分类器具有较高的复
杂性,且处于理论研究阶段,文中主要采用前两种贝叶
斯分类器来讨论电子简历的分类及其分类准确率和查
全率。
基于假定属性变量间相互条件独立的前提,将每
个属性变量节点只与类别变量节点相关联,类别变量
C视为全体属性变量 Xi 的父节点,采取最大似然估计
法,估计 P(Xi = xi ck)的值,建立朴素贝叶斯分类模
型[8,12],如图 2 所示。
图 2 NB模型
TAN网络分类器是在朴素贝叶斯分类的基础上
改进之后得到的模型,改善了属性变量之间条件独立
的限制,但仍要求属性变量间的关系符合限定性树状
结构[9]。依据 Friedman等提出的条件互信息:
IP(X;Y Z)=∑
x,y,z
P(x,y,z)log P(x,y z)
P(x z)P(y z)
构建 TAN模型如图 3 所示:
图 3 TAN模型
2. 3 分类器算法
(1)构造每份简历的向量,用 n维特征向量表示 X
={w1:f(w1) ,…,wn:f(wn) } ,wi,i = 1,2,…,n为特征
词,f(wi) ,i = 1,2,…,n为特征词语的评估函数,
f(wi)=[1 -
1
(1 + a)× T1
] × (1 - 1
d
)× (1 -
T2
N
) ,i = 1,2,…,n
其中 T1 为词频数,即词语在简历中出现的次数,
T2 为词在多少简历中出现,a是一个较小的正数,取 a
= 0. 01,N为简历总数,d为特征词语的长度。
(2)给定一个未知类别的简历 X,分类法将预测
X 属于具有最高后验概率的类。其属于类别
Ci P(Ci X)> P(Cj X) ,i ≠ j。P(Cj X)最大的类
Ci 即 为 最 大 后 验 假 设,其 中, P(Ci X) =
P(X Ci)P(Ci)
P(X)
,运用贝叶斯公式进行计算。
·68· 计算机技术与发展 第 22 卷
(3)P(X)对于所有类均为常数,类的先验概率为
P(Ci)=
Ni
N
,Ni 为 Ci 类的训练样本总数,N为样本总
数。
(4 )采 用 特 征 独 立 性 假 设, P(X Ci)
=∏
n
k = 1
P(wk Ci)
f(wk)。其中 P(wk Ci)表示分类器预测
单词 wk 在 Ci 类的文档中发生的频率,P(wk Ci)=
1 + T1(wk,Ci)
M +∑
2
j = 1
T1(wk,Cj)
,其中 M 表示特征词表中总单
词数,T1(wk,Ci)表示单词 wk在 Ci类的所有文档中出
现的频数之和。
(5)为对未知样本 X 分类,对每个类,计算
P(Ci X)。未知样本 X 属于类别 Ci P(Ci X) >
P(Cj X) ,i≠ j。
3 分类模型性能评价标准
对于分类模型而言,分类法的准确率和查全率都
非常重要,据此可以客观评价一种待定的分类法对未
分类数据正确分类的性能表现。但准确率和查全率两
者值都高,说明模型的分类性能更好。文中在此基础
上选取另一指标来衡量分类模型的性能。
分类准确程度的参照物是通过算法判断后对文本
的分类结果与人工分类结果越相近,分类的准确程度
就越高(假设人工分类完全正确,并且排除外界及个
人思维差异的干扰因素)。从某单位在招聘期间接收
到的简历中随机选取 600 份,450 份简历作为训练集,
150份作为测试集,训练集数据学习分类算法,然后将
算法运用于测试数据集,计算正确分类的比例进行准
确率的评估。分类器的分类准确率是指所有参与分类
的与人工分类结果相吻合的简历的数目与模型实际分
类的简历数目的比率。
分类准确率(p)= 正确分类的简历数
分类模型实际分类的简历数
×
100%
查全率是指所有参与分类的正确简历数与人工分
类结果应有的简历数的比率。
分类查全率(r)= 分类正确的简历数
人工分类的简历数
× 100%
分类准确率和查全率都反映了该模型分类质量的
两个不同的方面,在设计模型时难免出现顾此失彼的
情况,但二者必须综合考虑,不能偏颇。故文中引入另
一评价指标,把分类准确率和查全率作为参数,0 ≤ p
≤ 1,0 ≤ r≤ 1,0 ≤ p + r≤ 2,
f = 1
1
p + 1
+ 1
r + 1
则当 p = 1,r = 1,f = 1 为最理想值。
基于各分类器的分类准确率、查全率见表 2。
表 2 基于各分类器的分类准确率、查全率
训练集 测试集 准确率(p) 查全率(r) f
NB 450 份简历 150 份简历 82. 16% 80. 56% 0. 907
TAN 450 份简历 150 份简历 86. 33% 84. 21% 0. 926
4 结束语
文中提出了基于朴素贝叶斯分类器和 TAN 分类
器的简历筛选模型,详细分析并验证了不完全信息条
件下 NB模型和 TAN模型都具有较高的分类准确率和
查全率,但两模型都建立在理想的实验环境下,排除了
外界的干扰因素。若与实际结合,则需引入较多的影
响因素,改进模型,提高分类准确率和查全率。
参考文献:
[1] 王 军,周伟达.贝叶斯网络的研究与进展[J].电子科技,
1999(8) :5-7.
[2] de Campos L M,Fernández-Luna J M,Huete J F. Clustering
terms in the Bayesian network model:a new approach with two
term-layers[J]. Applied Soft Computing,2004,4(2) :149 -
158.
[3] 张兵利,裴亚辉.贝叶斯网络模型概述[J]. 电脑与信息技
术,2008,16(5) :41-41.
[4] Andrews J D,Brennan G. Application of the Digraph Method
of Fault Tree Construction toa Complex Control Configuration
[J]. Reliability Engineering and System Safety,1990,40(3) :
357-384.
[5] 宫义山,高媛媛. 基于信息融合的诊断贝叶斯网络研究
[J].计算机技术与发展,2009,19(6) :106-108.
[6] 韩 磊,吴树芳,王子贤. 贝叶斯网络[J]. 电脑知识与技
术,2009(21) :5867-5872.
[7] 周颜军,王双成,王 辉. 基于贝叶斯网络的分类器研究
[J].东北师大学学报自然科学版,2003,35(2) :21-27.
[8] Duda R,Hart P. Pattern Classification and Scene Analysis
[M]. New York:John Wiley and Sons,1973.
[9] Friedman N. Bayesian network classifiers[J]. Machine Learn-
ing,1997,29(2-3) :131-163.
[10] Maxwell D. Learning equivalence classes of Bayesian-network
structures[J]. Machine Learning,2002(2) :445-498.
[11]王 辉.用于决策支持的贝叶斯网络[J].东北师大学学报
自然科学版,2001,33(4) :26-30.
[12]陈学进.数据挖掘中聚类分析的研究[J].计算机技术与发
展,2006,16(9) :44-49.
·78·第 7 期 洪海燕:基于贝叶斯分类器的简历筛选模型