MBA智库文档综合职业规划基于贝叶斯分类器的简历筛选模型洪海燕.pdf

基于贝叶斯分类器的简历筛选模型洪海燕.pdf

下载

Rocanoe

3页 | 237KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

收稿日期:2011－11－10;修回日期:2012－02－16 基金项目:安徽省省级青年人才基金项目(2011SQRL167) 作者简介:洪海燕(1983－) ，女，硕士，讲师，研究方向为谱图理论及其应用。基于贝叶斯分类器的简历筛选模型洪海燕 (安徽大学江淮学院，安徽合肥 230031) 摘要:现代社会网络招聘兴起，为社会、企业节省了不少物力、人力、财力，但如何快速、简捷地从众多的电子简历中找出符合要求的简历又是一个让人头疼的问题。文中在贝叶斯网络的基础上，分别从朴素贝叶斯分类器和 TAN分类器角度，构建一个基于贝叶斯分类器的电子简历筛选模型，并通过实验验证该模型对电子简历进行分类时的准确率和查全率，且引入一个新的评价指标 f同时考虑准确率和查全率，得出没有属性变量相互独立限制的 TAN分类器具有较好的分类效果的结论。关键词:贝叶斯网络;贝叶斯分类器;朴素贝叶斯分类器;TAN分类器中图分类号:O212． 8;TP391． 1 文献标识码:A 文章编号:1673－629X(2012)07－0085－03 Screening of Resumes Based on Bayesian Classifier HONG Hai－yan (Jianghuai College of Anhui University，Hefei 230031，China) Abstract:To be on the upgrade of network recruitment in the modern society，it saves a lot of material，human and financial resources for the community． But it is a problem to find qualified resumes from electronic resumes quickly and simply． In this paper，construct the screening of electronic resumes on Bayesian network from the Nave Bayesian classifier and tree augmented Nave Bayesian classifier． Then discuss the precision and recall of Bayesian classifier model through experiment，and bring a new evaluation index f． Finally，TAN classifier has good classification results． Key words:Bayesian network;Bayesian classifier;Nave Bayesian classifier;TAN classifier 0 引言现代企业的人员招聘途径已经越来越多，网络、招聘会、校园招聘等等，为招聘单位提供了大量的人才信息。在众多的招聘方式中，简历筛选成为很重要的一个环节，尤其是网络招聘。文中结合实际，在贝叶斯网络基础上，构建一个简历筛选模型。 1 贝叶斯网络基本概念贝叶斯网络属于概率网络范畴，是用于处理不确定性知识与数据的表达与推理的模型，是目前社会处理不确定信息技术的主流［1］。贝叶斯网络基本上由两部分组成:首先具备一个有向但无环的图形结构 G，其中图形中的每一个节点表示一个变量，节点与节点之间的有向弧刻画了变量与变量之间的依赖关系，图形中节点 X的父节点指的是指向 X 的所有节点;其次必须具备与每个节点相关的条件概率表，此表中需列出节点相对于其父节点的所有可能的条件概率，以表示不同信息之间的影响程度［2 ～ 5］。在贝叶斯网络中，把节点 Xi 的所有父节点作为条件，并且规定节点 Xi与任意一个非 Xi子节点的节点条件独立，按照变量之间相互独立的性质，有 m 个节点的贝叶斯网络的联合概率分布为［6］: P(X1，X2，…，Xm)=∏ m i = 1 P(Xi π(Xi) ) 其中把贝叶斯网络中 Xi 的所有父节点集合中的变量取值后的一个组合记为 π(Xi) ;若贝叶斯网络中 Xi 恰恰没有父节点，则令 P(Xi π(Xi) )= P(Xi)。同时贝叶斯分类亦是一种非规则分类，基本思想是通过训练集的训练总结归纳出较适合的分类器，并充分利用该分类器对没有分类的数据进行分类［7］。若有一待分类的样本 D，U = {X1，X2，…，Xn，C} 表示一个离散型随机变量的集合，其中 X1，X2，…，Xn 表示为属性变量，xi 是属性变量 Xi 的取值;C 表示类别变量，C ={c1，c2，…，cm}。则 D是属于类别 cj 的概率为: P(cj x1，x2，…，xn)= P(x1，x2，…，xn cj)P(cj) P(x1，x2，…，xn) 第 22 卷第 7 期 2012 年 7 月计算机技术与发展 COMPUTER TECHNOLOGY AND DEVELOPMENT Vol． 22 No． 7 July 2012 = P(cj) P(x1，x2，…，xn) ∏ n i = 1 P(xi x1，x2，…，xi－1，cj) 其中 P(cj)是类 cj 的先验概率，P(cj x1，x2，…，xn)是类 cj 的后验概率。根据贝叶斯最大后验准则，待分类的样本 D的类标签选择使后验概率 Max 1≤j≤m P(cj x1，x2， …，xn)那个类别 cj 为该样本 D的类标签。 2 贝叶斯网络在电子简历筛选中的应用基于贝叶斯分类器的简历筛选模型是以电子简历为研究对象，通过对简历样本集进行训练，获得有用的标识，并通过标识的划分、精化处理获得能区分是不是合格简历的训练结果，再以此训练结果为基础构建贝叶斯分类器，进而对电子简历进行检测，找到符合要求的简历，淘汰不符合要求的简历。在贝叶斯网络中把代表类别变量的节点作为根节点，其余变量作为它的子节点，贝叶斯网络变成贝叶斯分类器。基于贝叶斯分类器的简历筛选如图 1 所示: 图 1 基于贝叶斯分类器的简历筛选过程 2． 1 贝叶斯模型属性变量、类别变量的确定选取某企业，获取近几年投递他们公司的简历，整理样本。并在对简历进行学习之前，先把简历人工分成符合要求(c1)的简历和淘汰(c2)的简历两类，避免造成错误的学习。假设 P(c1 X)为待分类简历 X 为符合要求简历的概率，P(c2 X)为待分类简历 X 为淘汰简历的概率，只需 P(c2 X) ＜ P(c1 X) ，则简历是符合企业招聘要求的，否则淘汰。对样本进行整理，得到的属性集如表 1。表 1 属性变量变量属性变量属性 X1 应聘岗位 X5 毕业院校 X2 应聘者类别 X6 所学专业 X3 工作 /实践经历 X7 个人学历 X4 个人技能 X8 性别 2． 2 贝叶斯分类器的选择现今常用的最具代表性的贝叶斯分类器主要有三种:朴素贝叶斯分类器［8］、TAN 分类器［9，10］、贝叶斯网络分类器［7，11］，三种分类器各有优点，分类程度较好的当属贝叶斯网络分类器，但此种分类器具有较高的复杂性，且处于理论研究阶段，文中主要采用前两种贝叶斯分类器来讨论电子简历的分类及其分类准确率和查全率。基于假定属性变量间相互条件独立的前提，将每个属性变量节点只与类别变量节点相关联，类别变量 C视为全体属性变量 Xi 的父节点，采取最大似然估计法，估计 P(Xi = xi ck)的值，建立朴素贝叶斯分类模型［8，12］，如图 2 所示。图 2 NB模型 TAN网络分类器是在朴素贝叶斯分类的基础上改进之后得到的模型，改善了属性变量之间条件独立的限制，但仍要求属性变量间的关系符合限定性树状结构［9］。依据 Friedman等提出的条件互信息: IP(X;Y Z)=∑ x，y，z P(x，y，z)log P(x，y z) P(x z)P(y z) 构建 TAN模型如图 3 所示: 图 3 TAN模型 2． 3 分类器算法 (1)构造每份简历的向量，用 n维特征向量表示 X ={w1:f(w1) ，…，wn:f(wn) } ，wi，i = 1，2，…，n为特征词，f(wi) ，i = 1，2，…，n为特征词语的评估函数， f(wi)=［1 － 1 (1 + a)× T1 ］ × (1 － 1 d )× (1 － T2 N ) ，i = 1，2，…，n 其中 T1 为词频数，即词语在简历中出现的次数， T2 为词在多少简历中出现，a是一个较小的正数，取 a = 0． 01，N为简历总数，d为特征词语的长度。 (2)给定一个未知类别的简历 X，分类法将预测 X 属于具有最高后验概率的类。其属于类别 Ci P(Ci X)＞ P(Cj X) ，i ≠ j。P(Cj X)最大的类 Ci 即为最大后验假设，其中， P(Ci X) = P(X Ci)P(Ci) P(X) ，运用贝叶斯公式进行计算。 ·68· 计算机技术与发展第 22 卷 (3)P(X)对于所有类均为常数，类的先验概率为 P(Ci)= Ni N ，Ni 为 Ci 类的训练样本总数，N为样本总数。 (4 )采用特征独立性假设， P(X Ci) =∏ n k = 1 P(wk Ci) f(wk)。其中 P(wk Ci)表示分类器预测单词 wk 在 Ci 类的文档中发生的频率，P(wk Ci)= 1 + T1(wk，Ci) M +∑ 2 j = 1 T1(wk，Cj) ，其中 M 表示特征词表中总单词数，T1(wk，Ci)表示单词 wk在 Ci类的所有文档中出现的频数之和。 (5)为对未知样本 X 分类，对每个类，计算 P(Ci X)。未知样本 X 属于类别 Ci P(Ci X) ＞ P(Cj X) ，i≠ j。 3 分类模型性能评价标准对于分类模型而言，分类法的准确率和查全率都非常重要，据此可以客观评价一种待定的分类法对未分类数据正确分类的性能表现。但准确率和查全率两者值都高，说明模型的分类性能更好。文中在此基础上选取另一指标来衡量分类模型的性能。分类准确程度的参照物是通过算法判断后对文本的分类结果与人工分类结果越相近，分类的准确程度就越高(假设人工分类完全正确，并且排除外界及个人思维差异的干扰因素)。从某单位在招聘期间接收到的简历中随机选取 600 份，450 份简历作为训练集， 150份作为测试集，训练集数据学习分类算法，然后将算法运用于测试数据集，计算正确分类的比例进行准确率的评估。分类器的分类准确率是指所有参与分类的与人工分类结果相吻合的简历的数目与模型实际分类的简历数目的比率。分类准确率(p)= 正确分类的简历数分类模型实际分类的简历数 × 100% 查全率是指所有参与分类的正确简历数与人工分类结果应有的简历数的比率。分类查全率(r)= 分类正确的简历数人工分类的简历数 × 100% 分类准确率和查全率都反映了该模型分类质量的两个不同的方面，在设计模型时难免出现顾此失彼的情况，但二者必须综合考虑，不能偏颇。故文中引入另一评价指标，把分类准确率和查全率作为参数，0 ≤ p ≤ 1，0 ≤ r≤ 1，0 ≤ p + r≤ 2， f = 1 1 p + 1 + 1 r + 1 则当 p = 1，r = 1，f = 1 为最理想值。基于各分类器的分类准确率、查全率见表 2。表 2 基于各分类器的分类准确率、查全率训练集测试集准确率(p) 查全率(r) f NB 450 份简历 150 份简历 82． 16% 80． 56% 0． 907 TAN 450 份简历 150 份简历 86． 33% 84． 21% 0． 926 4 结束语文中提出了基于朴素贝叶斯分类器和 TAN 分类器的简历筛选模型，详细分析并验证了不完全信息条件下 NB模型和 TAN模型都具有较高的分类准确率和查全率，但两模型都建立在理想的实验环境下，排除了外界的干扰因素。若与实际结合，则需引入较多的影响因素，改进模型，提高分类准确率和查全率。参考文献: ［1］王军，周伟达．贝叶斯网络的研究与进展［J］．电子科技， 1999(8) :5－7．［2］ de Campos L M，Fernández－Luna J M，Huete J F． Clustering terms in the Bayesian network model:a new approach with two term－layers［J］． Applied Soft Computing，2004，4(2) :149 － 158．［3］张兵利，裴亚辉．贝叶斯网络模型概述［J］．电脑与信息技术，2008，16(5) :41－41．［4］ Andrews J D，Brennan G． Application of the Digraph Method of Fault Tree Construction toa Complex Control Configuration ［J］． Reliability Engineering and System Safety，1990，40(3) : 357－384．［5］宫义山，高媛媛．基于信息融合的诊断贝叶斯网络研究［J］．计算机技术与发展，2009，19(6) :106－108．［6］韩磊，吴树芳，王子贤．贝叶斯网络［J］．电脑知识与技术，2009(21) :5867－5872．［7］周颜军，王双成，王辉．基于贝叶斯网络的分类器研究［J］．东北师大学学报自然科学版，2003，35(2) :21－27．［8］ Duda R，Hart P． Pattern Classification and Scene Analysis ［M］． New York:John Wiley and Sons，1973．［9］ Friedman N． Bayesian network classifiers［J］． Machine Learn- ing，1997，29(2－3) :131－163．［10］ Maxwell D． Learning equivalence classes of Bayesian－network structures［J］． Machine Learning，2002(2) :445－498．［11］王辉．用于决策支持的贝叶斯网络［J］．东北师大学学报自然科学版，2001，33(4) :26－30．［12］陈学进．数据挖掘中聚类分析的研究［J］．计算机技术与发展，2006，16(9) :44－49． ·78·第 7 期洪海燕:基于贝叶斯分类器的简历筛选模型

联系我们

智库文档公众号

客服微信

基于贝叶斯分类器的简历筛选模型洪海燕.pdf

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多