计算机光盘软件与应用 2011年第15期 Computer CD Software and Applications 信息技术应用研究 关联规则算法 在新疆高职院校录取决策中的应用研究 芦海燕,沙红梅 (伊犁职业技术学院,新疆伊宁 835000) 摘 要:该文以研究新疆高职院校新生报到率为目的,采用关联规则算法对新生的基本信息进行数据挖掘,挖掘出新生信息与学生报到率之间的有效规则,并对新生的报到情况进行分类预测,对提高新生报到率具有重要现实意义。 关键词:关联规则算法;新疆高职院校;录取决策 中图分类号: 文献标识码:A 文章编号:1007-9599(2011)15-0001-02 The Research Application of Association Rules Algorithm in XinJiang College Admit Decision Lu Haiyan,Sha Hongmei (Yili Vocational Technical College,Yining 835000,China) Abstract:The purpose of this paper is to research the report rate of collage students in algorithm of association rules was used to mine knowledge in student information databases,with that obtain the rules about factors which influence student s report rate,and predicted the new classification of the new case has important realistic significance to improve the report rate. Keywords:Association Rules algorithm;XinJiang college;Admit Decision 每年9月,各新疆高职院校都对新生报到率关心备至,因为得到有效数据2989条。 新生报到率偏低会影响学院招生计划的完成,造成教学资源的极根据近几年该学院的新生报到率,将最小支持度设为,大浪费。将数据挖掘技术中的关联规则算法应用于录取决策中,最小置信度设为54%。 挖掘影响学生报到率的规则,预测考生报到可能性,可以为高院表1 各属性人数 院校录取决策提供有效帮助。 属性 录取人数 报到人数 一、关联规则的定义 男性 1288 774 关联规则挖掘算法是一种在许多数据中找出隐藏的关联规则的方法。关联规则常常用一个蕴涵式来表示,如“啤酒=>尿布”。女性 1701 929 一个事务数据库中的关联规则挖掘可以描述如下[1]:汉语言 1454 737 设I={i1,i民语言 1535 966 2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tm}是由一系列具有唯一标识TID的事务组成,每个事务城镇应届 893 458 ti(i=1,2,…,n⊆)都对应I上的一个子集。 城镇历届 296 219 定义1-1设I1I,项目集(Itemset)I1在数据集D上的支农村应届 1268 642 持度(Support)是包含I1的事务在D中所占的百分比。 定义农村历届 532 384 1-2一个定义在I和D上的形如I1=>I的关联规则的置信度(普通高考 2631 1412 Confidence)是指包含I1和I2的事务数与包含I的事务数之比。其中φI1,I⊆2I,I1∩I2=。 “三校生”高考 358 291 关联规则就是支持度和置信度分别满足用户给定阈值的规理科 2015 1105 则。 文科 974 598 二、关联规则挖掘的一般过程 关联规则挖掘就是通过用户指定的最小支持度,在全部事务生源:疆内外地 2123 1193 数据库中挖掘出满足支持度不小于最小支持度的频繁项目集,再生源:疆内本地 605 404 通过用户指定的最小置信度,在全部频繁项目集中挖掘出置信度生源:疆外 261 106 不小于最小置信度的强关联规则。关联规则挖掘过程由这两部分考分:100-199 204 156 共同组成。在这两部分中,关联规则挖掘是否成功主要取决于第考分:200-299 685 401 一部分,即挖掘频繁项目集。 考分:300-399 1973 1081 三、挖掘影响新生报到率的规则 以新疆某高职学院新生注册信息库中的样本数据为例,挖掘考分:400-499 126 64 新生基本属性(性别、考试语种、考生类别、毕业类别、科类、考分:500-599 1 1 考生生源、高考成绩)与学生报到之间的规则。并根据此规则制(一)找出所有频繁项目集 定出有效的录取决策,指导录取人员进行录取。经过数据清洗,(1)根据Apriori算法,在所有报到学生信息中挑选支持度— 1 —
计算机光盘软件与应用 信息技术应用研究 Computer CD Software and Applications 2011年第15期 不小于最小支持度的项目集组成1-频繁项目集L1。L1={性别∈=>报到;(8){女,民语言,农村历届,高中,文,疆内外地,300{男,女},考试语种∈{汉语言,民语言},考生类别∈{城镇≦高考成绩<400}=>报到。 应届,城镇历届,农村应届,农村历届},毕业类别∈{高中,三(四)结果说明及验证 校},科类∈{文,理}、考生生源∈{疆内外地,本地,疆外},根据以上8个强关联规则,可知基本信息与规则左边属性值高考成绩∈{[100-199],[200,299],[300,399],[400-499]}。相同的学生,报到可能性大。将此规则应用于今后的录取现场时,为了理解方便,将以上集合简写为{男,报到}、{女,报到}、{汉录取人员可在同等条件下可优先录取具有以上属性值的学生,以语言,报到}、{民语言,报到}、{城镇应届,报到}、{城镇历届,提高新生率。 报到}、{农村应届,报到}、{农村历届,报到}、{高中,报到}、四、关联规则挖掘的分类预测 {三校,报到}、{理,报到}、{文,报到}、{疆内外地,报到}、在关联模型中,如果列用于输入,那么该列的值只能在频繁{本地,报到}、{疆外,报到}、{100≦高考成绩<200,报到}、项集中和关联规则的左边使用。如果列用于预测,则可以在频繁{200≦高考成绩<300,报到}、{300≦高考成绩<400,报到}、{400项集中以及关联规则的左边和右边使用该列的状态。如果列是逻≦高考成绩<500,报到}。(2)根据Apriori的改进算法-辑型的,则它的状态可以出现在频繁项集中及规则的右边。 Partition算法,将学生数据库进行划分,每块包含两个属性或在新生报到表中,“是否报到”列的值是逻辑型,可以出现在一个属性。据此,将学生数据库划分为含有项目{性别,授课语频繁项集中及规则的右边,因此,“是否报到”列的状态就可以用言}、{考生类别,毕业类别}、{科类,考生生源}和{高考成绩}于预测。例如,有一个频繁项目集{性别=‘男’,考试语种=‘民’,的四个块。根据块中包含的属性,将上一步计算出的项集依照块毕业类别=‘三校’,是否报到=‘是’},和由此产生的一个强关的属性进行合并,组合成每块的频繁项集。计算合并后的项集的联规则{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’}支持度,将支持度不小于的项集挖掘出来。(3)重复(2),=>报到,那么,可以预测出,性别为男性,考试语种为民语言,两两进行分块。此时学生数据库被分为含有{性别,授课语言,毕业类别为三校的新生将会来报到,或者说,他前来报到的可能考生类别,毕业类别}和含有{科类,考生生源,高考成绩}的性非常大。 两块。同样的,将上一步中计算出的项集依据分块内容再进行组利用关联规则算法进行关联推测的方法:(1)给定一系列项,合,计算它们的支持度。将支持度不小于的项集挖掘出来。找出左边匹配给定项集或者任何给定项集的子集的所有规则。应(4)重复(3),此时,只剩下一个块,包含了所有的属性值。此用这些规则来获取推荐列表。(2)如果没有合适的规则,或者可时,这个块的频繁项目集就是最终的频繁项目集。 推荐的项太小,则应用边缘统计学来预测和返回出现最频繁的N(二)计算频繁项目集对应的规则的置信度 个项。(3)基于概率对来自步骤1和步骤2的项进行排序。 (1)confidence{男,民语言,农村历届,三校,理,本地,根据以上方法,本文对该院2011级录取的新生数据进行了深200≦高考成绩<299}=>报到=91%;(2)confidence{男,汉语入分析。将出现频率较高的项集预测为“会报到”,其它项集预测言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>为“不会报到”,将所有频繁项集按概率大小顺序挖掘出来。将此报到=45%;(3)confidence{女,汉语言,城镇应届,高中,理,挖掘结果应用于录取现场,可以指导录取人员按此顺序录取考生,疆内外地,300≦高考成绩<400}=>报到=44%;(4)confidence提高考生的报到率。 {男,汉语言,农村应届,高中,理,疆内外地,300≦高考成绩五、结论 <400}=>报到=48%;(5)confidence{男,民语言,农村应届,通过关联规则算法,在已有学生数据库中挖掘出学生信息与高中,理,疆内外地,300≦高考成绩<400}=>报到=65%;(6)报到之间的规则,再将此规则应用于报考考生数据库,预测哪类confidence{女,汉语言,农村应届,高中,理,疆内外地,300考生报到可能性高,可以为高职院校录取人员提供有用信息,有≦高考成绩<400}=>报到=46%;(7)confidence{女,民语言,效提高新生报到率。 农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=参考文献: 46%;(8)confidence{女,民语言,农村历届,高中,理,疆内[1]毛国君,段立娟,王实,石云.数据挖掘原理与算法[M].北京:外地,300≦高考成绩<400}=>报到=58%;(9)confidence{女,清华大学出版社,2005,11-65 汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}[2]于莉.基于高校学生信息库的数据挖掘[D].内蒙古:内蒙古=>报到=58%;(10)confidence{男,民语言,农村应届,高中,大学,2004 文,疆内外地,300≦高考成绩<400}=>报到=54%;(11)confidence[3]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版{女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩社,2005,2-16 <400}=>报到=69%;(12)confidence{女,民语言,农村应届,[4]彭松涛.数据挖掘技术在高校就业管理系统中的应用研究高中,文,疆内外地,300≦高考成绩<400}=>报到=63%;(13)[D].浙江:浙江工业大学,2005 confidence{女,民语言,农村历届,高中,文,疆内外地,300[5]刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上≦高考成绩<400}=>报到=77%。 海师范大学,2008 (三)生成强关联规则 [6]谢长卫.高校学生信息的数据挖掘研究[D].安徽:安徽理工根据事先确定的最小置信度50%,得到8个强关联规则。分大学,2008 别为:(1){男,民语言,农村历届,三校,理,本地,200≦高[7]李万武.基于贝叶斯理论的数据挖掘在高校信息管理的应考成绩<300}=>报到;(2){男,民语言,农村应届,高中,理,用研究[D].黑龙江:哈尔滨工程大学,2005 疆内外地,300≦高考成绩<400}=>报到;(3){女,民语言,农 村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到:(4)[作者简介]芦海燕(1974-),女,新疆伊宁市人,讲师,工{女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩程硕士,主要研究方向:数据挖掘、计算机辅助设计;沙红梅<400}=>报到;(5){男,民语言,农村应届,高中,文,疆内外(1972-),女,新疆伊宁市人,助理讲师,本科,主要研究方向:地,300≦高考成绩<400}=>报到:(6){女,汉语言,农村应届,计算机应用。 高中,文,疆内外地,300≦高考成绩<400}=>报到;(7){女,[基金项目]伊犁职业技术学院2011年度科研计划项目民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}(yzyxm2011004) — 2 —