第31卷第10期统计研究VoI. 31, 2014每10月Statistical Researcb Oct. 2014 数据挖掘模型在小企业主信用评分领域的应用王磊范超解明明内容提要:国际经验表明,信用评分技术可较好地解决小企业贷款高成本、高风险及信息不对称难题。本文广泛选取了可适用于小企业主信用评分领域的12种数据挖掘模型(包括本文的改进模型门限Logistic),并以3个银行微观客户数据集为案例,通过10折交叉验证和预期分类错误成本的方式,检验了这些模型的综合信用评分能力。分析结果及稳健性检验表明,本文改进的门限Logistic模型在模型预测能力及预期错误分类成本等多方面表现优秀;而基于决策树的组合方法也表现良好。本研究对国内商业银行建立合适的小企业主贷款信用评分模型具有参考意义,也有助于推动银行微观金融统计,完善金融统计工作o关键词:数据挖掘;门限Logistic;小企业主;信用评分中图分类号:0212文献标识码:A文章编号:1002 -4565 (2014) 10 -0089 -10 Application of Data Mining Models in Credit Scoring for Small Business Owners Wang Lei Fan Chao Xie Mingming Abstract: As an international experience, credit scoring technology can effectively solve the problems of small business loans, such as high cost, high risk and asymmetric information. This paper selected 12 data mining models (including the threshold Logistic model which was improved by thispaper), which may be suitable for the topic. Three banks’ microscopic customer data sets (sample size was 30488,1000 and 700 respectively) were employed in the case study. This paper assessed the performance of the 12 credit scoring models by using lO -fold cross validation and the expected misclassification cosls methods. Analysis results and robustness tests showed that the improved threshold Logistic model outperfo口nsother approaches while the combination methods based on decision trees also performs well. This paper is useful for the domestic commercial banks to establish appropriate credit scoring models for small business owners loan. The implementation of such models can be expected to promote the micro-finance data statistics, and then the macro-government finance statistics. Key words: Data Mining; Threshold Logistic; Small Business Owners; Credit Scoring 近年来我国金融脱离实体经济的问题日益引起商业银行较大范围的应用,不论对于微观层面国内社会各界的关注。在利率市场化加快、金融脱媒加商业银行做好小企业贷款业务,还是对于宏观层面速、互联网金融冲击加强的背景下,为应对未来利差推动实体经济进而整个中国经济持续发展均具有重收窄、大客户业务需求减弱和竞争激烈等不利影响,要的现实意义。越来越多的国内商业银行己主动将小企业业务提升本文主要目的是通过比较可适用于小企业主信到战略地位。用评分领域的12个模型(包括本文对Logistic改进然而,小企业贷款具有单笔贷款金额小、笔数的-门限Logistic模型),从中揭示出各类模型的特多、戚本高、信息不对称等问题。国际经验表明,信性及在该领域的评分能力表现,以期为国内商业银用评分技术的引人可较好地解决上述难题。行未来做好小企业主信用评分模型建立和实施提供小企业主信用评分模型的构建及其未来在国内参考。
.90. 统计研究2014年10月自的模型在平均正确分类率与预期误判成本方面均一、文献回顾优于线性判别分析、Logistic回归分析和人工神经网络(ANN)等模型[叫[叫。从现有文献看,很早就有学者开始比较不同信用评分方法的应用效果。Myersand和Forgy( 1963 ) 综上,现有文献在各类模型的信用评分能力比对判别分析方法与多元线性回归在个人信用风险上较方面己做了较充足的研究。但学者们对各类评分的识别能力做了比较,结果显示判别方法略优于线方法的效果优劣却未达成共识,有时结论甚至完全性回归[4]0 Wiginton ( 1980)的研究则表明Logistic相反。导致这一现象的原因,一方面是信用数据集回归的信用评分能力优于判别分析[5]差异导致的,不同数据集实际上蕴含了不同的市场Coffman ( 1986 )指出,特征变量间的相互作用可环境和模型适用性;另一方面,各类研究在数据清洗能会影响决策树与判别分析的信用评分效果,因此过程遵循的原则及具体模型参数的设定等方面也存在比较这些方法时应对此予以考虑。Boyle和在差异。但限于这些细节的公开程度不同(特别是Haniilton ( 1992 )的研究表明在个人信用评分领域,数据集),要做出一致的比较还很难。决策树是比判别分析更合适的方法[6]Davis和然而,相对而言,在诸多常用方法中,Logistic回Edelman等(1992)在比较了多种神经网络方法以及归在稳健性上表现较为突出,部分文献也认为其预103、CART等多种决策树方法后,认为这些方法在测精度较优甚至最高(West,2000[ 11] ;石庆族和靳云个人信用评分方面的分类精度接近[7]Altman和汇,2004[口]) ,且Logistic回归具有很好的可解释性。Marco( 1994)的研究则表明神经网络方法在个人信考虑到国内银行业在小企业主信用评分领域尚处在用评分领域的效果明显优于多元判别分析方法。初步阶段,因此以该模型为研究基础较为合适。不Desai等(1996)比较了神经网络、Logistic回归过小企业主信用评分常用的Logistic回归模型仍然及判别分析等方法在个人信用评分方面的能力,研需要改进。在某一特征(例如小企业主家庭负债究显示在整体预测能力方面Logistic回归与神经网率)上有显著差别的小企业可能在违约规律上有显络类似,且均优于判别分析,但在对坏客户的判别能著差别,而现有研究没有充分考虑这一问题。为此,力上神经网络优于Logistic回归[8]。Arminger和本文拟引入门限模型对现有Logistic回归模型进行Enache( 1998)的研究则表明在贷款客户违约预测改进,以期提高小微企业评分模型的预测准确率和方面,Logistic回归、决策树及神经网络的信用评分降低预期误判成本,同时降低商业银行小微贷款审能力类似[9]0 Piramuthu ( 1999)基于3个信用数据核工作负担,进而提高其实际应用价值。库的实证研究则表明模糊神经网络比多层神经网络更为重要的是,为了进行综合而客观的比较,本性能更佳、可解释性更好[阳]。文除了改进模型-Logistic门限模型外,还广泛选取West(2000)则同时比较了更多种模型的信用了可适用于小企业主信用评分领域的其余11个模评分能力,除常见的线性判别分析、决策树、K近邻、型,从模型驱动角度来共计12个潜在模型的信用评Logistic回归等方法外,还包含了5种神经网络模分性能做了全面、客观和严谨的比较。型,结果显示Logistic回归取得了最高的预测精度,二、模型描述而在各类神经网络模型中MOE和RBF神经网络优于MLP神经网络[11]。石庆族和靳云汇(2004)比较{一)常用模型了判别分析、决策树、线性规划、Logistic回归与神经1.决策树(分类树)。Makowski (1985)和Lee(2006) [15]等的研究认网络等方法在中国个人信用数据上的应用效果,发现虽然神经网络预测精度最高,但Logistic回归却具为决策树方法在信用评分中表现优良。决策树学习有更低且更稳健的二类错误率,所以综合信用评分是应用最广的归纳推理算法之一,是一种逼近离散能力最好的模型是Logistic回归川2]。值函数的方法,一般都是自上而下生成的,并用了贪Lee和Chen(2005)与Akkoç(2012)分别提出了婪的搜索遍历法进行遍历。决策树通过把实例从根MARS与BPN神经网络组合的两阶段混合模型及节点排列到某个叶子节点来分类实例,叶子节点即兰阶段的混合自适应神经模糊推理系统,并认为各为实例所属的分类,树上的每个节点指定了对实例
91 第31卷第10期王磊等:戴据挖掘模型在小企业主信用评分领域的应用的某个属性的测试,且每个节点的每个后继分支对已经正确分类的对象。该方法在定类决策上只依据应于该属性的一个可能的值。最邻近的-个或者几个样本的类别来决定待分样本2.组合模型:Bagging、随机森林和Boosting模型。所属的类别。KNN算法不仅可以用于分类,还可以Bagging( bootstrap aggregating的缩写)算法是最用于回归。早的集成学习算法,通过有放回抽取训练样本随机6.线性判别分析(LDA)和二次判别分析(QDA)。产生多个训练数据的子集,在每一个训练集的子集Fisher ( 1936 )开创了fisher判别分析,David 上训练一个分类器,最终分类结果由多个分类器的Durand ( 1941 )最早将该方法应用于识别不良贷款,分类结果投票产生。随机森林与Bagging的区别在之后Eisenbeis(1977 ,1978 )做了应用推广。本文线于在每个分割节点处是随机选取一定数量的变量,性判别分析选取的是贝叶斯判别分析。贝叶斯的思避免某些"强势"变量支配模型①。与Bagging不想总是假定对所研究对象已有一定认识(常用先验同,Boosting算法通过顺序给训练集中的数据项重概率分布来描述),然后抽取一个样本,用样本统计来修正已有认识,得到后验橄率分布。各种统计推新加权创造不同的基础学习器。在训练开始,所有断都通过后验概率分布来进行,将贝叶斯思想用于的数据项都被初始化为同一个权重,在这次初始化判别分析就得到贝叶斯判别法。当不同类样本的协之后,每次增强的迭代都会生成一个适应加权之后方差矩阵相同时,即是线性判别分析(LDA)的情的训练数据集的基础学习器。况;不同时则应使用二次判别分析(QDA)0 人工神经网络。{二}门限Logistic回归:对Logistic回归的改进BP (Back Propagation)网络由Rumelhart和Wiginton( 1980)最先将Logistic回归用于信用McCelland为首的科学家小组于1986年提出,Odom评分。用Logistic回归建立信用评分模型的目的就(1990)首次将神经网络方法引入信用风险评估。BP在于试图用下面的表达式来估计一个借款客户是好网络是一种按误差逆传播算法训练的多层前馈网络,客户(y=0)或坏客户(y= 1)的概率:是目前应用最广泛的神经网络模型之一。BP网络能xp(β。+βTX)学习和存贮大量输入-输出模式映射关系,而无需事Xp(y = l1) = 1 _____In nTv\ (1) 1 + exp(β。+βTX)前揭示描述这种映射关系的数学方程。它的学习规式(1)中,X是m维白变量观测值矩阵,βT是m则是使用最速下降法,通过反向传播来不断调整网络维待估计的参数向量③。Logistic回归通过最大似的权值和阔值,使网络误差平方和最小。BP神经网然估计方法求解回归参数。络模型拓扑结构包括输入层、隐层和输出层。本文认为小企业主的违约规律可能存在门限效4.支持向量机(SVM)。应,即在某一特征(如家庭负债率)上有显著差别的Baesens和Gestel(2003)最早将支持向量机方不同群体其违约规律也存在显著差别。为此,本文引法运用于信用评分领域。支持向量机方法是建立在入门限效应对现有Logistic回归模型进行改进。作为统计学习理论的VC维理论和结构风险最小原理基一种初步尝试,本文仅讨论了单门限模型的情况。础上的,根据有限的样本信息在模型的复杂性(即门限模型是通过确定回归方程中门限变量的取对特定训练样本的学习精度)和学习能力(即无错值,将方程划分在不同的区间中,而每一个区间由不误地识别任意样本的能力)间寻求最佳平衡。支持同的回归方程来表达。本文中门限值按照"分类总向量机是从线性可分情况下的最优分类面②提出的,它是实现统计学习理论思想的方法O① Bagging可看做随机森林的一种特殊情况,若在每个分割节5. K近邻。点处选取了全部变量,随机森林即为Bagging。Chatterjee和Barcun( 1970 )最先将最近邻法应② 所谓最优分类面就是要求分类面不但能将两类无错误地用于建立个人信用评分模型。K近邻或KNN(K›分开,而且要使两类的分类间隔最大。前者是保证经验风险最小,而使分类间隔最大实际上就是使推广性的界中的置信范围最小,从Ne arest Ne ighbour )分类算法的思路是:如果一个样而使真实风险最小。本在特征空间中的k个最相似(即特征空间中最邻③ Grablowsky和Talley(1981)最先将Probit回归用于信用评近)的样本中的大多数属于某一个类别,则该样本分。Probit模型与Logistic模型类似,区别仅在于在P(Y=I)=f(X) 也属于这个类别。KNN算法中,所选择的邻居都是这一表达式中f(. )是正态分布函数,而Logistic是Logistic函数。
.92. 统计研究2014年10月正确率"最大化的原则来确定。考虑"家庭负债率"得到显式解是不可能的,须借助计算机采用迭代方对小企业主/个人违约行为产生影响的门限效应后,法完成。最终得到两个门限区间各系数的极大似然式(1)变为:估计值βi(γ) ,及相应的条件概率(给定叭的条件下exp(β。+βTX)Yi = 1的概率)估计值乱(γ),即门限Logistic回归p(y=1|X)=I(qt运γ)+ exp(β。+βTX)模型的拟合值或预测值。可以证明,在随机样本情exp(β'。+β,TX)况下,门限Logistic回归模型在各区间的极大似然估;..J(qi >γ)+e(2) i 1 + exp(β'。+β"X)μ, 计具有一致性、有效性和渐进正态性等特点。记x,为其第i个样本的观测值,1运:::::;n,n为本文遵从常规文献做法以为界判定客户是样本总数;l( )为示性函数;q,为门限变量;eι为随否违约,进而将乱(γ)转换为客户是否违约的序列机误差项,假定e"- d( 0,σ2)。门限Logìstic模型(违约取1,非违约取0),通过与实际情况做对比即通过确定Logistic回归方程中门限变量的取值,将方可得单门限回归模型的总正确率。我们用RP.(γ) 程划分在不同的区间中,而每个区间由不同Logìstìc来表示qι=γ时单门限Logistic模型得到的总分类回归方程来表达。正确率。所要确定的门限值γ是使RP.(γ)取得最门限Logistic模型在每一个区间依然使用普通大值时的γ,即:Logìstic方法估计参数。在一般的线性回归模型中,于=arg maxRP. (γ(5) 通过最小二乘法求解回归参数,但作为一种非线性显然,门限变量qι至多有n种取值,通过遍历搜模型,在二项分类的Logistic回归中通过最大似然估索qi各个取值即可确定出于。若n较大,则采取格点计方法求解回归参数。设p,=p(y, = l[x)为给定搜索的方式来确定?。当求出手后,可得到最终ß= 矶的条件下得到的结果只=1的条件概率,则在同虽(于)及ß=户(γ)①。样条件下得到结果只=0的条件概率为P(Yi= o [x) = 1 -p,。由于各项观测相互独立,所以在鼻三、数据说明门限Logistìc回归情况下其联合分布可表示为:本文使用了3个数据集:正文主体模型建立、结果分析与比较部分所用数据是某银行客户违约信扩q!!ζγ lwβ)自p;'(1 -pJ 息②(该数据集均为连续变量,且每个变量的经济意义都很明确,因此将其作为主要分析数据集);稳健L(β'。,β'1,…队q >γ 性检验部分则使用了来自UCI的两个真实数据集,分别是德国某银行信贷数据③及葡萄牙某银行市场(3) 部门数据④。其中,nl表示在n个门限变量观测值中小于门本文判定的对象是银行客户是否违约(是否拖限值γ的数量。式(3)也称为似然函数。我们的目的是求出能够使每个门限区间似然函数达到最大的① 在门限Logistic回归模型的假设检验中,除对回归方程、参参数的估计值。对式(3)取自然对数,由此获得如数等做常规检验外,还需做两个检验:一是模型是否存在门限效应,下似然对数函数:二是于是否收敛于γ的真实值。鉴于两个检验需要做出严谨的论ln[ L(β。,β.,…,βm) ] 证,作为一种初步尝试,本文未进行这两个检验。但对于前者可以考虑采用多次10折交叉检验(如10次)获得多个(如100个)测试组预测正确率的数据,然后参考PairedTest检验法,通过成对数据对= 6 [只ln(fz)+M-pa)lh勺与对之间的关系,以对间的差来构造检验统计量,进而检验门限效应是否存在(门限的引人对预测精度的改进在统计上是否显著)。ln[ L(β'。,β'1,…,β'm)] 对于后者,其检验方法将十分复杂。② 该数据集来自SPSS软件自带的"肝"。n=至(1~ 'p) + ln(1 -pJ] if q >γ ③该数据集来自http://archive. ics. uci. edul mV datasetsl Statlog + ( German + Credit + Data)。(4) ④ 该数据集来自http://archive. ics. uci. edu/mlld atasets/Bank 在Logistic回归中,由于似然方程是非线性的,+ Marketing。
93 . 第31卷第10期王磊等:数据挖掘模型在小企业主倍用评分领域的应用欠贷款),样本量为700。其中,违约的样本量为(在10折交叉验证中使用了同一组随机数,故结果183,约占总样本量的毛,非违约的样本量为513,间完全可比)。程序为自行编写(如门限Logistic程约占总样本量的76%。选取的有关自变量为:年序)或在R现有程序包基础上修改。龄、受教育年限、现职业从业年限、本地生活年限、家(-)模型参数选择与模型结果庭收入、负债/家庭收入、信用卡负债和其他债务。1.决策树(分类树)结果。因变量和自变量的说明如表1所示。我们首先使用分类树对全样本进行计算。分类表1因变量和自变量说明树结果显示,在选取的8个变量中,变量x6(负债/变量符号变量名称类型单位/说明家庭收入)对于判定违约情况起了决定作用,当负y 是否违约定性变量y = 1违约;Y=0非违约债/家庭收入小于时,全部判定为非违约,而x1 年龄连续变量岁x2 受教育年限连续变量年当负债/家庭收入大于等于时,绝大部分情况d 现职业从业年限连续变量年被判定为违约。分类树的整体正确率为%。x4 本地生活年限连续变量年d 家庭收入连续变量千美元2. Bagging模型结果。x6 负债/家庭收入连续变量9毛在Bagging模型中,需要确定合适的树的棵数,x7 信用卡负债连续变量千美元x8 其他债务连续变量千美元棵数过少会造成拟合不充分,过多则有可能造成过拟合从而大幅加大模型方差。在确定树的棵数时,数据显示,x1(年龄)分布较接近正态分布,其我们首先将样本随机分为训练集和测试集两部分,余自变量分布都呈偏态,其中x5、x7、x8偏态性非常样本量各占50%,分别计算棵数从1-200棵相应强。x2(受教育年限)分布普遍集中在9-12年,有的训练集和测试集分类正确率,最后通过正确率的一个异常值。x3(现职业从业年限)分布从0-31变化情况确定树的棵数。选取大于160棵即可(本年,中间50%的人工作3-12年,有6个异常值。x4文使用了软件包默认值500棵)。(本地生活年限)分布与x3相似,中间50%的人在虽然在组合模型中不能像单棵分类树那样给出本地生活在3-12年,有5个异常值。x6(家庭负债明确的分类规则,但可以得到每个变量的相对重要率)有较多的温和异常值,而x5(家庭收入)、x7(信性。在组合模型中,我们可以计算对于所有的树,平用卡负债)、x8(其他债务)分布右偏,中间50%数据均而言,某个变量使得基尼指数下降的总和。该值非常集中,而较大数据分布非常分散。越大,表示该变量在组合模型中越重要。我们对全相关系数显示本文8个自变量间的相关性不样本做Bagging,然后将变量重要性做标准化处理,强。除x3与x5、x5与x8、x7与x8间的相关系数超使最大值为100,求出其他变量重要性的相对值,在过,其余自变量间的相关系数均小于,且绝8个变量中,最为重要的是x6(负债/家庭收入),最大部分小于O.轧过与x3,x3与埠,x5与x6间呈非不重要的是x2(受教育年限),相对较为重要的是x3常弱的负相关,其余自变量间呈较弱的正相关。(现职业从业年限)和x7(信用卡负债)。该结果与四、模型参数选择及对全样本的实分类树的结果具有一定的一致性。证分析3.随机森林结果。与Bagging法类似,我们将样本随机分为训练算法模型需确定一些参数,如组合模型中树的集和测试集两部分,分别计算相应的训练分类正确棵数,人工神经网络隐含层的层数,K近邻中K值等。本部分随机将700个观测值分为训练集和测试率,最后通过正确率变化情况确定随机森林所用树集相等的两部分,通过观察不同参数下模型正确率的棵数。的变化情况,以确定出模型的最优参数,为下一部分与Bagging的结果很相似,在实际计算中,只要10折交叉验证等做准备。同时,在确定出各模型的选取树的棵数大于100棵即可(本文选取500棵)。参数后,各模型对全样本(即全部700个观测值进在随机森林中,还需设定每次拆分时随机选取变量入模型)进行计算,求出相应的分类正确率,找出最个数,一般是不大于自变量个数的平方根,本文每次重要的解释变量,对模型进行初步的比较分析。随机选取的是2个。在8个变量中,最重要的仍为本文使用R软件和Maùab软件获得实证结果埠,其次为U和x3,最不重仍是泣,与Bagging结果
.94. 统计研究2014年10月具有较高的一致性。,而二次判别函数的正确率为。一般而4. Boosting结果。言,当数据的线性趋势较为明显时,贝叶斯判别分析同样地,Boosting模型。在15棵数以后,训练的正确率会高于二次判别分析。因而,该结果可能集的正确率已达到100%,而测试集的正确率稳定意味着本文的数据具有较为明显的线性特征O在左右,正确率略低于前两种组合方9. Logistic与Probit回归结果。法。考虑到Booting的运行速度较慢,本文计算选取我们对全样本做Logistic和Probit回归,二者的的数量为100棵,但完全可以保证正确率。从变量结果具有一致性:变量系数的正负号、变量间相对大重要性来看,在Boosting的变量重要性与Bagging和小、变量系数显著性等方面基本一致。由变量系数随机森林的有所差异,主要体现在最重要的三个变绝对值大小可知,对判定影响最大的三个变量为量为x7、娟和x8(其他债务)。x7、x3和抖,该结果与基于树类的结果有所差异,主5.人工神经网络模型结果。要体现在变量x4和x8上。在树类结果中,x8是非本文使用的是经典BP网络。在BP网络中,需常重要的变量。对于全样本,Logistic的分类正确率要确定隐藏层的层数。层数过少易造成欠拟合,过为 , Probit的分类正确率为,相差无几。多则易造成过拟合。本文同样通过训练集和测试集10.单门限Logistic回归结果。的正确率变化来确定。本文以经济意义与统计意义相结合的方法确定当层数为3层时,正确率达到最大值。因此,本"家庭负债率"为门限值。一方面,该变量具有清晰文BP人工神经网络中层数为3层。对全样本做BP的经济意义,负债率对偿债能力和行为的影响已为网络时,正确率为。现有文献所揭示;另一方面,从统计意义上看,该变6.支持向量机(SVM)模型结果。量在Logistic逐步向前回归中第一个进入方程,且前在SVM中,首先需要确定核函数的形式。考虑文决策树方法也显示其是最有影响的变量。单门限到线性核函数是径向基核函数的一种特殊情况,而Logistic回归结果如表2所示。在某些参数下,Sigmoid核函数与径向基核函数效果表2门限Logistic回归结果{全样本)相似,因此本文最终选择径向基核函数:系数值标准差z值Pr( > Izl) k(x,y) :: 变量区间l区间2区间l区间2区间I区间2区间l区间2exp( -γ11 x -y 11勺。在确定模型中的参数C,8及核睛。664截距ω 。却 -1. 119 函数中的γ时,本文是通过选取不同的参数值,在10x1 O.ω9 折交叉验证下确定的。最终选取C= 1,8 = ,γ x2 O.仪讪 。. x3 O.ω3 O.四目…O.αlO = ,此时对应的全样本正确率为。x4 但 -3.α" O.∞,2" O.∞1时7. K近邻法模型结果。x5 也 O.锦 在K近邻法中,核心的参数是K值的确定。我x6 。ω2也 x7 4.ωq O.侃)9"O.阻旧"事们通过改变K的取值(从1到10),观察值相应训练x8 当 集和测试集正确率的变化情况以确定最终的K值。门限变量x6(家庭负债率)随K值的增加,测试集正确率也不断增加,K=7时门限估计值 注:川、..和 ·分别表示%、1%和5%的显著性。基本保持稳定,而训练集的正确率在不断下降。为防止过拟合情况,综合考虑后,本文最终取K= 7。由表2可知,单门限Logistic回归的门限估计值在全样本下,该模型的正确率为为,与决策树的结果()十分类似。从估0 8.线性判别分析与二次判别分析模型结果。计结果来看,单门限Logistic回归与普通Logistic回本文的线性判别分析使用贝叶斯判别分析,在归的变量系数正负号基本一致,但显著性有一定差对全样本做判别分析时,先验概率为全样本中违约别;两个区间系数估计值系数符号、数值大小、显著(y = 1)和非违约(y= 0)时所占的比重。贝叶斯判性均有差别。由变量系数绝对值大小可知,对判定别分析与二次判别分析的区别在于前者是假定待分影响最大的三个变量对区间1而言为x7、x3和x4;的两类总体协方差矩阵是相同的,而后者假定不相对区间2而言则为x7、x8和x3,与普通Logistic回归同。对于全样本,贝叶斯判别分析的正确率为有差异。对于全样本,门限Logistic的分类正确率为
第31卷第10期. 95 . 王磊等:数据挖掘模型在小企业主信用评分领域的应用,略高于普通Logistic回归。表412个模型在10折交叉验证下的平均E确率测试集训练集{二)12个模型全样本运行结果模型第一类第二类第一类第二类由表3可知,对于组合模型,正确率为1;其他正确率正确率错误率错误率错误率错误率模型以门限Logistic回归的为最高值,但除了决策树 O. \0 Bagging 1. 00 二次判别分析略低外,其余正确率也在左右。随机森林O. 80 1. 00 在最重要三个变量方面,模型普遍确定了x7(信用Boosting O. 79 1. 00 BP神经网络O. 75 O. 14 O. \0 卡负债)和x3(现职业从业年限)。主要区别在于基SVM O. 79 于树类的模型还确定了x6(负债/家庭收入),二元K近邻O. 77 线性判别分析 O. 81 离散选择回归模型确定了x4(本地生活年限), 二次判别分析。. Boosting与门限Logistic回归确定了x8。当然,全样Logistic回归 Probit回归 O. 81 本分析仅用于揭示一些方法的特性。模型间的信用Logistic门限回归 评分能力比较还需通过严谨的方法来最终判定。训练集表现与测试集表现的差异可以反映一个表312个模型全样本运行结果汇总模型的稳定性,稳定性差的模型在商业银行实际应编号模型正确率最重要的三个变量重要参数值用中会受到限制。1 分类树 x6,x3,x7 2 Bagging 1. 00 x6,x3,x7 树的棵数>160 最优前三:线性判别分析、probit、Logistic与门3 随机森林1. 00 x6,x3,x7 树的棵数>100 限Logistic(最后两个并列)。4 Boosting 1. 00 x7,x6,x8 树的棵数>100 3.模型犯错率:第二类错误率。5 人工神经网络 隐藏层=36 支持向量机 I -C = 1,8 =,γ= 从现有结果看,12类方法在第一类错误上的差7 K近邻 K =7 异并不大,需从第二类错误上来区分;而且,实践中8 线性判别分析 第二类错误给银行等信贷机构带来的损失成本要显9 二次判别分析 10 Logistic回归著高于第一类错误(West, 2000)。 x7,x3,x4 \1 Probit回归 x7,x3,x4 最优前三:门限Logistic、Boosting、Logistic和12 门限Logistic回归 x7,x3,x4;x7、x8、x3门限值ú(家庭负债率)Probit(最后两个并列)。4.模型稳定性二:10折交叉验证结果的离散五、模型的比较分析程度O本部分,我们将通过10折交叉验证及预期错误10折交叉验证结果的离散程度小意味着实际分类损失两种方法来最终判定12个模型在本文情应用中模型预测准确率等落入某一较窄范围的概率景下的信用评分能力优劣。较大,有利于模型的推广。{一)10析交叉验证法最优前三:Logistic、Probit、门限Logistic。12个模型的总分类正确率、第一类错误率(好从以上四方面考量,按照出现次数,在本文案例客户被判为坏客户的比例)和第二类错误率(坏客10折交叉验证中表现较好的模型依次是:门限户被判为好客户的比例)平均值如表4所示。Logistic ( 4 )、Logistic( 4 )、Probit( 4 )、LDA(2)和下面我们依据4个标准来综合评判在本文背景Boosting ( 1 )括号内为出现次数。下信用评分能力排名靠前的几个模型:{二)预期错误分类成本法1.模型预测能力:测试集正确率。虽然平均正确分类率是评估信用评分模型分类能力的重要依据,但现有文献也普遍提示,对最小预测试集的高正确率更能反应一个模型的信用评期错误分类成本的考虑也十分必要(Johnson& 分能力。JJWichern, 2002[16; West, 2000[IIJ; Lee, 2005[13; 最优前三:门限Logistic、Probit、线性判别分析JAkk吨,2012[14)。式(6)描述了计算各模型错误分(三者并列)。类成本的期望值:2.模型稳定性一:训练集与测试集分类正确率相近程度。
.96. 统计研究2014年10月因此,综合10折交叉验证法以及预期错误分类cost = c(21 1) * p(21 1) * ’lT+ c(112) * p(112) * ’lT1 2 成本两大类方法,我们认为,本文模型在该数据集上(6) 的综合信用评分能力依次是:门限Logìstìc( 8 )、其中,矶和'lT分别表示客户信用属于"好"和2Logistic ( 7 )、Probit(7 )、基于树类的组合方法"坏"的先验概率,p(21t)和P(112)分别表示是第( Boosting) ( 4 )和LDA(2)。一类错误率(一个信用良好的顾客被错误地分到"信用不好的顾客"一类)和第二类错误率(一个信六、模型评分能力稳健性检验用不好的顾客被错误地分到"信用良好的顾客"一{一)利用德国某银行信贷数据的验证类),c(211)和c(112)分别是与第一类错误率和第数据来自UCI的德国某银行信贷数据集,样本二类错误率相对应的错误分类戚本。量为1000。需要判定的对象是银行客户是否为好为了计算不同评分模型的预期错误分类成本,客户,样本量为1000。其中,好客户的样本量为首先需要求出错误分类概率和错误分类成本的估计300。选取的有关自变量为:xl现有活期存款账户值。p(21t)和p(112)最常采用的估计值是,信用状态、x2开户时间、x3信用记录、x4贷款目的、x5贷良好的顾客被误认为信用不好的比例,和信用不好款额度、x6储蓄账户/债券、x7现职业从业年限、x8的顾客被误认为信用良好的比例。由于很难获得有分期付款占可支配收λ的百分比、。婚姻状况及性效估计值,因此求错误分类戚本的估计值是一项具别、xlO其他债务人/担保人、xll本地生活年限、x12有挑战性且复杂的任务。然而,在信用评分应用中,资产、x13年龄、x14其他分期付款计划、x15住房情大多人认为与第一类错误率和第二类错误率相关的况、xl6已有本银行的信用卡数量、xl7职业、x18需成本是截然不同的。总体来说,与第二类错误率相抚养的人数、x19电话、x20是否外籍工人。该数据关的错误分类成本要远高于与第一类错误率相关的集的7个连续自变量中,只有过与d的相关系数错误成本。主笔德国信用数据报告的霍夫曼博士建为,其余自变量相关系数的绝对值均小于,议,第一类错误和第二类错误相关的分类错误成本相关性非常弱。9个模型(分类变量过多导致是1:5的关系(West, 2000)。这一分类成本比例关boosting方法无法使用,而线性判别分析自变量中不系也被Lee(2005)等的研究所采纳。本文亦将采用能有无序定性变量)的参数选择方法遵照前文,限这个相对成本比率来计算12个信用评分模型的预于篇幅具体过程略。期错误分类成本。本部分我们通过测试组正确率及预期错误分类在12个模型中,本文改进的门限Logistic回归,成本(遵循上文原则)来评判模型。从测试集的正在错误分类成本的期望值方面,表现出了最优的信确率来看,门限Logistic、基于树类的两个组合方法用评分能力。以决策树为基础通过boosting、( Baggìng和随机森林)排名前三;而从预期错误分bagging、随机森林组合方法提高信用评分能力的模类成本来看,门限Logistic与基于树类的两个组合方型,以及普通Logistic回归、Probit回归也取得了不法(Baggìng)、Logistic回归、Probit回归排名靠前(后错的成绩。3个并列)。因此,从预期错误分类成本来看,排名靠前的模(二}利用葡萄牙某银行市场部门数据的验证型是:门限Logistic、boosting、Logistic、Probit。数据来自UCI的葡萄牙某银行市场部门电话{三}模型比较营销的数据集,判定对象是银行电话营销存款是否我们尝试把两大类方法的结果进行简单加权来成功,样本量为30488。其中,营销不成功的样本量作为最后的模型评定。由于10折交叉验证法细分为26629,约占总样本量的87%。选取的有关自变了4个角度,入选模型得分从4分(在各角度模型评量为:xl年龄、x2职业、x3婚姻状况、x4受教育年优中出现4次)到1分(出现1次),为了同等对待限、x5是否有住房贷款、x6是否有个人贷款、x7联两大类方法的结果,我们将预期错误分类戚本中评系方式种类、越最近一次联系的月份、x9最近一次出的模型依据成本数值赋值如下:门限Logistic( 4 )、联系的星期、直10最近一次联系的通话时长、xll本boosting ( 3 )、Logistic( 3 )、Probit(3)。次活动中的联系次数、xl2距离之前活动中最近一
.97. 第31卷第10期王磊等:数据挖掘模型在小企业主倍用部分领域的应用次联系的天数、x13本次活动前的联系次数、x14此在模型的综合信用评分性能做出全面、客观和严谨的前商业活动的结果、x15就业变化率、x16消费价格比较,从而为国内商业银行未来做好小企业主信用评指数、x17消费景气指数、x18欧元银行同业拆借3分模型的建立和应用提供一定的参考。个月利率与x19雇员人数。总体而言,该数据集连在模型比较上,我们遵从现有文献的常用做法,续自变量间的相关性不强。通过10折交叉验证和预期分类错误成本的方式,来该数据集解释的是电话营销客户存款是杏成检验12个模型的信用评分能力。分析结果表明,本功,目前尚难以评判其两类错误成本比例,因为还没文改进的门限Logistic模型在模型预测能力、稳定有成熟经验和相关文献的结论可遵循。因此在本部性、犯错率及预期错误分类戚本等诸多方面表现出分仅通过测试组的总体准确率来评判排名靠前的3了优秀的综合能力;而基于决策树的组合方法在预个模型。期错误分类成本或正确率上的表现也很出色,显示结果显示,门限Logistic、基于树类的两个组合出较强的综合信用评分能力,具有较好的推广性;此方法(ßagging和随机森林)在测试组正确率上排名外,普通Logistic、Probit也表现不错。前三,表现出了较好的信用评分能力。未来的研究将致力于如下几个方面:找寻更多的{三)稳健性检验及模型比较小结数据集(特别是国内银行数据)来进一步检验本文结从以上两个数据集的验证结果来看,本文改进论的适用性;补充更多的可能方法,如二阶段或多阶的门限Logistic模型不论在测试组正确率还是预期段组合方法;进一步完善门限Logistic回归模型,包括错误分类成本上均表现出色,与前文结论高度一致;讨论门限变量选取规则,完善相关假设检验等。基于树类的两个组合方法(ßagging和随机森林)则最后,需要特别指出的是,小企业主信用评分模在两个数据集测试组正确率上均排名前三,但在德型的建立与实施将对银行及政府金融统计工作起到国信贷数据集的预期分类错误成本方面表现一般;很好的推进工作。→方面,由于模型的建立与实施不过,从综合信用评分能力角度来看,基于树类的两需要商业银行有大量而翔实的历史客户贷款信息作个组合方法在3个数据集上均表现出色,只不过在为基础,商业银行将着手完善其微观层面的金融统第一个数据集上是以预期错误分类成本较低见长,计工作;另一方面,商业银行微观统计数据的完善显而在另外两个数据集上则以测试组预测正确率为然也有利于宏观政府金融统计的完善,未来诸如小优。总体来看,上文有关模型综合信用评分能力比企业贷款可得性、小企业贷款的影响因素等宏观政较的结论具有较好的稳健性。府金融统计数据有望为政府决策层推进小徽等相关我们再次尝试把3个数据集的结果进行简单加金融领域改革提供重要参考。权来作为最后的模型评定。由于第一个数据集给出参考文献了最高8分的评价,我们把稳健性检验的两个数据[ 1 ]向晖.个人信用评分组合模型研究与应用[D]:[博士学位论集评判结果也做最高8分处理,并将基于树类的组文].长沙:湖南大学,2011.合方法做合并处理,结果如下:门限Logistic( 8 )、基[ 2 ] Allen N. Berger & w. Scott Frame. Small business credit scoring 于树类的组合方法(7)、Logistic回归(2)、Probit回and credit availability [R]. Working Paper, 2005 -10, Federal 归(2)。Reserve Bank of AtIanta, 2005. [ 3 ] Frame, S., A. Srinivasan and L. Woosley. The Effect of Credit 因此,综合3个数据集的结果,本文所选多个模Sc<5ring on Small Business Lending [ J] . Joumal of Money, Credit, 型的信用评分能力依次是:门限Logistic( 8 )、基于树a and Banking,2001 (3) :813 -825. 类的组合方法()、Logistic( 4. 5 )、Probit()。[ 4 ] Myers Je H, Forgy E W. The development of numerical credit evaluation systems [ J ]. Joumal of the American Statistical 七、结论与展望Association, 1963 Vol. 58, No. 303: 799甲806.[ 5 ] Wiginton J C. A note on the comparison of logit and discriminant 本文的目的在于,从现有方法中广泛选取可能适models of consumer credit behaviour [ JJ . Joumal of Financial and 用于小企业主信用评分领域的多个模型(共计12个,Quantitative Analysis, 1980 (3) : 757 -770. 包括本文对Logistic模型的改进模型-门限Logistic[ 6 ] Boyle M, Crook J, Hamilton R, el al. Methods for credit scoring 模型),并以3个银行客户数据集为案例,来对这些潜applied 10 slow payers[M]. Oxford: Clarendon Press, 1992:78 -89.
98 统计研究2014年10月[ 7 ] Davis R日,Edelman D B, Gammerman A]. Machine町leaming[15] Lee T S, Chiu C C, Chou Y C, et aJ. Mining the customer credit algorithms for credit-card applications [ M ]. Oxford Oxford using classification and regression tree and multivariate adaptive University Press, 1992: 129 -137 regression splines [ J]. Computational Statistics & Data Analysis. [ 8 ] Desai, V.队,Crook, J. N., & Overstreet, G. A. Theory and 2006(4): 1113 -1130. Methodology-A comparison of neural networks and linear scoring [16]Johnson, R. A., & Wichem, D. W. Applied multivariate modelsin the credit union environment [ J]. European Joumal of statistical analysis (5th ed.) [ M]. Upper Saddle River, NJ: Operational Research, 1996 (1) : 24 -37. Prentice-Hall, 2002. [ 9 ] Arnminger, Enache G D, Bonne T. Analyzing credit risk data: a comparison of logistic di配rimination, cl酬滔cation位eeanalysis and f,臼d作者简介forward networks[J]. Computational Statistc˛s. 19'那(2):那-310.王磊,男,1981年生,山东泰安人,2011年毕业于中国社[ 10] Piramuthu S. Financial credit-risk evaluation with neural and 科院研究生院,获经济学博士学位,现为国家统计局国际统neurofuzzy systems[ J]. European Joumal of Operational Research, 计信息中心统计师、中国国际经济交流中心金融学博士后。1999(2): 310 -321. 研究方向为金融风险计量与管理、购买力平价与汇率。[ 11] West, D. Ne ural network credit scoring models [ J] . Computers and 范起,男,1983年生,北京人,2009年毕业于北京工业大Operations Research, 2000 ( 11 ): 1131 -1152. 学,获经济学硕士学位,现为国家统计局国际统计信息中心[12]石庆歉,靳云汇.多种个人信用评分模型在中国应用的比较研统计师、中国人民大学统计学院博士研究生。研究方向为机究[J].统计研究,2004(6):43 -48. 器学习、金融统计、购买力平价与汇率。[ 13] Lee T S, Chen 1 F. A two-stage hybrid credit scoring model using 解明明,男,1984年生,山西汾阳人,2009年毕业于中国artificial neural networks and multivariate adaptive regression splines 人民大学,获统计学硕士学位,现为国家统计局国际统计信[J] . Expert Systems with Application, 2005 (4) : 743 -752. [ 14] Akko S. An empirical comparison of conventional techniques息中心统计师。研究方向为经济统计。, neural networks and the three stage hybrid Adaptive N euro Fuzzy Inference System (ANFIS) model for credit scoring analysis: The (责任编辑:方原)case of Turkish credit card data [ J]. European Joumal of Operational Research, (2012)( 1) : 168 -178. 《统计研究>>"中图分类号"要求《统计研究》中图分类号可参考下表,并与以下的文献标识码列在一行用五号宋体标示。《统计研究》主要栏目中图分类号简明对照襄主栏目分栏目分类号统计工作的改革与发展 法律法规 统计方法制度 统计管理体制 统计资料管理,统计信息化建设,统计数据库C816 国外统计工作C829. 1 经济统计学F222 国民经济核算 统计方法的应用与创新C81 统计调查、抽样与抽样分布C811 概率论0211 数理统计方法(如非参数统计、参数估计、假设检验、时0212 间数列、贝叶斯统计、相关分析与回归分析)统计指数C813 统计实证分析C812 统计模型的应用 统计史 统计教育