- 1 -
中国科技论文在线
基于银行信用卡客户信用的实证研究
潘树颖,韩兆洲**
作者简介:潘树颖,(1986-),女,暨南大学硕士研究生,主要研究方向:经济预测与决策
通信联系人:韩兆洲,(1955-),男,暨南大学教授,博士生导师,主要研究方向:经济预测与决策. E-mail:
(暨南大学经济学院,广州 510632)
摘要:近年来,我国商业银行大力开拓信用卡业务市场,随之而来的信用卡的推广和使用将5
会带来一系列的信用风险问题。本文尝试使用支持向量机(SVM)来研究信用卡客户的信用
评价,利用三种常用的核函数建立相应的 SVM模型,最终得出基于径向基核函数的 SVM 模型
为最优。利用该模型对银行信用卡客户进行分类,区分出“好”客户和“坏”客户,将有利
于银行针对不同人群采取相应措施来降低信用风险。
关键词:核函数;支持向量机;模式识别;客户信用 10
中图分类号:
Empirical Study on Credit Card Customers
PAN Shuying, HAN Zhaozhou
(School of Economics, Jinan University, GuangZhou 510632) 15
Abstract: In recent years, China's commercial banks vigorously explore the credit card business
market, while the promotion and use of credit cards will bring a range of credit risk. This paper
attempts to use the support vector machine to study the evaluation of credit card users. Three
common kernels are used to establish the SVM model, and we ultimately conclude that the SVM
model based on radial basis kernel is optimal. Using this model, bank credit card customers are 20
classified, distinguishing between "good" customers and "bad" customers. This will help banks to
take appropriate measures for different people to reduce credit risk.
Keywords:Kernel function; support vector machine; pattern recognition; customer credit
0 引言 25
随着经济的快速发展和全球化趋势的不断增强,人们的消费观念也有了很大的改变:从
原来保守型的存钱防患、有钱才买物品,到现在的贷款和分期付款。各大商业银行积极推广
信用卡的使用,提倡人们未来消费的观念,使得很多人甚至拥有多张信用卡,以满足强烈的
消费欲望。信用卡的开卡客户规模迅速扩张,透支的额度也越来越大,使用的范围也越来越
广。商业银行通过提供透支方式鼓励消费,一方面增大了投资商机,提倡人们超前消费,提30
供了便捷的结账方式,拉动了国家经济的进一步发展;另一方面也增加了信用风险,开卡把
关的不严格,监督机制的落后,导致恶意透支的客户日益增多,不良贷款还款的问题日趋严
重,可能会给银行的正常运作带来潜在的危机。更重要的是,与国外成熟的银行管理体系相
比,目前国内商业银行对信用卡的管理仍处于起步阶段,盲目追求业务量的扩大,管理技术
的低下以及不少漏洞和不足之处的存在,必定带来更大的风险。然后,对于这类信用风险评35
估方面却相对落后,甚至还存在着很多问题,缺乏有效的个人信用评价方法。
目前国内银行对个人信用评价的研究还处于初级阶段,相关文章并不是很多。石庆焱[1]
和靳云汇(2003)使用判别分析、回归分析以及神经网络的方法来对个人信用进行评分,比
较各种方法的性能,但是该篇文章主要以提出理论为主,没有选用样本做具体应用的案例研
究。郭振亚[2](2009)使用 SVM 模型对福建某银行部分样本数据做分类处理,与此同时同40
利用神经网络建模分类的结果准确率做了比较,但是样本只选取了八种属性作为评估指标,
- 2 -
中国科技论文在线
不能更全面地反映复杂的业务逻辑。
本文使用三种常用的核函数建立支持向量机,针对样本量较少,维数高的特点,将输入
空间变换到高维空间再进行分类,并比较它们分类结果的优劣,同时研究其在德国某商业银
行信用卡客户信用评价的应用情况,以便为我国的商业银行信用卡运作提供参考。 45
1 支持向量机的理论回顾
支持向量机[3](Support Vector Machine,简称 SVM)是 Vapnik 教授等人首先提出的,
但是由于初期没有得到人们的重视,发展缓慢,直到二十世纪九十年代才逐步形成较成熟的
统计学习理论。该理论适用于小样本情况下的研究和预测,采用经验风险最小化(Empirical
Risk Minimization,ERM)的归纳原则。但是只有样本的数目趋于无穷大时,经验风险才可50
能趋近于期望风险,因此对于有限样本的情况下,仅用 ERM 是行不通的。在此基础上统计
学习理论进一步提出了结构风险最小化(Structural Risk Minimization,SRM)的归纳原则:
需要向给定函数集提供一个容许的结构,并在整个给定的结构元素中找到最小化保证。
支持向量机主要是通过设定某一个非线性变换,将输入向量映射到高位特征空间[4],在
该特征空间中,构造出一个最优且必定是唯一的分类超平面,随之需要构造出支持向量机。55
为了解决该问题,可以定义一个Lagrange函数:
1
( , , ) 1/ 2( * ) ( [( * ) ] 1)
l
i i i
i
L b a y x bω ω ω α ω
=
= − + −∑ ,
其中, 0iα ≥ 为Lagrange乘子。为了找到该函数的最小值,首先需要确定ω和b的值。利
用 Lagrange的函数分别对ω 和b 取偏导数可以得到两个偏导数等于零的式子便能进一步
计算出ω和b 的值。在高位特征空间中生成的内积可以构造出一些决策函数,它们在输入
空间中是非线性的,满足最优超平面的形式如式: ( , ( ( , )i i if x sign y K x x bα) = α +∑
支持向量
),其中60
( , )iK x x 是生成这一特征空间的内积的核。在约束条件下求出
1 ,
1( ) ( )
2
l l
i i j i j i j
i i j
W y y K x xα α αα
=
= −∑ ∑
的最大值,即为最优化时的情况。
在不同的条件下,输入空间构造的非线性决策面具有不同的核函数。应用支持向量机的
核心之处即为确定使用哪种核函数,选取怎样的参数,才能保证得到最优的分类面。常用的
核函数主要分为三类[5],本文在作实证分析时同样采用了这三种,它们分别为: 65
1) 多项式核函数
deg( , ) [ ( * ) 1] reei iK x x x xγ= + (为了构造d 阶多项式的决策规则)
2) 径向基函数(RBF)函数——最为常用的核函数
2(| |) exp{ | | }i iK x x x xγ γ− = − −
3) Sigmoid 核函数 70
[( * )] tanh( ( * ) 0)i iS x x x x coefγ= +
2 对信用卡客户的信息作实证分析
数据的选取和处理
本文研究对象是针对银行信用卡客户信息,但由于目前国内各商业银行的信用卡信息属
于保密信息并且具有高度商业价值,故尚无公开的数据。因此,本文选用德国某银行公开的75
信用卡客户资料[6]作为数据。该数据共包含 1000 名客户资料,其中每条数据含有二十个属
- 3 -
中国科技论文在线
性(包括 7 个 numerical 类型和 13 个 qualitative 类型的数据),该资料包括了信用卡的使用
情况以及信用卡持有人的个人经济情况等多方面信息,因此极具挖掘价值。
SVM 模型对数据要求必须是数值类型,而选用的 1000 条数据中有 13 个属性为定性数
据类型,不符合支持向量机的要求。因此,首先需要使用 Excel 软件对所有的数据作处理,80
并对每列选取恰当的属性名,保存成 Excel 文件,以便进一步导入到 SVM 模型中。
评估模型的构建和结果分析
本文中采用的支持向量机调用了 LIBSVM 软件包[7],该软件包是由台湾大学林智仁(Lin
Chih-Jen)等首创,后来被 David Meyer 开发为 R 的 e1071 软件包,实现了 R 语言与 LIBSVM
的接口。 85
为了更合理清晰地比较三种核函数下建立的 SVM 模型,找出哪一种函数更适合该模型,
以便更准确地对该银行信用卡客户信用进行评价,本文通过连续五次独立重复实验来验证:
即从 1000 条信用卡数据中随机抽取(随机抽取符合概率原则,确保实验结果的有理可依)
三分之一的数据作为测试集数据,剩余的三分之二作为训练集数据。对于不同的核函数,选
取不同的参数对训练集数据进行训练,找出合适的参数值以得到最优的 SVM 模型。然后使90
用测试数据集检验该模型预测的准确率,也就是用该模型评估未知的银行信用卡客户信用,
根据得到的结果分析该模型的可靠性。运用 R 软件经过大量的测试,分别找到了最优参数
值,具体的核函数及其参数如下:
1) 多项式核函数: 2( , ) [*( * ) 1]i iK x x x x= + , cos 50t =
2) 径向基核函数: 2(| |) exp{ *| | }i iK x x x xγ − = − − , cos 30t = 95
3) Sigmoid 核函数: [( * )] tanh(*( * ) 2)i iS x x x x= + , cos 100t =
核函数参数的确定, SVM 模型随之确立。利用建立的 SVM 模型对数据进行分类整理
得到的实验结果如表 1 所示。
表 1 基于核函数的 SVM 模型的分类结果 100
对训练集数据分类的准确率 对测试集数据分类的准确率 实验
序号 多项式核函
数
径向基
函数
Sigmoid
函数
多项式核函
数
径向基
函数
Sigmoid
函数
1
2
3
4
5
从表中可以看出,三种核函数建立的模型对数据分类效果都比较理想,其中径向基函数
的结果最为理想。无论是使用测试集对模型进行准确率的测试,还是对训练集分类的准确程
度的统计结果都是最好的,也就是达到分类最优。利用多项式核函数获得的分类情况相比径
向基函数差一点,而基于 Sigmoid 函数的支持向量机显而易见在三个当中的准确率是最低105
的,相对来讲不适合使用该模型进行分类。因此选用径向基函数的 SVM 模型对该银行信用
卡客户的信用评分分类为最优模型。
在表 1 中,使用径向基函数为核函数建立的 SVM 模型具有较高的可靠性。运用测试数
据对该模型做验证,得到了 77%以上的准确率,证明了该模型具有很高的可信力。更进一
步,利用该模型对训练集数据做分类处理得到 82%以上的分类准确率。因此,可通过使用110
- 4 -
中国科技论文在线
径向基函数 SVM 模型对信用卡客户进行分类,找到哪个客户是“好”客户,哪些客户是“坏”
客户,对于不同类别的客户,可以采用相应的对策和措施,如对于有消费潜力,并且信誉良
好的客户,给与更高的贷款额度,或者联合商家时常推荐适当的产品,建议客户分期付款等。
而对于经常拖欠还款的客户,则限制其贷款或者减少其贷款额度等,对于信誉不良甚至存在
很多不良贷款的客户,则应及时停用其信用卡,减少银行损失。总之,通过对信用卡客户信115
用的研究,以达到减少信用风险,保证银行运作的正常性,最大效率地提高工作质量,增加
银行利润。
3 结论
信用卡客户信用评估问题实质上也就是模式识别问题,而传统的统计模式识别方法只有
在样本数量很大甚至趋向于无穷大时,其性能才有理论的保证,并且传统的统计模式识别方120
法在进行机器学习时一味的强调经验风险最小化。而单纯的经验风险最小化很可能会产生
“过学习问题”(某些情况下,当训练误差过小反而会导致推广能力的下降),因此其推广能
力较差。而 SVM 模型除了满足经验风险最小化原则外,还具备结构风险最小化,避免了单一
原则所带来的弊端。
本文利用支持向量机来挖掘商业银行信用卡客户中的重要信息,研究并分类出哪些客户125
具有良好信用,而哪些客户存在不良信誉,从而可以进一步对不同信誉的客户提供不同额度
的贷款,限制信誉不好客户的贷款,对此类客户需要重点分析和观察,采取必要的措施,减
少银行信用风险。由于本文使用的数据是德国某银行的信用卡客户信息,其客户的特点和信
息的类别跟我国可能会有很大的差别,因此我国银行在引用该模式识别模型研究问题时,需
要针对具体的情况,做不同的处理,选择不同的参数,避免照搬照抄,导致模型失效。 130
本文中默认各属性对于评价客户信用的重要程度是相同的,然而在现实中,衡量信用卡
客户的信用程度时,需考虑每个属性的权重应该有所不同。因此在实际应用中可根据实情,
设置恰当的比重权数,进一步优化 SVM 模型,为商业银行减少信用风险提供更具参考价值
的模型,提高银行运作的稳定性,进而稳定整个金融市场乃至社会的平稳发展。
135
[参考文献] (References)
[1] 石庆焱,靳云汇. 个人信用评分的主要模型与方法综述[J]. 统计研究,2003,(8):36-39.
[2] 郭振亚. 支持向量机在信用卡信用评估的应用[J]. 电脑知识与技术,2009,5(7):1661-1663.
[3] 邓乃扬,田英杰. 数据挖掘中的新方法-支持向量机[M]. 北京:科学出版社,2004.
[4] Vladimir N Vapnik.统计学习理论[M]. 许建华,张学工. 北京:电子工业出版社,2009. 140
[5] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报,2000,26(1):32-41.
[6] Asuncion, A., D. Newman. UCI machine learning repository[].[].
[7] Chih-Chung Chang, Chih-Jen Lin. LIBSVM: a library for support vector machines[].[].
145