统计与信息论战第24卷第8期2附年8月 Statistics & Infonnation Forum Aug. ,2∞9 [统计调景均分析]第三领域保险的高风险客户现别研究谢邦彦石洋2(1.首都经济贸易大学统计学院,北京H削'26;2.厦门大学经济学院,榴建厦门361ω5) 摘要:随着第二三领域保险占有市场份额的日益增大,对该领域风险客户的研究分析显得更加重要。利用台湾果保险公司原始数据,运用聚挠分析、决策树等方法建立离风险容户的判别模型,并对保险事户进行详细的分析,从而识别出高风险的客户,可以帮助保险公司避免不必要的风险损失,提高其盈利水平。关键词:第三领域保险;数据挖掘;风险曾四川中圈分类号:问::It献标志码:A文章编号:1ω7-3116(2ω9)08-0091-06于"费整益"。同时,这个原因也是我们后丽模型假-,~l言设选择高风险睿户划分标准的侬掘。与传统的产险或缚险都不间,在经营中,第二领台湾保险业不仅在经济上为本地发膜锦上添域具有自身的一略特点[2]:(1)公共性。这是因为花,更是在社会福利上提高了人民生洒水平,同时还发生意外事故或重病后,消费者对服该如何找到合解决不少就业问题,但这个行业中仍有许多阻碍其适的医院、获取适当的医疗服务(价格合理、E累疗水发展的程柑亟待解决,其中就包括商风险客户的判平高)并不清楚,而且按助方案也稽要得到保险公向定。事先做好高风险客户判定,既能在很大程度上的帮助和认可,因此相对于信息不完全的消费者来改善保险业中供方的经营状况,同时也是避免资金说,保险公词提供的产品和服务具有公共性。保险浪费和分配不均的有效途径。现今,传统幌念上的公司掌握了有关医疗、医院、医生、社会救助方面等异于险和产险巳经不能满足日益增长的扯会需求了,最究静的俯息,甚茧使没有参保的人也可以从中挟继阳市场上出现了号称保险业"第二三领城"的险种。取有价值倍息。(2)专业性。健雕险和意外险都是"第三领城"的概念是从日本引进的[1]。为增强保针对人体的生命提供补偿和保障安排,这需要相当险市场的洒力,1965年日本保险管理当局裁定"意专业的医学及其它知识,才能准确了解和控制风险。外伤害、医疗保险既不属于人寿保险也不属于财产所以很多公司在经营两险中远步建立起了自己的医保险,阳是属于第三领域的新险种"。意外险和健康院,或均医院建立了密切的合作关系,保险公司要配险被列人"第三领域"有其理论上的依据。因为这备专业技术人员开发产品和进行核保、按赔,并指导两类险种都是以人的身体为标准的,所以在分业经客户就医。(3)网络性。经营两险需要形成规模优营初期,政府…般将其划为人寿险的经营班阁,但是势,而且服务作为产品的→部分,只有在网络健余的根据保险经营的…些基本特点,阴险业务也应该被情况下,才能为密户提供最及时、便捷、优质的服务。纳人产险公司业务范围,主要体现在费率原定、合计有效的网络可以对发生意外伤害与疑难杂症的人进周期、收益来源和赔偿目的四个方面。其中收益来行及时的、全球性的救助,给客户提供更充分的保障惊也是后回模型假设选择商风险窑户划分标准的依和服务。(4)成本支出集中性与传统的产除不同。据。产险经营收益主要来自"费差益这与海险收第二领城业务…般在展业初期耍支付大部分的预定蔬主要来源于"死差益"、"利菜蔬"有极大的差别,而费用,用于体检、佣金等支出,这使得第三领域在核所谓的"费援益是指预定费用与实际费用的楚。算中的费用分摊与传统产险有很大眩别。…般来说,第三领域中两险的经营收益也只能来源收稿日期:2ω9-05…20作者简介:谢邦彦(1968-),男,湖南宋阳人,博士生,研究方向:数据挖掘与商业智能、质量管理;石洋(1986-),女,熏庆人,本科生,研究方向:数据挖掘及风险管理。91 ?췲랽쫽뻝뗚噤乯춳却䙯䅵ꆾ킻⠱햪첨뗄맘훐컄튻ꆢ뿚뮨뷢랢뚨룄샋쫙볌ꆰ䪡쿕췢놣솽펪룹쓉훜풴뻝틦쯹폚짨폫폲쫊욽쮵릫ퟮ좡헫풺놸뿍쫆쟩폐탐뫍럑쯣쫕ퟷ쪯㤱??㈰ꎮ枣?ꎬ㈴慴牵튪췥럖볼춼쿗헂룥헟퇳뻶햹ꆣ짆럑쿕뛸뗚ꏎ쫐짋놻샠돵뻝죋웚튲훷캽냣ꆰ톡뒫뻟짺뗄룟냯쮾폐튵틔뮧뿶킧벰럾죽폃훐볆춳췪뛔?꺣죗〹냮㈴뻭楳?쫗ꎺ쒳컶듊럖뇪뇠죕볲⠱갲놣룼늻뗄쫂뫍쫐뎡몦ꎬ쇐쿕웚닺ꆢ쫇튪살럑퓱춳폐틢튽⦲훺헆볛뫜믲튵뻍뛸쿂쪱컱쇬죽쓪폫볆짆죋〰?뗚瑩뚼쯦놣ꎬꎺ샠횾뫅웚뷩㤸퇥쿕쫇짙쿈럖닺뎡쇬뗄ꆢ뛸죋훖ꎬ쫕뫳살ꆰ쮵닮룟ퟔ췢풺ꊲ뫍컕횵튽뛠폫벼쟒췸ꆣ폲폃럑㣔?탅뗷뗄쳥㣆捳뺭ퟅ쿕듓뗚뫅싫ꎺ㛒?튵퓚뻍ퟶ엤쿕짏폲뾱믮튽쫇ꆰ뚼헾뺭릫틦쏦풴럑ꎬ럧닺짭쫂ꆢ믇죏쇋탅톧쫵ꆣ럾닅싧⠴폚폃ㆣ쇬?♉볃뗚릫뛸죽ꎺ㈰킻묩쾢닩탅뗄늻짧튵?뫃훐틑돶ꆱ솦쇆쫴뗚쫇뢮펪살쒣폚닮쿕뗄맊믱뿉폐쾢벰풺죋⠳컱쓜좫⦳쳥럖湦쎳죽쮾쪶쇬䘸?〷〹냮ꎬ곊싛폫쾢짺뷶믡컊듽룟릩뻹뺭쿖뗄ꎬ놣폚죽틔튻튵풴탍쫕ꆰ틦ꆣ뿍믲좡ﺣ쳡맘웤퓚붨풱⧍ퟷ캪쟲즱볬첯潲틗쇬풭뇰㐰ꆪ퇥얮폲첳럖ꎬ쏼꿑浡듳폲쪼돶놣ꎮ㌱퓚뢣쳢뷢럧랽뗄늻쇋룅ㄹ쿕뗚쇬죋냣튻컱뫍볙틦쯀ꆱ춬뮧쫙킩훘쫊겶틲릩튽⠲쯼뺭솢뾪캪뿍뛔탔뻖ꆢ폫〵⠱瑩컶톧놣쫽룟쿕?ㄶ짵쳡ꆪ㤶훘뺭샻ꎬ뻶뗄폐쓜뫅쓮㘵볈죽폲붫킩랶엢짨훷닮쪱뮮쳘늡떱듋쇆⧗횪펪쇋랢닺뮧Ꭓ퓚펶뒫놣潮춳쿕뻝럧ꎻ⠲㈰㣒쟬ꆿ볃짏떫ꎬ뿍뺭킧싺돆쫇쓪늻쇬ꆱ짭웤믹캧뎥톡튪틦훐럖뚼뗣뫳뗄튾쿠닺ꆢ훁꣒릩쪶솽쏜풡욷쳡짺뻈햹뷰볆햼ꎬ쿕쫽〰묩죋짏쳡헢웤뮧펪춾ퟣ놣듓죕쫴폲폐쳥뮮놾ꎬ쒿퓱살ꆱ횸솽뇪늻嬲튽죖뛔욷뗐쿕쟐ꎾ뗄릩틢훺꿖튵뗈닺쪹늹톧폐퓋뗄뻝㤩ꎬ쿕캪룟룶훐에ힴ뺶죕쿕놾폚뗄웤쳘훷ퟔꆢ풤ힼ춬ꆿ쿻쇆覆뫍풺풡닅귓튻ퟮ췢ꎬ탐돵횧쎻뎥풺쫐폃뿍췚〸쓐놾놾쇋탐뻍뚨뿶ꆣ틦튵놣죋탂샭뇪뗣튪쯄럧ꆰ뗄풭ꎺ럑럾붰탅ꆢꎽ쓜훰뫏뷸꫁늿벰짋룸퓓웚돶폐ꎬ뎡뻛뮧뻲ꆪ뿆폐뫍뗄뗘죋튵냼쿖퓶ꆰ틽쿕쫙싛ힼ쳥룶럑샻뺭틲틀퓚⠱헟컱룒쾢튽ꆿ늽ퟷ탐뷏럖쪱몦뿍튪뫜놱럝샠ꎬꎻ〰뫾짺닎놣뺩뛮럖뿉杌㤱랢쏱훐삨볈춬뷱뎤뗚뷸맜놣훖짏뗄쿕솽쿖랽뿍닮폃펪튲뻝뺭⦹뛔⢼닐늻뻟짺뗏좷붨맘뫋헐ꎬꆢ폫뮧ꯍ횧헢듳쓏놣헏룟뗄컶틔쿕ꆪ퇐햹짺죔쓜쪱ꎬ죽샭ꆱ퓚쏦뮧틦폫쫕쫇ꆣ펪ꮹ펦?췪폐ꆢ햺쇋솢쾵놣횻뇣틉쳡뎵뢶쪹쟸〰죕ꆢ냯〶뗄낲퇴뺿뷵믮폐럧퓚튲뒫짧쇬ꆾ떱ꆣ틀쯹뺭튵럑뮮ꆱ쪵틦컒훐닐룃ꪵ좫릫췒뷢웰ꎬ뷝쓑릩쒲듳뗃뇰㈶틦뻶훺뇰랽죋업럧짏쮮탭쿕뫜쫇춳믡폲?뻖늻틢뻝틔펪컱싊웤럖ꎬ폐볊튲쏇풡죧쿀쎵뗄릲뫍쇋놣뫋캳퓚ꆢ퓓룼𢡊늿뗚ꆣꎻ퓶닟놣ꎬ쿲쳭욽뛠뿍듳뇜룅탨ꆱ닃쫴췢ꆣ퓚랶튲샥훐뇪헢벫럑횻뫳뗚ꏕ뫎붱쿻탔뻈ꎬ뿘ퟔ쿕엢즹췸폅횢돤햲럖죽㊣듳쫷쿕늩ꎺퟨ뮧돌쏢쓮쟳뗄뚨폚틲럖캧펦쫕ힼ폫듳폃쓜쏦죽헒ꋒꏏ럑ꆣ훺햶훆벺싧훊믍쇬쿕뿉헢껏ꎬ뗈릫쪿쫽춬낭뗄뛈짏쇋쿕ꆰ닆뫍캪튵ꎬ룃ꆢ틦쫙살쒣쇬쟒떽뷁햹헟놣볊럧늢ꏓ붡죋겡풤폲쏃뛔랽쮾짺뻝틔탨어룃램뇜쪱웤에짏뷰뗄ꎬ훖틢닺붡헢뺭떫놻믡살틀쿕닮풴탍뫏웋ꯋ쏦?튽튪횸좫럾뷸놣뚨퓚췚뿍듓튪쇬붨쏢퇐뻲뮹ꆣ뾵쫇볆쫕뇰볙?뗈엤떼뗄컱헏뫋훐쿠Ꞿ폲솢늻뺿벰ꎬꆣ뮧궼럧룟뇘믱떱랽뛸쏑쿕럧튪쿲뿍쿕뗄ꎺ맜헧몣뮧뿍럧쫽샭겸뗄뮧쿕뻝ꆣ뇰ꎽ퇐뗄쯰췚꣏뺿에쪧뻲퇐쏃럖뇰ꎬ폫씳컶쒣쳡짌㘱쿔탍룟튵뺿〰뗃ꎬ웤훇㔩룼늢펯쓜볓뛔샻ꆢ훘놣쮮훊튪쿕욽솿ꆣ뿍맜샻뮧샭폃뷸ꎻ탐쿪쾸
统计与倍息论坛国内对于第三领域保险的研究非常少,即使有1981-2002年的65535笔29个变量指栋(依次编也是定性分析,很少有深入的定最分析,更没有从数号为:VI-V29)的原始数据,大致分为4类:(1)投据挖掘角庶探讨如何识别高风险客户,降低保险业保人的个人信息,包括性别、投保年龄、职1业!k股类别、要的风险[340本文利用运用K…民1EANS、决策树和被保人关系广义线性回归分析等方法建立商风险睿户的判别模括保障年期指示、保障年期、保险形z蒜~L、保险形态型,对第三领域保险中高风险客户进行黯别研究。2 、... 魏约别、地眩、通路、保险组另别q、保t单棋状况、投保月皮等;刊(引3)投保人的风险状况,包括撒费年期指示、缴二、数据来源均交爱说明费年期、缴别、缴费方式、巳缴保费组别j(4)理赔现本文所选用的数据为台湾某大型保险公司的状,包括理赔件次、理赔金组别、有无理赔。见表10表1变量说明表12345678 保额(若为单位,已转换每…单位==20万,最高为3单位部ω万)保障年期指示1年满期,2岁满期,3次被保人岁满期,4终身,5…年期保证续保保障年期年满期:(1)-(30)年,岁满期:(56),(91),(97)岁,终身:(106)岁,(999)缴费年期指示1年满期,2岁满期,3次被保人岁满期,4终身缴费年期年满期刊1)-(30)年,终身:(999)缴别(0)遐缴,(1)月缴,(3)学缴,(6)半年缴,(12)年缴缴费方式(A)收费员收费,(B)银衍转账,(C)借用卡,(D)联名卡,(P)邮政划拨,(S)薪扣保险型êl(1)寿险,(2)伤害险,(3)健康险(巴)死亡险,(C)防癌险主约由保额,(D)重大疾病主约,(的生死合险,(G)黛外险附约,(H)住院日额9 保险型态2险,(I)伤害医疗险(日),(])意外(二六级残),(K)防癌险主约一单位,(M)伤害医疗险(限),(民)重大疾病附约,(Y)防癌险附的,(Z)豁免保险10 契约别(1) 3::约,(5)附约11 通路(A)传统通路,(日)银行保险,(C)收展部,(D)经代部(∞)总部地眩,(51)台北地眩,(56)新竹地区,(61)台中地区,(66)藕义地区,(71)台南地眩,(76)高12 地区别雄地区,(81)东部地区唱3456789 az--··性别(1)男性,(2)女性伽投保年龄··A职业主题别。不分类,1-6类唱EA--要被保人关系o不详,(0)公司,(1)本人,(2)配偶,(3)子女,(4)父母,(5)其它,(7)极父母 婚姻状况(1)未婚,(2)日婚,(3)离婚,(4)丧偶,(5)分腊,(6)其它 .. 伽已缴保费4··伽年龄组别(1)未满14岁,(2)14-23岁,(3)24一33岁,(4)34-43岁,(5)44-53岁,(6)54岁以上日额:(1)未满1千元,(2)1千~未满3千元,(3)3千~未满5千光,限额:(4)5千~未满1万元,(5)1万~未满5万元,(6)5万~未满10万元,20 保额组别保障:(7)10万~未满1ω万元,(8)100万~未满5ω万元,(9)500万~未满10ω万元,(10)10ω 万元以上(0)元,(1)未满1万,(2)1万~未满10万,(3)10万~未满50万,(4)50万~未满1ω万,(5)1ω万21 巴缴保费组别~未满5∞万,(6)500万~未满10∞万,(7)10ω万以上有效契约:(A)自动势缴,(M)撒费期满,(P)正常缴费件,(R)策效,(U)减额缴清,(W)豁免保费,22 保单状况无效契约:(D)被保除人死亡,(E)保单满期,(1)被保险人企残,(])违反告知解约…理赔,(K)死亡待核,(L)停放,(N)契约撤销,(S)解的一保户烹动,(T)失效,(X)拉销一公司烹动节制句3AιyζJζ0投保年度qLW投保月份叮,"7理赔总金额曲句品理赔件次『,投保仲吹default部1(0)元,(1)未满1万,(2)1万~未满10万,(3)10万~未满50万,(4)50万~未满1∞万,(5)1∞万28 理赔金组别~未满5∞万,(6)5∞万~未满10佣万,(7)1以)()万以上29 有无珊赔(0)无理赔,(1)有理赔92 ?췲랽쫽뻝춳맺튲뻝뗄맣탍뛾놾ㄹ㔳뫅놣놻삨㊡뛈럑ힴ뇭뷉?ㄷㄸ㈰㉬㈲㈳㈴㈵㈶㈷㈸㈹⣈㇄쓪⠰⡁⠱⡂쿕듳탛ゲ⠩죕쿞췲ꆫ폐컞뫋摥⡏〰潯ㄱㄲㄳㄴㄵㄶ⠰晡볆뛮헏럑뇰쿕믩틑춶샭폐싺⧵⧊⧋벲⧖⦴〩뗘⧄뮷늻⧎풪캴킧ネ濍쓚쫇럧틥ꎬ컄㠱㖱캪죋놣ꋆ뗈쓪ㆱ췚웵춨뗘탔춶횰튪⧎ꆢ畬폫쓪랽탍틶뷉쇤뛮떥놣엢컞ꪵ陼뮽햷?샍⡉늡ꯍퟜ쟸탐훀쿪뒻듂틔?싺웵⡌뛔뚨쿕쿟쯹ⴭ쨲ꎺ뗄죋헏ꎻ웚냼풼슷쟸뇰놣튵놻?뻲琽탅웚쪽첬ힴ놣ퟩ쓪퓂ퟜ볾뷰샭ꗎ?ꎺ즣퇔햣⧉뢽벣돍늿ꎬ풣僧⠱⠴⠷짏갨㔰풼⧍퓉쫽폚탔嬳뗚톡㈰㦸嘱룶맘쓪벱⠳ꆢ삨뿋?뇰샠놣뷇쾢횸?뿶럑뇰뛈럝뷰듎ퟩ엢뮣갲⠱갨뇊햣쮺풼ꣂ뗘⠸갱⠰㓋⧎⤵⤱ㄩネꎺꏐ㜩쇤뇰뗚럖張믘죽폃〲ꆫ죋쾵웚⧍뷉샭뗃뻝싛쪾ퟩ뛮뇰곒쯪⦡ㄩ햷㈩갨ꛒꎬ㔩랣쟸ⴭ⦹듂잧ネ캴⡁⡄ꞣ?뛈맘갨죽컶䪡맩쇬뗄쓪瘲탅ꆢ횸ꊵ뚱뇰엢첳퇗싺ꬨ퓂톣짋䌩뷁⡙뢽갨ꎬ뚫얮㛀ꯋ틑僧ꆫ⧗⦱살첽쾵ㄩ쇬ꎬꎱ럖폲쫽뗄뿖㤩쾢믩쪾?ꏈꆢ볾?ꪻ웚㌰뷉갨몦럀웏⦷풼䈩⠵늿탔뺣㈩잧캴ꯎ㇍㘩풶뮱丩폐쳖풴폲뫜뻎컶놣뻝㘵뢱뗄ꎬ틶ꆢ쮵뷉듎믃⧄䈩쿕납픨산틸ㄩ뗘갨ㄴ풪싺듂㔰꾵ꏏ웵샭죧뿒㎴⠳틸ꎬ죕ꧏ탐첨쟸ㄩꆪ㇍𤋮갨ネ허풼놣짙쓀뗈쿕캪풭냼ힴꋍ쒷럑ꆢ폫엢뮵캱곋곖⦼탐⠳훷⦣햸놣놱놾⧀㈳⠲住㈩즣쯋뎷쿕폐뫎ﯓ랽훐첨틀쪼삨뿶헏ꣂ샭뇤ꗎ뮱헉뺽⦽풼갨뷔쿕뗘죋쯪⤱ꪣ췲㇍ꯎ샍쿺뗄짮쏔램룟췥듎쫽탔ꆢ쓪랡헗쪽엢쪶묽ꏈ陼즣헋ꆿ튻䨩벣ꎬ쟸잧갨풪듂䴩퇐죫쯓붨럧솿쒳뇠뻝쓪웚ꊱ뒿ꆢ뷰뇰㈰쯋?먨갨ꎬ뗏놣틢⡃⠲⠳ꆫ㔩믎僧뷉⡓ꯎ뺿뗄썋솢쿕듳ꎬꆢ쇤ꏏ틑ퟩ췲먨㤹㘩⡃?뛮췢娩⧊⠵⧅㐩⤲캴㇍⠸듂〰럑䔩⦽룟쮵럇뚨ꆪ룟뿍탍듳춶ퟩ놣헗결뷉뇰ꎬ陼㔶㤩냫⧐⢶믭헕㘩즥㒡싺⤱僧ネ웚럧쏷뎣솿䵅럧뮧놣훂뇰쿕ﳀꆢퟮ?⦣쓪엓⡄ﻁ쏢릲탂벣얼ꨳ㏇ꯎ〰ネ싺떥볒쿕룟갴갨뷉쎿⧖寮놣뾣훱ꎬ㏋듂췲싺뮱짙럖䅎쿕뷸쓪ꎻ탎ꢽ럑폐뿍훕㤱ꢣ?뚲쿕갨뗘㌩⠵ꪣ卑ꆫ㜩⡐웚ꎻꎬ컶厡탐릫캪쇤⠲첬ꊱ즷ퟩ컞㎵짭⦣⠱갨퀩䐩쟸ퟓ⦷췲캴㌩⧕ꎬꟖ뮧벴ꎬꊾ헧쮾㓀ꆢ⧍ㆡꎵ퇄뇰샭ꗎꎬ갨㈩䐩늲뺭얮횾㐩㌩풪싺〰ﶳ⡉쪹룼ꎬ뗄뇰횰뚱ꊱꗗꎻ엢묽㗒㤷쓪솪ꇖ⡋듺⠶ꎬ펣㌴㏇㔰췲ꎽ⦱꾣폐쎻?에퇐먨튵ꏇꏏ뒿?⠴ꆣ붵㘰믄⧋뷉쏻⦷늿ㄩ갨ꆪꞡ⠶ネꆫ틔즷뮱폐뇰뺿ㄩ샠헐룊⧀볻췲뾨벣산첨⦸㘩㐳ꯎ⤵캴짏톼ꏏ吩뗍듓?쒣ꆣ춶뇰컌ꋍ뺡뇭?곖ꎬ갨ꧏ훐룄웤쯪듂췲ꪣ싺ﺣ허쪧놣ꏖ헉⡐䘩헖뗘뢣쯼ꎬ卑ꆫ갨㔰쯈킧쫽ꆢ결?뚱ꊽㆡ쿕ꓐ⧓짺쟸갨⠵잧캴㤩췲利ꮲꎬ튪?ꏔ튵먨쫕쯀볒ꎬ㔩⤴풪싺㔰뢴킣⡘??ﺻ뫏뮵⠶웤㒡ꎬネ⠴킧갨⧗㘩꺲쿕ꗎ쯼ꨵ췲⤵ꎬ䨩ꋏ쯪ꚣꎬ뮣볎㏋풪믎ネ⡕캥㮝ꎬ갨⡇틥⠷듂⦼랴뮹⠹匩⧒䴩뗘⧗갨僧ꯎ룦ꯋ㤹킽짋쟸㘩〰듂횪뻖?뿛몦ꎬ룄㔴ネ僧짇뷢햸튽⠷?쯪〰풼뷔쇆ㄩ틔ꪣ췲갨튻벣쿕첨짏갨ꎬ眩샭갨⣏쓏⠵믭엢䠩?뗘⤱쏢ꎬ힡ꎬ쟸〰놣⡋풺⡒ꎬ?췲럑⧋죕⧖⠷ꎬ샍뛮?㘩룟?
谢邦摩,有洋:第三领域保险的高风险客户到别研究鉴于基本定义部分的阐释,绑三领域保险业的K…Means通过定义一组起始聚樊中心进行分收益来自康生否产险相似,即所谓的"费堂皇益"。基于企群,韧始决中心来自数据。然脂根据记录的输入城业盈利准则,这盟假定将理赔额超过投保额的客户值把每个记最分到与其最相似的架哭。在分究所街划为南风险客户范畴,即理赔额只投保额>100%。的记录后,更新类中心以反映分到锦一类的新的记本文根据这些倍息建立"第三领域"保险(意外最情况。然后再次检查记录,以确定是否将其重新伤害险和健康险)中商风险客户识别模型,并讨论其分到别的聚类。记最分派喋类迭代过程一直进行,应用。直到达到最大迭代次数或者前后两次迭代之间的差异未能超过指定阀值。二、建模均分析由此,可以用K一Means的方法对客户基本信息的有关变量进衍聚类分析,找出客户的特征群体。蕃于保险业南风险客户的定义,重点研究对象选择重要的变量保障年期指示、保险形态1、保险形为理赔金额把A交保费的客户。为了找出这部分离态2、婚姻状况和地区别来区分不间的群体,共分为风险客户的共向特征,并有效预测新的高风险容户,以下5类(见表2)。表2显示了5个类别的客户分首先要了解客户的基本特征,确定研究范围与切人别表现在重要变嚣的共间特征,例如Cluster1共有点;然后利用K-Means对所有数据样本分类,初步确定客户的特征群体;用决策树。.0模剧进一步6863例,他们的共同特征是客户中有%保障分析高风险存户共有的特征;再应用广义线性回归年期多为一年满期,%购买伤害险,%意模型来验证棋型预测能力的准确性;最后利外险附约,%已婚,%在台北地区。从risk卢rank变最高风险与低风险的比例状况用所得模那进行解释和预测。{一}数据预处理来看,Cluster1中较容易出现高风险容声,因为其比例值较高。因此当我们发现新客户具有Cluster1的涌过利用原始数据65535个样本描述性统计共同特征时,保险公司应引起诠意。从存户群划分分析,得知设有理腑的客户约占98%,有理赔的密的K-Means可以看白保单状况、保额组别、巴交保户约占2%左右。无理赔密户显然是低风险事户,费组别等不是划分窑户群的关键因素,而保险形态由于理赔金额/已交保费大于100%的样本对于商和婚姻状况却对事户风险产生了意要影响。这是因风险容户的研究才有意义,本文将更多的关住这为不同婚姻状况的人考虑的问题不同,她们的生活2%的客户群。而保险形在1中伤害险和意外陆所方式也不同而班成不同的赔保风险。从结果中辛苦占比例总和巴接近于100%0为了使数据分析结果出,人们更偏向于伤窑险和健康险的购买,个人将在具有可靠的样本基础,主要街标确定为分析第二三领的健康隐患不间,则出现的风险概事也不同。而较域保险中高风险窑户。把理赔金额/巳交保费定义容易出现高风险客户的cluster1中出现了%为新的变盘trade-off -rate,作为衡盛风险的指数。的伤害险,表明…般出现理赔的情况多是因为伤害首先剔除服始数据中的不合理数据,填补缺省险。所以,保险公司可以嗜虑在伤害脸上增加保费。值,分组合并等得到数据的59420个可用样本。然后进行数据分割:训练集(40%),测试集(30%),验(三}决策树{Decisiontr,础}分析诅强(30%)。分割方法为简单随机抽样,利用为了进一步认识商风险客户群体基本情况的特Clementine 11. 0的Partition节点完成。K一Means征,在K叩M出ns聚类结果的基础上,运用决策树和决策树运用所有的有效样本进行分析,阳C5.。模型,通过对不问指林之间商风险客户所占比为了保证结果的可用性,广义线性凹归采用一比一例的测算,寻找高风险客户群体的特征仙-10]。配比的方法进行,即先从没有理赔的样本中抽取与本模型利用所有有效样本共59420例进行分有理赔样本数额相同的样本,再对拙取出的样本和析。将各个指标按照是杏高风险的判定原则进行决无理赔的样本总体进行凹归分析o策,构造出一个庞大的决策树,共5眉,27个子节(二)K-Means黠类分析点。决策树中的每个节点中包含无风险和南风险两K -Means节点提供了一种聚类分析方个比率,通过对新增指标的判定,从一个节点出发继常[6-8]。在最初并不知道数据的分类时,可以采用续构造分支,即再下一层的决策树。在样本拟合总K-Means把数据聚合成不同的类。K-Means模体时的容错率为的情况下,期盟均值达翻不使用目标字段,也不是去预测某…结果,而是从酒过对大最数据(训练集为23568条数据)的分析,输入字段中发现特征。记录被分成群组,同一群组我们寻求别各个指标的风险比例,并且用决策树的中的记录彼此相似,而不同群组的记最大不相同。形式便于直观的着到分析结果。在29个变量中,最93 ?췲랽쫽뻝킻본쫕튵뮮놾짋펦죽믹캪럧쫗뗣좷럖쒣폃⣒춨㔳뮧평㊣햼뻟폲횵㐲뫳횤䍬ㄱ䮡뫍엤폐컞⢶램탍쫤훐좺뗄슼횱틬쾢톡첬틔뇰?㠶쓪췢듓살샽릲럑랽돶죝쿕⣈瑲헷䌵潼컶닟룶탸쳥㔶컒탎㤳ꆣ냮敭폚틦펯컄몦폃샭쿕쿈ꎻ뚨컶탍쯹묩맽㖸풼ꖵ뇈놣탂ꎬジ뷸벯ꎮꩍ뻶쇋︩ꆾ늻죫뗄냑볇쟩떽캴듋퓱㊡쿂뇭㏀웚物뾴횵䮡ퟩ믩쪽붡틗짋ꆣﴩ敥쒣ダ릹쪱㣌쏇폐춬ꆢ캪퇥敮믹살샻룹쿕ꆣ놣엢뿍튪좻룟뗃쫽ꎬ햼샭쒿샽뗄쳞럖탐⠳サ敡닟䮡㘭쪹ퟖ볇돵쎿슼뿶뇰듯쓜폐훘ꊻ㗀쿖ﶣ뛠뢽獫뷏ꩍ틶춬튲죋뾵돶몦쯹뻶猩뷸퓚ツ닢탍ﶽ붫릹싊퓬뛔톰뇣뿉쳘ꎬ瑩붨놾풴ힼ룟뻝뫍쿕뷰뮧쇋뫳럧퇩쒣폃鈴뗃㊣엢춻ퟜ훐뇤돽ퟩ짓쫽ィ쑐湳쫷횤랽퇹뗄ꩍ㡊뛎슼쪼룶ꆣ떽뎬뿉맘튪퓚곋캪풼ꆪ䍬敡뗈ힴ믩늻쏇틾쿖틔닟럖튻䮡ꏐ쯣샻룷퓬ꎬ죝듳ﶾ쟳폚뾿헷쪯湥뚨폫퓲헢붡튵뛮뗄뷢샻쿕횤탍풤풭뻃횪ꗗ뷰ꟈ뫍룟솿뫏쏑뻝ꔩ慲䌵뷡램놾퇹敡뷚ꆣ냑쒿훐뇋춨샠볇ꎬ좻뻛ퟮ맽틔뇤볻훘튻牡畳湳늻뿶틶춬룼뮼쫷컶늽ꩍ춣폃킷룶돶횧듭?떽횱쒣퇳럧뗄쪱틥닺ꎬ킩뾵룟ꎯ릲뿍폃쳘䌵뷸뒦쪼쎻뛮퇐몡틑럧瑲늢鈴럖ꆣ瑩ꎮ맻쫽놾湳뗣퓚뇪랢듋맽훐슼룼뫳샠듳횸솿뇤뒿뇭튪잵쓪㤵湫瑥틲뿉쫇좴ힴ뛸욫늻놣筄죏敡곍톰쯹?튻싊뗄룷맛ꎺ폫퇹ꎬ늿쿕헢탅럧틑춬뮧䮡헷ꎮ탐샭쫽폐튡ꎯ뺿ꎶ뷓慤뗈뺡룮럖瑩ピ뗄뛮ퟜ뻛쳡ퟮ뻝ퟖ쿖쿠뚨탄탂퓙ꆣ뗼뷸솿㈩뇤쒹싺牬듋틔뮮뛔뿶퓬쿲쏷散쪶湳ꢹ헒뇪룶벴캪뗚놾죽럖쿠샯쾢⧖쿕沽쳘뗄ꩍ좺릲ツ뷢뻝퓍샭ꏎ틑닅뷼뿍斡뗃ꏈꎺ룮潮쯓뿉ꎬ쳥샠릩돵뻛뛎쯆틥살떽듎볇듺랧탐놣춵ꆣ솿닍웚㈱훐떱뾴돉폚튻릫楳룟ﶶ폐내엓쎿탂퓙ィ⣑컶횸뿍쇬쿕뗄쯆볙붨킸뿍뮱헷믹敡쳥폐ꏐ쫍㘵뎼엢?붻ꏏ폚뮧ꩯ훐떽?통랽뷚쏋폃벴춬뷸럖쇋늢뫏ꎬ튻ퟔ폫볬슼듎횵뻛헏?뇭곌ꎥ룟뷏컒돶죋늻짋퓲냣쮾楯럧샠풲킧헕듳룶퓶쿂긱뗁뇪컶폲닻ꎬ뚨뮧솢?ꎷ놾湳ꎻ뗄췔뫍?놣틢헐뒡ꆣ晦쫽솷램뗣陸탔쿈탐컶튻늻돉튲뛸ퟩ웤탄닩럖샠쓪㋏릲?㠲틑럧죝쏇릫뾼춬몦돶뿉쿕뷡믍퇹쫇뷚횸랼놣쫍벴붫ꆰ뗄통늢쳘뛔폃꒲풤뿍럑틥컌ィ냑ꆪ늻뻝벯캪췪킵듓퇹믘훖횪볇웰ퟮ틔엉믲럖웚퓊춬ꎮ믩쿕틗랢떥좺싇쿖摵맻곖놾럱뻶뗣뇪닣쟩꿎럧컶ꎬ쮾쿕랶ꎬ쯹샭뗚햿뚨쒿폐헷뻶닢뮧춻듳갱ꖡ牡뫏뗄⠴볲돉쓓맣쎻놾맩뻛뗀춬쫇슼쪼ꆣ쿠랴ꎯ헟랽컶횸듇뻁쳘잿㈲폫돶쿖ힴ닺엢뫍獴뾼뢱릲룟닟훐뿶ꨲ쿕뷡훷펦뗄뗚캽엢돫죽춻틥킧ꎬ폐닟ꎻ?ꆣ풼폚놾훐ꏎ瑥샭㔹ィ떥?탐럖샠쫽뗄좥놻좺뻛좻쯆펳잰램쪾쬵헷ꎥ㘶뗍쿖탂뿶맘짺컊놣붡럧敤싇믹쫷냼에뻶쿂뇈맻룟튪틽죽뗄뛮쇬ꟊꎬꞡ풤좷쫽쫷퓙ꚵ햼퓈컄짋꫁뷰ꔩ쯦ꟑ쿟샭컶럖뻝샠ퟩ뫳틔뛔헒ꆢ횲룶Ꟗ릺ꎮ룟뿍볼쇋쳢뾵쿕훐퓚쳥뒡꺼몬뚨닟샽ꆣ럧ꎬ쒿웰쿕쇬ꆰ뎬폲뚱훘ꏎ닢뚨뻝䌵펦쓗㤸믊ィ붫몦쯊뛮ퟷꎬ믺鈴탔엢뛔ꆣ컶뗄돉훐룹뻛떽좷뗼솽뿍돶놣믍샠샽탓싲㜸럧뮧틲늻룅쟩짋믹짏릲컞쫷웚퓚뇪힢뿍폲럑맽벴ꆱ뗣꫁탂퇐퇹ꎮ폃볈ꎥ잵ꖵ룼쿕맊ꎯ캪ꎬ닢돩뺽믘뗄랽럖䮡쒳좺볇탄뻝샠쎿뚨듺듎뮧겵뇰죧퀹짋뻟뛮쯘튪춬ꆣ싊쿖뿶몦놾?쳘에㖲럧듓췻늢㈹뮧좷틢놣닮춶ꏐ퇐쯕뗄뺿놾ツ맣럐ꎬ춷쓑뛠뫍ﶾ틑뫢쳮쫔퇹맩좡샠ꩍ튻ퟩ슼뷸볇ꆣ쫇맽뗼믹탎쓈䍬㚣몦퓚뇈뿍폐펰듓릺튲쇋쿕쟩퓋헷뚨뻹쟒룶샭헧뚨ꆣ쿕틦놣춣뺿튳룟랶럖ꏐ틥풣폐鈴뗄틢?붻솿늹벯ꎬ킷닉놾돶쪱敡뷡듳탐슼퓚샠럱돌듺첬뫌뿍畳긵첨샽뮧䍬뇰뛸쿬쯽싲늻㠲쫇짏뿶폃햿ꆾ풭갲뫍룶퇹횵뇤뇰튵ꆱ뛮엢⣒겲뛔럧캧샠춽쿟믗샭햿뺶맘췢훎캪놣좱⠳샻폃훐뗄ꎬ湳맻춬늻럖붫튻횮탅쳘ㆡ뮧瑥㦣놱ힴ畳듓ꆢꆣ쏇ꎮ틲퓶뻶춻㤱퓲㞸룟뷚놾듯솿퇐뗄ꆣꋌ쿳쿕폫ꎬ탔엢춻퓓힢럑쪡ィ폃튻돩퇹뿉쒣쿠쫤췪탂웤횱볤헷ꊱ겹牬ꖱ㐶뗘뿶틲瑥틑헢훐룶㈲캪볓쳘닟뷸럧뗣쓢㤹럖뿍뺿뛮믹뿍?훂뾷쟐돵뮲믘뗄ꞣ?헢쯹뚨ꔩ겶뇈좡놾틔뛸좺춬죫훘뷸ꏏ늷릲ꏕꎮ쟸캪牬붻탎쫇짺뾴죋ꎥ짋놣쫷崙탐펽쿕돶뫏ꎬ컶뮧폚뮧ퟶ?횸죫늽?맩뿍틥ꎬ튻폫뫍닉쫇ퟩꆣ폲폐볇탂탐닮쳥헐훎㠷웤뗄놣첬틲믮듦뷏몦럑벱뻶솽랢ퟜ㖡ퟮ뗚좺웳?ꎬ쫽퇩폃듓ꆣꎥ뇈퓚볌놣죽뮮ꆣ틢쇬럖뛮㸱〰ꎥꆣ
统计与信息论坛后选定了可能和风险相关的11个变景,即职业类年期指示。值得注意的是,在分析过后,很可能存在别、已缴保费组别、年龄组别、保额组别、缴别、婚姻部分变最没有被计算机纳入决策树,这将意味着这状况、保险形态2、性别、保岛生状况、职业组别、保障些变景与风险比事是无关的。班2K…Means黯挠铺果辑保障年期保险形志1保险形~2婚姻状况地服费别Cluster1 一年满期伤害险草堂外险附约巳婚台北地区(6863例)(%) (%) (%) ( %) (% ) Cluster2 一年满期健康险住院日额险巳婚台北、高雄和台(2837例)(100%) 000%) (1ω%) (%) 中地区(%)Cluster3 一年满期健康险防癌险…主约一单位和米婚台北地区(2640例)(1ω%) (%) 重大疾病…附约(%)(%) (%) Cluster4 一年满期健康险住院日额险未婚(%),台中地(%), (36ω例)(95%) (100%) (%) 巳婚(%) 高雄地区(%)Clust倒台一年满期伤害险意外险附约朱婚台中地(%), (7628例)(%) () , ( %), (1ω%) 高雄地阻(%)健康险住院日额除首先,第一层决策树以"职业提别"为分割值,把岁以上的人和年牺人相比,金融意识不强,而且处在客户群分为主类。通过的模型或解,得出在具有一定社会地位,收入较稳定,不容易出现风险。职业类别中,%的职业,即1、3、4的职业中基本估计和预测效果评价见表30上不存在高风险客户,职业2中的高风险客户也只裴的预测结果表问占辑个职业中的%左右,因此职业O中的高风测试集总体-MM险客户最多。正确 在阳风险客户最多的职业。的客户中,第二胆错误 决策树以"巳缴保费组别"为分割值,将其分为3类。缴纳保费低于1万的客户占了%,而剩下的保通过Clementine1~ 0的Analysis节点可以更清费在1万~J10万之间的容户中,有近一半的高风险楚地评价预测模盟的精度。上表对二三个数据范围的客户o在分析的23568个样本中总典有151个高决策树分析进行了对比,在两个测试集和…个验证风险客户缴纳保费跑过了1万。集中的正确且在中我们可以发现,全部超过了99%,在缴纳保费低于1万的客户中,第三居决策树这就进一步表明,利用臼.0得到的预测模型预测又以"年龄组别"为分割值将其分为3费。通过分析能力是不错的。发现,34-43岁的密户都是商风险存户,54岁以上(四)广义钱性回归模型的几乎没有高风险客户,除此以外,其它年龄阶层都广义线性模型常被用来分析不同类嚣的数据。没有发现倍用砰在较大不可靠性的客户。广义线性模型不仅广泛地被用于诸如正态响应变量综上分析,得到高风险客户的主要特征:(1)职的线性回归模型,两分类数据的logistic@)归模型,业为0(2)保费在1万到10万之间。这点很容易0计数数据的对数线性模型,而且对于非常一般的模理解,因为往往过低的保费不足以赚取更多的理赔型形式来说也是很有用的模型。正如回归分析一盒,阳保费过高脂对于保险公词来说,势必会花戚本样,广义线性模型的建立也是为了找出自变量与因去进行详尽的调查,因此其发放率低,自然高风险通变蛊这两种变景之间的关系,只是不像经典的线性过高成本的追踪调查也就消除了。因此,中等额度回归模型那样需要一踏.ïE态性等的假设。在尝试过的保费以其单独投入验证戚本过高而被视作是较为1吨istic回归后,发现广义钱性回归模型能更好的拟容易发放的,也是高风险客户的集中所在地。(3)34合数据曲线,建立…个精皮鞭高的预测模型。-43岁往往是一生中现金流比较充沛的时期,因据描述性统计结果得知,设有理赔的客户占约此,商I能通过对保险公司不恰当的利用谋取利益;5498%,有理赔的客户约占2%左右。为了避免最后94 ?췲랽쫽뻝춳뫳쓪뇰늿ힴ킩뇭샠놣䍬튻짋틢틑첨⠶㠶붡힡⠲㠳⠱훐럀캴㘴⠳㘰룟⠷㘲⠵⠴쫗뿍횰짏햼쿕퓚뻶뷉럑㔶럧폖랢뗄쎻ퟛ튵샭뷰좥맽죝ꆫ듋㤴쯪뻟맀춨돾벯헢쓜⣋맣볆탍퇹뇤믘䱯뫏뻝㤸놣䮡䌵畳ィ볆쿕믩뗘쓪몦췢놱㏀뾵풺㟀〰납ダ훐탛㣀㒣톡웚ꆢ럖뿶뇤?쿈뮧튵늻헻뿍룟닟쓉퓚뷉틔쿖벸폐짏캪㐳맽뻍솦쐩틥쿟쫽탎솿杩ꎥ㢸뷢ꎬ뷸놣틗맩쏨쿕ꩍ瑥긱ꎮ폫탎틶쟸싺쿕뗘ﴩ죕ꎥ⠴긶뚨횸틑뇤ꆢ솿ꎬ좺샠듦룶뮧럧쫷놣㇍ꆣ뿍쓉ꆰ뫵랢럖ァ돉쯪짏튻뫍䍬움뷸쫇맣쿟탔쫽쪽헢獴뻝쿹탎췽牬爲爳爴父㚣뛸탐럑뿉뗄쒣쫶敡サ탅첬ힴ샠웚뢽쟸⠹뛮룟⠱⤨⠶튻㞣⠳㖣ㆣ쇋쪾뷉솿놣폫ꔩ뗚럖뇰퓚횰ퟮ쿕틔럑뮧쓪㌴쎻쿖컶ꌨ놾췹뗄뚨풤敭볛튻늻틥탔믘뻝살솽楣쟺폐첬鈴틲놣쿪틔럅쓜헽탍탔쾢湳?뿶뇰풼㚣쿕탛〰㖣훷㤷긹㠴긵⠲㞣ꔩ쓔?뿉ꆣ놣쎻쿕럧튻캪훐룟튵뛠뿍ꆰ뗍봱럖뷉럑쇤ⴭ폐탅ꎬ㈩뗄췹죋짧닢敮풤컶늽듭쿟쒣맩쮵훖믘샭욱싛긵뫍ꎥィ기풼ꎮ㊣긶ꔩ㢣㞣긲뻛ꎻ뻖캪럑뺡웤뗄춨꒲좷쓇춳쓜횵럑폐탎쿕닣죽ꎬ럧훐ꆣ뮧틑폚ネ컶쓉뗍ퟩ㐳룟폃뗃놣ힷ쫇뫍믡킧瑩닢뷸뇭뗄탔탍쒣뛔튲뇤맩엢첳㦣첨?ꔩ㎣튻㘹ㆣ㠳긹㊣샠탗췹맽뗄떥ꎬ싊퇹볆뫍뗃ퟩ놻첬뇈뻶샠㜳쿕뗄ퟮ뷉㇍놣폚뇰쯪럧듦떽럑ퟙ튻쓪뗘맻湥쒣탐쏷ꆣ믘뎣늻탍쫽쫇솿뫳붨ꔩ⠹떥ꎥꎬ㞣웚뷡榲?췹뗷뛀튲뛔훐탨럧힢뇰볆㊡싊⠸㞣캻⧖ꎬ?ꔩ⠴닟ꆣꎮ뿍ㆣ뛠놣꺼㈳럑㇍ꆱ뗄쿕퓚룟짺쟡움汬탍쇋맩놻뷶쿟뫜횮솢맻ﮱ㊣긳뫍?㦣닓맽뫳닩춶놣컒튪맻쿕틢ꆢ쯣ꋐ쫇쫷춨㒣뮧뗄럑쒿뎬캪뿍뷏럧㇍훐죋ꎬ볛ꎮ뛔샻쒣폃맣솽탔폐볤랢튻뇭?긲㦣길쿠뗄쓪믺풱컞컜틔맽ꖵꎬꎥ횰ퟩ춻쒿퀱럖뮧듳쿕뗍뛔튲죫룟쿖쫕볻サ뺫뇈쏇폃탍살랺쒣붨튻룶뗃풼㊣ꔩ늲㐩맘쫇쇤쓉ꆰ䌵쓖횰ퟳ튵뇰ꟕ춻쇋룮뚼ꎬ늻뿍봱뻍뷰뇈죫뇭쑁뛈럖뗘샠탍솢맣뺫햼㔱뗄폚틲퇩럧릫뿉킩횪ꔩꇒꎬ뗄ꎬퟩ죫ꊱ횰ꎮ냒튵폒サꆱ볁Ꟗ㇍횵쫇돽뿉뮧ネ쿻쇷뷏㎡湡ꆣ퓚컶놻쫽쒣튲쾵틥뛈㊣뛂룶놣듋횤쿕쮾틔헽⠴뮸⠲ㄱ퓚뇰뻶ꎵꆣ튵サ떣㋖ꎬ쒿캪쬸킣붫룟듋뾿뗄돽뇈뷰컈?汹짏솽늻폃뻝뛸탍쫇쿟뷏ꗗ㚣뷔㢣룟럑쿕웤돉뿍늻랢첬쎻룶럖ꆢ닟ꗗ샠쓄겼킵틲춻㎣곓?겵웤럧틔탔훷꺼쇋뷏죚뚨獩뇭쎵춬폚뗄쟒ꆣ캪횻룟길밨ﳍ늻릫랢놾뮧잡쿖탔폐뇤컶놣쫷뒿㞣㔳ㆣ뇰ꏐ됱쒸듋Ꟗ룮길킽?럖쿕췢뗄튪ꆣ돤틢ꎬ玽뛔닢붵샠훮汯헽쇋쫇믘튡ퟣ쮾럅맽뗄떱ꎬ뗈샭ꔩꎮ솿맽뛮ꎬꆱ췇ꆢ?횰킣횵ꎥﳒﶲ캪뿍쳘ꏕ틲엦쪶늻?죽쫔쓔탍죧杩폚헒맩풤ꏎﯛ⠹㔹틔살싊룟벯좫엢ꎬ뫳ퟩ헢ꋖ캪㎡튵겵뮰㏀뮧웤헷듋뗄늻죝룶꒲헽獴럇믘돶쿱쒣닢꫁㖣ꎥ⠱쮵뗍훐샻늿볙뗄벴ꎬ뇰붫냒럖ꈴ햿ブ?뛸쯼ꆣꎺ쪱잿틗짒쫽뫍첬楣뎣맩ퟔ뺭탍쒣쮱긲⤨〰횰뫜ꆢ틢뗗쟜룮겵뗄춻킵ﺲ웤쪣쒸?ꏍ㔴쓪⠱?좡ꎬ훐놻쯹웚폃돶풸뻝튻뎬ꏐ쿬믘럖뇤뗤짨쓜탍뿍?ㆣ㘵ꎥ튵뿉뷉캶횵쎳횰쒸럖쿂?ꢹ쯪쇤⧖?뗈ꎬ뛸쿖ﳇ랶룶췔ꆣ펦맩냣컶솿뗄룼쫆ퟔ쫓퓚쒱맽뮧ꔩꎮ?샠쓜뇰ퟅꎬ튵닖?캪뗄ﶷ틔뷗뛮틲쟒럧캧퇩꒲뇤쒣튻폫쿟뫃⠶㌸?뛠뇘좻ퟷ뗘좡쇋퓚햼듦ꆢ헢ꊱ㚣ꎥ냑?훐㏀놣훎짏닣뛈뒦쿕뗄횤솿탍쒣틲탔뗄믡룟쫇ꆣ샻㤹뎢풼긷⤨퓚믩ꏕ믹?뚼ꆣꎬ쓢샭뮨럧뷏⠳틦ꎥ쫔㢣㘶틶?놾ꔩꎮ엢돉쿕캪⤳ꎻꎬ맽㜸놾춨?㔴ꎥ?
谢邦彦,石佯:第三领域保险的高风险客户'现别研究拟合的结果根据大部分无理赔窑户数据得出,剌激随机抽样的方法,从无理赔样本中抽取出4%的样变量对响应变嚣的影响并不对有耀赔商风险客户昆本与有理赔存户样本进行一比一配比。第二,合并著,首先根据一比一配比的方法,找出一个合理的样样本集并把新的样本集作为分析目标集合。本集,对其进行分析比较,以找出影响客户风险的主通过Derive节点,把理赔金额/巴交保费的比要因素。分析数据主要采用分组变量与合并变量。例值转化为1...2...3三个值,通过语句if’trade -off 一比一配比即先从没有理赔的样本中抽取与有rate’ = O. 0∞then 1 else if O.ωo < 'trade叩off理赔样本相间数额的样本,冉对抽取出的样本和元rate’ and 'trade甲offrate’ < 1. 0ωthen 2 else 3 end 理赔的样本总体进行回归分析。在 if实现,生成新的变量deriv,创作为回归的解释变盘中,首先利用Filter节点过揣掉如保险年期、缴费年即响应变量。同样数据的训练集、测试集和股证集期、投保年龄等元关变最(因为他们句保险年期指按4:3:3分割。示、缴费年期指示和年龄组别等变景相关系数非常本模型假设因变景分布为normal,联系模型大,若包含人回归方程则易造成多熏共线性)。其次(Link function)为identify,对样本拟合。经过王军步分两路进行,第一路用Select节点选出有理赔客户四阳,剔除不显著变量以及合并多个不显著的虚拟的样本集,第二路用Select和也mple节点利用简单变章,最脂具体的参数估计结果如表40提4参数估计结果裴变量系数P值变盘系数P值变量系数P值( Imercept) [地区虽IJ=O.] [婚姻状况且1] {缴别::::O.以)()12] {地眩别=00] 。.817[婚姻状况出2] 制{缴别1] O.ω。{地旺别=51] [婚姻状况=4]。(a)[缴别扭3]7 O.仪)(){地阪别=56]一{保单状况昂A) O.∞3 {缴别需3.] 。(a)[地区别昂61]。(a)[保单状况=L) O.创则{缴费方式;:;;A] {性别=[保单状况::p]1] O.ω。。(a){缴费方式=B] O.ωo [性别=1] 。(a){投保月份出1] O.创)()[缴费方式出C)O(a) [职业类别;:;;0][投保月份硝2] [保险形态1拙2] {职业类别=1][投保月份目3] 。.185。"以)()。"阳[保险形态1口3]O(a) {职业提别口2]。(a)[投保月份出4]。(a)从各参数估计的P值(Sig.值)都跑近于O来类别为2、婚姻状况为4(世偶)、保单状况为P(iE常看,各参数的估计值都是统计显著的9个有效变量,缴费件)、投保月份为4时(在第四季度),窑户的风他们都对窑户的风险判断做出了显著的贡献。由于险指数为,随近于O风险密户。[缴别=1J对每个变最有多个状态,则在回归方程中出现了第个llii.系数为,表明在其它条件不变的情况下,此虚拟变量。表4第二列B值对应的是各变量包括虚类客户比〔缴别=3J的客户的风险指数增加;拟变量的系数,表示标准误差.Lower和[地区别=56J的系数为,表明在其它条件不Upper分别代表在的显著性水平下的下界和变的情况下,此类客户比[地区别=61J的风险指数上界。其中系数即日值为O所对应的变盘为该组虚减少了;间理可以解释锋一个变量的系数,并拟变蟹的基础变量,是其它变量的比较标准。虚拟能根据客户的显著变盘来预测客户的风险指数。变量的取值只可以取0和1.…组虚拟变盘里的取四、结论与不足值班多有…个1,则…组虚拟变盘里只可能与…种状恋出现,这与实际相符。本研究结合K-Means、决策树和广义绒性回当所有变最的取值都为O的时候,等式布边的归的方法,对台湾保险业近6万例样本进行了分析。值则表示在所有变量都为基础状态时被解释变量的在对用户进行基本的分类找出高风险客户群的特征值。在本模型中当所有变最取值为O时,表示当其之后,捺索性地建立了一个高风险客户预测模剧。它情况不变时,缴别为3(季缴)、缴费方式为C(倍K-Means的分析显示,保险形态和婚姻状况对客用卡)、地匹别为61(台中地区)、性别为2(女)、职业户风险产生影响重大;人们偏向于伤害险和健康险95 ?췲랽쫽뻝킻쓢뇤훸놾튪튻샭훐웚쪾듳럖쯦퇹춨샽牡瑨?敬楦ィ벴내⡌믘뗄뇭듓뾴쯻쎿탩啰짏횵ힴ떱쯼폃샠뷉쿕펦宵복쓜쯄맩퓚횮䮡뮧敮晵瑥냮敮獥기솿벯틲뇈ꆢ솽폫놾맽횵쪵쿬㒣쒣楮맩퇹㒲룷룶쓢뇤灥뷧훁첬쯹퓲ꆣ쟩뾨뇰럑횸쾵뿍?뗄짙룹퇐뛔ꩍ럧뫏ꎬ엢믺?쏇뫳ꆯ湣퇥〰뛔ꎬ쯘튻춶뷉죴슷폐벯䑥쿖펦먳탍?놾컊닎뇤솿犷ꆣ뛠돶뇭퓚뿶⦡캪볾쫽뮧쟩쇋뻝뺿랽폃敡쿕뗄쫗퇹돩㴰룷뚼瑩ꎬ㲡慮㰱뷡쿬뛔ꆣ엤퇹쿈놣럑냼뷸샭늢物뮯ꎮꎬ뇤ꎺ볙쳞벯ퟮﶹ쫽솿뗄횱웤좡폐쿖쪾놾늻ꊵ㊡⦡캪뇈뿶ィ뿍램뮧湳닺뷡쿈놾퇹닎뛔첽쪯꽴撡ꎮ潮〰펦웤럖뇈놾샻쓪몬탐엢냑癥캪짺솿㎷짨돽ꎬ뫳삼맀폐ꆣ쾵훐믹횵튻퓚쒣뇤?ꊻꋍィ宽㔶쿂긱뮧뫏뷸뗄싛퇳牡꽴〰맻룹쿠뗄?⧎쫽뿍쯷뇤뷸컶벴ퟜ폃쇤웚죫ꎬ뿍탂뷚ㆡ돉ꆣ횸틲늻뗚뻟욽볆뛠뇭쫽缾쾵뒡횻룶헢뗄쯹탍쪱뚱긱긲즱嶵ㄴ䮡뛔탐럖펰ꎺ摥牡?ꩩ폫룹뻝춬랽뗄뮧탔솿탐쫽쿈쳥䙩뗈횸믘뮧뗄뗣ꈲ탂춬뇤쿔뛾룶㒵ꎬ뿉ㆣ폫좡폐훐ꏔㄳ㌶쓏듋ꎻꩍ첨믹컶쿬뗚ꆪ摥摥뻝튻쫽램맀뗘늻죽뗄럖듓뷸汴컞쪾맩퇹ꎬꆢ潦ꆪ?솿훸슷ﮱ僖ힴ?却?벴틔곔쪵횵뇤떱뷉ꨶ뒿㍝뗊샠춬敡췥놾쿔훘湴쇬듳뇈뛮ꎬ?潦볆럧붨펰컶훷쎻탐敲맘뫍랽슷놾냑㏈뇤쫽럖폃닎딨첬ﻁ撣ꎮ䋖좡볊뚼솿쯹뇰ㄨ?쟷뇭뗄뿍샭湳놣쪾ퟣ楦폲?늿쿬튻뇈튪폐뗄믘뷚뇤쓪돌폃듓뷸벯샭ﶸ솿뻝늼卥쫽卩횵쿕ꎬ큂깅〵뗎쫇ズ믗쿠캪뚼첨ꨴ뷼쏷뿍뮧뿉ꆢ럖솢ꎻ禣놣늢뷏닉샭맩뗣솿쇤퓲卥탐ퟷ엢摥뗄캪틔汥맀枣횵牲ꨰ웤촱럻サ뇤㌨훐⣉쪱폚퓚뮧묰뇈살뻶튵샠놣죋럖엤퇹컞뚼에쇋쿕겶늻ꎬ폃엢럖맽⣒ퟩ틗汥튻캪뷰떣物통湯벰捴볆껖퓚뛔潲쿔쯹쯼ꆣ쓊믹솿벾뗘ꗅ⣔シ웤뗄ꎮ宵뷢풤닟뷼헒쿕쏇컞뇈놾샭쫇뛏뗄퓑뛔틔럖뗄컶싋뇰퓬捴뇈뛮곍癥솷牭뫏뫍뷡딩믘펦뇭훸뇤튻놺뒡좡뷉쟸방?쯼럧ㄱ?쫍닢쫷㛍돶탎욫룟샭뗄ꎬ엢춳ퟶ룶鈴폐헒ퟩ퇹ꆣ뗴뗈돉뷚튻컶ꎯꢹ㓗벯慬늢卡맻뚼맩뗄쪾탔펦솿ힴ횵⦡ꆢ?햿쳵쿕㒣쎿뿍뫍룟첬쿲럧엢랽퓙퇹뻄볆돶룟쿕샭돶뇤놾퓚죧뛠뗣엤쒿틑ꆢꎬ浰쟷랽쫇뇪쮮뗄탩뿀겵첬캪ꊽꋐ놣쒼춻볾횸겱튻뮧맣럧뫍폚램뛔놾쿔쇋럧뿍엢펰솿훐捬놣쟓훘톡뇈뇪붻ꪻ닢솪룶汥뇭뷼돌룷ힼ욽뇤쓢죊쪱俊즷풱떥뺶ꞡ늻쫽㘱뗄틥鈴쿕믩짋쾡뮧ꎬ훐훸쿔룟쿬폫돩敭쿕쿠릲돶ꆣ벯놣?쫔쾵늻뷚㒡폚뇤컳쿂솿뷏뮿뷓놻톷ힴ젩ꍛ퓶嶵럧쿟뺽뿍틶몦ꎾ헧쫽헒돩뗄훸럧뿍뫏좡敮쓪ꏏ맘쿟폐뗚럑暡벯쒣쿔뗣?ダ돶솿닮캪뇪진튱뷢겱뷊ꨲ뿶ꎬ뷉볓?쒷쿕탔뮧ힴ뇰궹뻝쿕돶뮧늢폫瑩웚헄쾵탔샭좡죽ꆣ뗄꽴쒽뫍탍훸샻?㦸쿖냼ꎬ쿂룃ힼ샯??쫍뷎⣅캪뿍뇰쟩ィ횸믘탁좺뿶퇐뿍럧뇤폐湥ꆢ쫽⦡엢ꎬ뇈牡퇩폃쇋삨䱯뷧ퟩꆣ?뺵ꩃ긩倨뮧㴱뿶긲ﳌ헖쾵쮷뛔붡뗃튻뗄돶릱풤뺿뮧쿕솿汬뷉?럇ꏆ뿍뫏摥춱횤탩볲뛠睥뫍좡믖뇆⣐ꆢ헽뗄嶶쿂㌶룊쫽ꆣ훎쳘뾵돶룶퇹㒣탐쿗닢?쿔뗄ꆣꎮ럑?뎣뮧늢ꆪ벯쓢떥룶犺횰럧ꎬꎻﺲ헷쿕ꎬ뫏놾ꖵꞱꆣ쒣훷?쓪潦튵듋늢듌샭뫍쓑평탍?벤뗄컞?뾣폚ꆣ퇹?
统计与信息论坛的购买,而多数高风险客户因购买伤害险而获得理司的良性循环起到了十分积极的作用。赔。通过决策树模型,更直观地得到高风险客户主然而,受限于获得数据的数最及指标种类,在查要是职业为0,保费在1万到10万之间,34-43岁阅大量保险领域文献盾,根据行业内的实际情况选的人士,他们往往以中等额皮的保费赚取了高额赔择了这个研究课题,并建棋研究,但实际中与高风险偿金。而广义线性四归模型则筛选出缴别、缴费方客户研究的相关指标应当更多攒及客户方面的资式、保险形态、地阻别等熏要变蟹,建立了一个高风料,因而继续此项研究的学者建议采用合理科学的险客户的预测模型,涌过此模础,保险公司可以提取抽样方法获取相关数据,并且应当在模型外考虑宏任何一个客户的相关信息,从而预测他是否可能是观经济环境(如人均GDP)及地理环境(如灾害发生一个高风险客户。预先了解高风险客户的特征和预频率)等因紫的影响,进一步丰富和实用化这个问题测模型,可以加强保险公向对风险客户的班别,并改的模型。善相应的投保制度,对减少风险、增加利润和保障公参考文献:[1] 皮立波.意外险和健康险:保险业的"第三领域"[j].保险话题,2002(11): 43. [2] 张丹.数据挖掘技术在保险业客户关系管理中的应用[J].保险职业学院学报(双月刊),2007(6):80-81. [3] 张艳牌.对保险业客户满意度、信任脏与关系承诺的实证分析[J].经济科学.2∞5(6):113 123. [4] 李峰,整利琴.关于建立和宪善我国保险业风险预警综合体系的设想与方案[j].上海保险,2004(3): 9 -12. [5] 周建胜.中国保险业风险与金融工程的适用[J].广西金融研究.2ω5(4):3-6. [6] 谢邦眉.数据挖掘。ementine应用实务[M].北京:机械工业出版社,2008.(7] M由nedKantardzic. Data Mini咽ωlCepts,如制甜,Methods, and Algorithms[M]. Piscataway: IEEE Press, 2ω12. [8] lan H. Wi忧回,日beFrank. Data Mining: Practical Machine Leaming Too1s and Teclmiques, Second Edition [M]. New York:Morgan Kaufmann, 2朋5.[创刊呐衍tA.剧íonωData Mini吨andKnowl吨e阴阳V的[M].MD: Two Cro啊Corporation,1999. [ 10 ] C. Arthur Wi11íarr邸,Michael Smith. R sk ~也nagementand Insuranω[M]. New York: M而raw-Hill, 2004. (责任编辑:杜…哲}The Res倒时100Cust佣lerswith High Risk in Insurance of the Third R幽1mb部ed00 Data Mioiog 1HSIEH Beng-Yen, SHI YaDfl (1. School of Statist c Capi时Universityof E刷刷niωandBusin棚,Beiji呗10∞26,China; 2. School of E刷刷niα.Xi8nlen University, Xi8nlen, 361005, Ch na) Abstract: Withαωre and more insurance of the third realm, r,刨出rchuponαJStomers with risk is加∞mingimportant. This article will use some∞mmon data mining techniques, such as clustering and decision treeω model and analyze insurance customers, in order to dist ngu sh on臼withhigh risk. It will aim to give some s鸣"gest ons to insurance institutions and avoid some unnecessary loss. Key words:insurance status survey; data mining; ri咏阳吨nition96 ?췲랽쫽뻝춳뗄엢튪뎥쪽쿕죎튻닢짆닎쮾좻퓄퓱뿍쇏돩맛욵嬱嬲嬳嬴嬵嬶嬷䭡䵩䍯䅬偲嬸䥡䢣䙲䵡䱥呯䕤奯嬹䡥䆣瑯䑡慮䑩䍲坩卭⣔周潮䍵睩䡩剩楮䥮剥扡䡓奡⠱潦却䖡䉵㊣啮䅢浯瑨異捵物楓扥業慲畳獯捯摡浩瑥㠵捬瑲潲摩桩慩瑏杩獵来慶畮汯䭥睯獴牥慮䭮䍯剥潦瑨䍡샮䥮䉥牥摥渧楮湴?瑡敥枡敳捨潬呥畦牢潷湡瑨杨獫獵周獥慴啮潦獩〰깓牥潮汬畳癥潩牶볆巆巕?巖巐嵍湩湣杯깗楴牫獣そ獴慬䥅ꎮꎡ楶楲捯瑩浥摥湥獳릺쫇뷰ꆢ뿍뫎룶쒣쿠뾼뗄뛸듳쇋뮧뺭싊慮깅汬渹灯晦牤ꆣ죋ꎬ퇹?潷牰獥灩慲畳럥獵湧慬捩玣楮?捨浡敲梣来ꎺ牡楲楳楶湥㈶牳䒣湩瑥ꎮ楯獴敹杮?폫꓁억엑?뮰敨湧数物楴楯ꎺ潶䎣潭卥ꎡ浩捬祺捥摺汥潲慲瑡싲횰ꆣ놣뮧튻룟탍펦컄솼ꎬ솿헢퇐볃⦵殣湩摥楡캱牴깯짔玣牡ⵙ涣獩춨쪿틲랽갲?湩湮깒浥䵣湣瑩敲獳ꎬ潯ꎮ煵物杵䥴湳ꎻ楴楣楴탅ꊲ꒣?浥瑳瑨瑥ꎺ湛䵯摧敲慴깁捨汸??獩湧獳ꎻꎬ튵뛸쿕뗄룶럧쿗탔쫜놣뺿뮷죒ꆣ〰깄湧煵汳浳楳湴䝲?獩䍨捴慮敳瑨멩摡楯붪湣敮걲潮ꎮꝩ맽ꎬ뛸램楯쾢ꢣ껊풣꒣ﶣ?浳溣偲䵝牧祛牴⥯䥬玣畴慲物䑡㊣敳㈰?慷瑹䉥楮ꎬ瑡샻敛沣뛸캪맣탎풤뿍쿕뿉춶ꎺ톭쿞퇐뗄뺳慴瑥ꎬ궣璣湳溣싛껒ﶾ꺶껖껊瑡䵯孍걅慣ꎮ慮䵝桵槡깩獫뻶쯻볌믱?ꎬ〵ⵈ楪憣潦獵楯쟙䵝걓敡갱ꇞ뛠ィ틥첬닢뮧뿍틔놣뮷폚쇬뺿쿠⣈??楮䵩몶坩깔畲첳?풱킹ﶾ摥嶣楢瑩卥乥ꎮ楬楮?랣塩捨湳닟쏇탸좡㤹ꎮ䡉牣쫽겱쿟ꆢ쒣뗄뮧볓훆웰믱폲뿎맘쓓捯捨沣엒瑨桩慮?ꏏ缾?汳깐?捡䵄걘慭㦣慮맘乥?쫷췹듋湤갲룟ꎷ탔뗘탍쿠ꆣ잿뛈떽뗃컄쳢횸쮾냏햺헒ꏏ?ꎬ楳?䥮ꎺ慥믕楡敮捥폚?〰쒣췹쿮춽볊떿헒䵥捡呷浥럧퇔믘쟸ꎬ맘풤놣쇋쫽쿗뇪磊瑲??㒣붨ꆿ춻떷汥瑨瑡?㌶쿕탍?틔맩뇰춨탅쿈뛔쪮뻝뫳늢펦퇐쫽䑐경潤?솢뗏?Ꟃ浥潤睡뿍췲쒣뗈맽쾢쇋릫복럖뗄붨떱⦼畣뫍ꎬ훐뺿뻝햣ꏏ㮝헓湴玣禣〵췪뮧떽탍훘듋ꎬ뷢쮾짙믽쫽룹쒣낵뮲瑩룼뗈뗄몱헒楮걡멉ꎬ짆틲퓲튪쒣듓룟뛔럧벫솿뻝퇐뛠?붷潮ꏏ떿좡旓湤䕅䍨횱뛮톧늢컒릺췲즸뇤탍뛸럧쿕뗄벰탐뺿짦헒춻ꋐ?ꛓ?楮맛뛈헟쟒맺싲횮톡솿ꎬ풤쿕ꆢퟷ횸튵벰랾뮺떵ꞹ었꒳쏊愩놣뗘뗄붨펦쒡?캶첵뗎짋볤돶ꎬ놣닢뿍퓶폃뇪쓚떫댨췊쿕뗃놣틩떱낵떹죓쓔몦ꎬ뷉붨쿕쯻뮧볓ꆣ훖뗄쪵죧뗓튵쯓䵝떽럑닉퓚쿕㌴뇰솢릫쫇뗄샻샠쪵볊랽퓖쎻럧ﷁ?썛ꎮ쿕뛸룟ꆫꆢ쇋쮾럱쳘헧죳ꎬ볊훐쏦폃쒣몦꿕킵떳䩝놱풤믱㐳뷉튻뿉헷뇰뫍퓚쟩폫뗄랢럧좡뫏탍쓓탅ꎮ뺩뺯뗃쯪럑룶틔쓜뫍ꎬ놣닩뿶룟짺녛ꛓ떵맣ꎺ쿕쇋샭췢ퟛ샭랽룟쳡쫇풤늢헏톡럧쫌䩝썛쓊컷믺뿍룟뿆뾼뫏ꎮ䩝뗖뷰킵럧좡룄릫쿕?쳥뮧뛮톧싇놣ꎮ꒷죚릤쾵훷엢뗄뫪쿕놣훎퇐튵뗄뮰쿕뺿돶짨쳢횰䩝ꎬ냦쿫ꎬ튵ꎮ㈰짧폫㈰톧뺭〵ꎬ랽〲풺볃⠴㈰낸⠱톧뿆⦣〸孊ㄩ놨톧먳ꎮ嶣ꎺ⣋ꎬꆪ껉㐳ꯔ㈰㚣쾺ꎮ슿〵?ꎱ꼩⠶ꏏꎬ⦣햣㈰먱갲〷ㄳ〰⠶ꆪ㐨⦣ㄲ㌩머㎣ꎺァ?㦡ꨱㆣ㊣??