大数据风控技术应用探索
上海安硕信息技术股份有限公司
(安硕信息,300380)
Amarsoft Technology Co., Ltd.
公司简介-Amarsoft
业务
方向
客户
群体
200多家银行以及类银行大中型金融机构客户
数千家普惠金融机构客户
企业
规模
2001年成立,2014年创业板上市,人员超过1700人
当前总体控参投近15家科技公司
专注于信贷资产管理和信用风险管理领域解决方案
业务咨询、系统开发、大数据服务、建模等
传统金融主要客户列表
国有银行
中国银行(中银富登)
建设银行(建银村镇)
交通银行
全国性
股份制银行
招商银行
浦发银行
民生银行
中信银行
兴业银行
光大银行
平安银行
广发银行
渤海银行
浙商银行
恒丰银行
区域性银行 农村金融机构
外资(合资)银行
花旗银行 东亚银行
富邦华一银行
非银行金融机构
资产 : 人寿 信达 平安
信托:平安 华润 国民
保险:安邦 友邦 太平洋
证券:中信 平安
近200家国内外金融机构
11家全国性股份制商业银行
90余家国内大中型城市商业银行
直辖市:
北京银行 上海银行 天津银行 重庆银行
省级合并:
徽商银行 江苏银行 龙江银行 长安银行
湖北银行 贵州银行
省会:
汉口银行 宁夏银行 富滇银行 河北银行
南京银行 晋商银行 广州银行 西安银行
兰州银行 盛京银行 贵阳银行 杭州银行
福建海峡银行 内蒙古银行 乌鲁木齐商行
哈尔滨银行 成都银行
计划单列市:
宁波银行 青岛银行 大连银行
央企控股银行
昆仑银行 华润银行
江苏农信 湖北农信
陕西农信 吉林农信
北京农商 上海农商
成都农商 天津农商
广州农商 深圳农商
南海农信 东莞农商
长春农商
50多家重要的非银行金融机构
齐商银行 潍坊农商行 易贷中国 江西省小贷协会
新兴金融主要客户列表
互联网金融机构
互联网系:
腾讯财付通 微众银行 宜信
传统金融系:
证通股份 太平电商 安邦帮付宝 招联消费金融
佰仟金融 大地财保 平安陆金所
产业系:
国美电器 复星高科 中兴通讯 天虹百货 伊利集团
万达金融 永达金融
其他:
大数金融 汇金达 华融聚辉 厚本金融 平安租赁
普惠金融机构
大众小贷、张江小贷等近千家小贷公司和融资性担保公司
合作运营
主要业务板图
金融IT
大数据
云服务
n 金融IT实施与咨询服务
信贷管理系统产品群
额度、押品、核算系统
风险审计管理产品群
风险预警系统
资产证券化系统
……
n 安硕大数据服务
大数据技术服务
大数据运营服务
信用风险数据集市
信用风险数据仓库
信用风险规则仓库
……
小贷云服务平台 供应链金融云服务平台 大数据征信云服务平台
网贷云服务平台 消费金融云服务平台
n 安硕云服务平台
大 数 据 风 控 技 术 应 用 探 索
01
传统风控技术应用概述
什么是传统的商业银行运营模式?
存款人 资金 银行 借款人 资金
风险管理核心内容
持续稳定
股东权益�
收入最
大化
利润最优化
Banking Risk
银行风险
收益的不确定性
Credit Risk
信用风险
受信人不能履行还
本付息义务而引起
的收益波动
Market Risk
市场风险
由于市场价格、利
率、流动性引起的
收益波动
Operational Risk
操作风险
不完善的内部程序、
人员和系统或外部事
件导致损失的风险
q 意愿
q 偿付能力
q 利率风险
q 汇率风险
q 证券价格
q 流动性风险
q 隐含波动性
q 人员
q 流程
q 系统
q 外部事件
信用风险是银行最为复杂的风险种类,
也是银行面临的最主要的风险
传统风控技术应用
信贷周期 模型设计 算法应用
传统风控技术利弊分析
传统风控的优势
Ø 理论基础完善,经过成熟市场的实证检验
Ø 模型结构简单透明,容易理解和沟通
Ø 基于银行内部的信贷数据,预测性较强
传统风控的缺点
Ø 单家机构的数据微乎其微
Ø 传统数据类型的有偏性:金融、财务、借贷行为类数据(全国
只有30%的人群拥有可靠的借贷历史数据)
Ø 变量数目的有限性:10多个变量
新金融领域风控痛点
新金融领域风控痛点
目录
02
大数据风控技术应用探索
大数据风控技术要有前瞻性
预警信号库
信贷系统
核心系统
征信系统
其他系统(评级系统、押品系统等)
客户基本信息
关联关系信息
业务合同信息
……
CRM系统
银监会信息披露系统
人民银行征信系统
外部信息
对内服务 外部接口
预
警
决
策
管
理
预警规则及模型
内部信息
其它
互联网
同业金
融机构
银监会
政府机关
工商行政
法院
人民银行
信息来源
预警信号
定量指标
预警触发规则
预警参数
定性指标
Ø 内外部风险信息源接入管理
大数据风控技术要有先进性
Ø 先进性主要体现在数据规划整合、数据分析挖掘、智能决策管理、决策
结果应用、决策效果后评价五个方面。
管理后评价阶段
风险识别阶段
(客户预警等级)
设备
多维因素
处理模型
原材料
一维因素
处理规则
决策
变量
定性
指标
定量
指标
半成品
黄色
预警等级
蓝色
预警等级
...
风险传导阶段
(关联预警信号)
设备 信号处理
模型
信号处理
规则
高管
信息
担保
信息
股权
信息
成品
...
人工
信号
一维
信号
多维
信号
...
红色
预警等级
关联关系
整合机制
关联
关系表
关联
拓扑图
...
关联风险
传导机制
股权
关联信号 ...
担保
关联信号
风险处置阶段
(预警任务队列)
企业经
济成分
授信
余额
客户预
警等级
...
信号处置
措施
下户
检查
下调
评级
冻结
额度
...
任务
分发机制
任务二 。。。任务一
量化工具
评价机制
处置效率
评价机制
指标体系
评价机制
传导效果
评价机制
人工干预
风险处置
人工干预
风险传导
人工干预
识别效果后评价
处置反馈传导反馈
人工干预
智能化决策管理机制
定义有重大影响和
控制力的关联关系;
合理划分关系类型;
确定关联关系管理
目标数据需求;设
计关联风险传导机
制
根据客户虚警和漏警的情况
重检策略,开展策略后评价
工作,总结策略优化的方向
和内容,对策略适用性进行
持续动态维护。
决策管
理机制
预警对象的定义需体现
预警全面性的要求 ,根
据风险因素定义预警主
题,完善的预警主题有
助于对信号进行清晰、
明确的归集、识别和管
理
在客户层面进行信
号归集和排重,综
合评定客户风险等,
结合风险偏好设计
推送策略和跟踪处
置建议
定义行内及行外风险预警
信息源,根据数据质量分
析报告,确定风险预警目
标数据需求,提出数据治
理建议
核心问题——大数据处理诸多挑战
Ø 数据特性:数据源体现多源、多态、
多构,体量大、碎片化的特点
Ø 数据处理:采集、存储、解析、去
重、降噪、结构化、整合难度大
Ø 数据组织:需要建立各群体(行业、
项目、集团、企业、个人)广度及
深度关联
银行业
政
府
互联网
监管
数据
信息
情报
数据采集
• 基数大
• 种类多
• 非结构
语义 模式 行为分析
• 结构化
• 经筛选
• 经标引
行为知识 业务模型
• 结论性
• 时效性
• 指导决策
n IT架构保障:传统架构VS互联网云架构OR混合架构
非结构化数据处理过程示例
网页
广告
正文
标题
冗杂信息
企业公告
行政发文
舆情情报
宣传广告
舆情情报
行业情报
区域要闻
热点话题
企业舆情
负面曝光
处理
流程
采集
基础数据源
普通爬虫策略
自定义扩展数据源
可调整型爬虫策略
解析
自动识别
模板取数
定向解析(机器识别
+人工干预)
清洗
去重去伪
有效分类
舆情策略库
公司治理、经营管理、
财务风险、声誉风
险、……
舆情专家审核
对象匹配判读、策略匹配判读
命中企业:企业A
文章标题:****,****行业面临重大考验 新闻来源:**财经门户
聚焦情感倾向:负面 预警等级:高
一级主题:经营管理 二级主题:经营环境化
智能结构化示例
未结构化数据 结构化数据
不同主体广度/深度关联挖掘
企业主体
1
被关
注企
业
2
3
4
5
6
客户关联关系管理拓扑图
企业核心管理层
• 高管
• 实际控制人
额度关系
• 核心成员
• 一般成员
担保关系
• 常规担保
• 联贷联保
• 担保公司
• 互保
资金往来关系
• 大额交易对手
• 常规交易对手
模式化关系
• 链式关联
• 圈式关联
股权关系
• 股东
• 对外持股
个人主体
IT架构保障挑战
非核
心账
务类
系统
核心
账务
类系统
优势
痛点
优势
痛点
1、产品商业化程度
化高,产品链、解决方
案体系完善
2、满足金融行业的交
易强一致性要求
3、安全性、合规性、
可行性经过时间验证,
充分满足监管要求
1、扩展性较差,依赖于单
个硬件的纵向扩展
2、产品、技术相对封闭,
功能扩展不灵活
3、软硬件产品总拥有成
本(TCO)相对较高
1、分布式水平扩展架构,
容量扩展限制少
2、框架开源程度高,技术
相对安全可控
3、软硬件产品总拥有成
本(TCO)较低
1、商业化能力依赖于企业定制
,对企业的开发能力要求高
2、强一致性的保障依赖场景的
定制设计,并需要业务策略的支
撑,对应用层要求较高
3、基于互联网技术生态解决方
案的产品链缺口较大,商业化解
决方案体系正持续完善中
传统架构 互联网云架构
报警
平台
仪表
盘
统计
分析
机器
学习
数据
清洗
数据
加工
历史
查询
统计
查询
灵活
查询 SAS BIEE COGNOS
数据接口 FTP 文件接口
API
编程接口
REST
访问接口
ODBC/JDBC
PL/SQL
CLI
命令接口
R语言
接口
数据模型计算
时间窗口统计
实时异常处理
Stream
流处理引擎
Inceptor SQL引擎
Hyperbase
(Based on HDFS)
数据的存储、检验
与简单过滤统计
HoloDesk
分布式内存列
式存储+CUBE
(内存&SSD)
Discover
基于Spark数
据分析挖掘
Rstudio
图形化挖
掘工具
Elastic Search
文本搜索引擎
冷数据
Erasure Code
基于DOCKER的多租户管理集群
Manager
集群运维
资源监控
多租户
异常告警
安全控制
账户管理
LDAP
用户认证
Kerberos
基于角色
访问控制
安全审计
Sqoop ETL工具 文本文件 CDC
监控
平台
安全
日志
网络
设备
…
… 核心 信贷 个贷 国结
应用
日志
点击
行为
文档
图片
邮件
日志
消息队列 日志采集 FTP
ODS/交换平台/数据仓库
……
分布式文件系统
HDFS
CRUD:ORC
Transaction
应
用
服
务
层
数
据
存
储
与
计
算
层
数
据
采
集
层
源
数
据
层 实时流数据 非结构化半结构化数据
外部
数据
…
…
结构化数据
基础技术平台架构
基础技术平台与应用集成混合架构
信息管理重要性&金融行业投入
Ø Gartner 的市场调研揭示,以目前趋势2017年很可能是企业信息危机爆发的时期,有
意识的企业已经开始提升其信息管理的能力规避信息风险
n 数据管理是企业信息管理的基石
0
2
4
6
8
10
2009 2010 2011 2012 2013
Governance
Data Management
Design & Architecture
IM & AnalyCcs
Strategy
n 大数据将进一步推动数据治理、数据管理的进程
n 数据管理和分析应用逐步成为IT建设的核心内容
%
% %
%
%
%
%
%
%
%
%
%
%
%
%
0
2
4
6
8
10
2009 2010 2011 2012 2013
Market Size
Market Growth
n 金融行业是信息管理投入最高的行业
%
%
%
% %
%
%
%
% % Financial Services
Healthcare
Manufacturing
Public Sector