标 题终端安全管理的大数据实践
目
录
大数据团队及应用介绍1
北信源大数据整体解决方案3
泛终端大数据分析2
案例分析与需求分析4
大数据团队及应用案例介绍
团队介绍
总人数:39人,其中博士6人,硕士15人;
数据挖掘方向:博士4人,硕士10人。
大数据团队及应用案例介绍
大数据应用案例
GA终端大数据分析
网情监测与应用分析平台(应用于竞争情报分析、舆情监测)
大数据安全管理平台软件
区域反恐情报搜集与分析系统
国家电网(省级)终端大数据应用分析
某大型油田终端大数据应用分析
……
大数据团队及应用案例介绍
泛终端大数据分析
敏感行业已经开始数据化
金融证券
制 造 业
政府军队
电子商务
移动通信
零售业
医疗服务
数据量大
挖掘潜力大
数据意识强
IT基础好
这些产业在大数据分析应用方
面具有如下优势:
信息化程
度高,终
端产生的
数据价值
高
泛终端大数据分析
泛终端大数据分析
泛终端:计算机、移动设备、虚拟化设备、物联设备等。
泛终端大数据分析:
通过对泛终端相关的行为数据采集、存储、数据挖掘、机器
学习等技术,分析出终端的资源使用情况、系统安全情况、人员倾
向等行为,实现对政府、企业高效安全的管理,最终提供辅助决策。
大数据的市场驱动力
北信源大数据整体解决方案
解决方案
需求分析2
体系结构1
总体架构-逻辑架构图3
总体架构-物理架构图4
系统模块描述5
泛终端大数据整体解决方案
解决方案
需求分析2
体系结构1
总体架构-逻辑架构图3
总体架构-物理架构图4
系统模块描述5
需求分析
… … …
XXX公司全省终端点数
近 ? 万台(包含内外网
等)
平均每个客户端每
天产生的数据量约
为1M,全网1天产
生的数据总量约为
60GB(客户端打
开180个页面,每
页面5k记录约
M;进程每天约
100条记录,每条
1k共计;其
他数据量较少,忽
略不计)
目前现状
进
程
名
C/S
进
程
描
述
进
程
路
径
进程
MD5
值
置
顶
时
间
置顶
且活
动时
间
加
载
次
数
运
行
时
长
其
他
访
问
URL
B/S
源
MAC
地址
进
程
路
径
源
IP
地
址
目
标
IP
目标
MAC
地址
访
问
时
间
H
o
s
t
其
他
Referer
开关机信息
开机
时间
关机
时间
其
他
需求分析
目前现状
班组设备使用情况?
是否有数据泄密、数据窃取?
业务系统应用、工作流程优化等情况?
员工工作效率及工作量?
。。。
需求分析
大数据分析、挖掘之后能够为公司带来什么?
•1. 通过终端行为分析挖掘出员工工作行为,为优化工作管理、提高管理效率
提供决策依据
•2. 分析应用的协作情况,为应用优化提供参考依据
•3. 通过应用数据导入大数据,进行应用数据、终端行为数据、安全日志全方
位大数据融合、关联、分析,为行为提供更高层面的战略管理、决策辅助依
据。
•4. 通过安全设备、网络设备日志汇入大数据分析,进一步分析网络安全风险
隐患;
•5. 通过终端行为发现信息安全隐患(如未知的病毒木马、黑客攻击、
APT攻击、数据泄密等常规安全手段不能发现的信息安全攻击行为)
需求分析
详
细
需
求
分
析
效能管理2
终端管理1
应用管理3
需求分析
效能管理2
终端管理1
应用管理3
详
细
需
求
分
析
需求分析
终端管理
A
B
C
风险进程的分布情况、扩散情况分析
根据建立的风险进程模型、判断出风险进程、跟踪和监控风险进程的分
布和扩散情况、从而为病毒和木马防治提供参考依据。
APT攻击分析
根据终端异常行为、数据量异常等分析出可能的黑客发起的
APT攻击行为。
僵尸网络分析
基于终端的进程端口异常、发起的WEB扫描分析出可能的僵尸
网络行为。
D
数据窃取行为分析
基于数据的非正常访问、比如U盘使用频率、拷贝数据量等分析
出可能的数据窃取行为。
需求分析
效能管理2
终端管理1
应用管理3
详
细
需
求
分
析
需求分析
效能管理
A
B
员工工作效率分析
通过业务软件、办公软件使用时长等因子,分析终端使用者的工作
效率,为加强业务技能提升提供参考。
员工绩效总体分析
以员工的开关机时间、业务进程活动时间、游戏进程活动时间、办公软
件活动时间为指标,对其绩效进行聚类分析,将绩效相似的人聚集在一起,
并通过打标签的方式判断聚类内容的绩效高低。
详细需求分析
效能管理2
终端管理1
应用管理3
详
细
需
求
分
析
详细需求分析
应
用
管
理
应用统
计分析
应用
推荐
聚类和
分类
业务软件使用情况分析
休闲软件使用情况分析
终端访问Web分析
终端开关机情况分析
Web应用情况分析
进程关联和推荐
Web关联和推荐
基于开关机次数、时间等因素、分析
终端开关机、故障现象等。
依据Web访问次数、时间等对使用业
务BS应用进行按照地区、部门的分
析和排名。
根据业务软件进程的运行时长,置顶
时长,置顶且活动时长和进程加载次
数等特征指标,根据数据融合算法,
把多维特征融合成一维特征,然后对
各部门、各地区业务软件使用情况进
行分析、排名。
根据休闲软件进程的运行时长,置顶
时长,置顶且活动时长和进程加载次
数等特征指标,根据数据融合算法,
把多维特征融合成一维特征,然后对
各部门、各地区使用休闲软件情况进
行分析、排名,为加强内部管理提供
参考
分析出某个地区或者部门在频繁使用
外地的WEB应用,为进一步分析 业
务应用的改进提供参考。
通过对人群每天使用业务进程的相似
性形成业务进程之间的相似性集合、
在通过进程推荐算法模型进行相关应
用推荐。
通过对人群访问的业务BS网站的相
似性形成业务BS网站之间的相似性
集合在通过BS推荐算法模型进行相
关BS网站推荐。
基于业务进程和web应用的聚类
根据终端用户使用的业务软件进程
名集合和web应用URL集合,进行相似
人群聚类。
应用管理
解决方案
需求分析2
体系结构1
总体架构-逻辑架构图3
总体架构-物理架构图4
系统模块描述5
总体架构
逻辑架构:开放式体系结构
采集 传输 汇聚 存储 挖掘
解决方案
需求分析2
体系结构1
总体架构-逻辑架构图3
总体架构-物理架构图4
系统模块描述5
总体架构
物理架构
解决方案
需求分析2
体系结构1
总体架构-逻辑架构图3
总体架构-物理架构图4
系统模块描述5
终端行为数据采集
终端行为数据采集
主要采集了开关机、进程服务、上网行为、usb行为等其他客户行为,采集的策
略主要是通过集中管控的方式下发。
终端行为数据采集,为后期的分析提供了数据源。
中间件数据传输
数据的传输与存储
考虑的数据的量及传输的安全性,北信源自主研发了一套多级数据传输系统,采
取数据去重重组、数据加密、数据校验以及数据备份的机制不仅能高效安全的完成
数据的传输,还能进行水平扩展。
与开源传输软件的区别
高效安全:传输全过程加密、数据完整性保证
流量控制:数据压缩、流量策略化管控
中间件数据传输
客户
端
客户
端
下级中间件
客户
端
客户
端
下级中间件
顶级中间件数据汇聚平台
“一机
两用”
缓
存
缓
存
缓
存
大数据汇聚
数据汇聚
使用场景:
原有的安全数据需要进入终端大数据分析平台分析
其他服务器及边界设备的日志数据
数据交换过程:
抽取、转化、加载
大数据汇聚原理图
终端数据挖掘
数据分析
北信源已经完成了人员的行为分析(开机率、终端节能)、数据泄露分析、风险进
程分析、终端健康状况分析、智能标签识别、终端业务分类等模型的建立。
对于数据的分析,用户除了使用我们内置的分析模块,未来也可以通过使用我
们的算法,完成一些自定义分析模型的建设。
北信源大数据可视化展示平台架构
案例分析
案例分析--以XXXX案例进行分析
项目背景
目前,全国xx信息网已经有了数千个工作应用以及两百多万台接入
终端,保障着XXXX的业务有序运行。
随着xx信息化工作的深入,xx信息网的用户使用情况、设备使用效
率、业务应用情况,干警关注焦点等情况均难以获知,对信息化开展情
况和应用效果难以判断。
因此,迫切需要针对当前终端用户行为进行数字化的采集、汇总、
分类、分析,将其提取为相对结构化的数据,获取各类应用的使用情况,
进行宏观分析和微观的异常行为判别,以更好的对各地信息化工作进行
评价,并以此为基础通过对用户使用习惯以及倾向性动作获取、分类,
从而获知广泛使用的优秀应用工具,并利用工具推送或推荐App、软件、
应用,URL,真正做到数据取之于用户,用之于用户,从而更好的支持
xxxx信息化建设。
案例分析--以XXXX案例进行分析
平台搭建
3月15日-3月30日
4-9 月
5-9月 7-9月 6-9月 10月
信息采集 资源池 打标签 建模分析 校准数据 成果展现
9-10月
建立警种聚类
分析模型
提取有效B/S
和C/S
给B/S和C/S打
标签,分类 根据匹配率不断
校准模型
资源库、聚类
成果展示
采集终端进程数
据、终端上网行
为数据
数据采集端中间件
Hadoop集群
和Hive数据仓库
Mysql集群
管理服务器 项目投入包括研发、测试在内近百人
工程建设里程碑
案例分析--以XXXX案例进行分析
工程建设里程碑
3月15日-3月30日
平台搭建
4-9 月 5-9月 7-9月 6-9月 10月
信息采集 资源池 打标签 建模分析 校准数据 成果展现
9-10月
内容
进
程
名
C/S
进
程
描
述
进
程
路
径
进程
MD5
值
置
顶
时
间
置顶
且活
动时
间
加
载
次
数
运
行
时
长
其
他
访问
URL
B/S
源
MAC
地址
进
程
路
径
源
IP
地
址
目
标
IP
目标
MAC
地址
访
问
时
间
H
o
st
其
他
Referer
开关机信息
开机
时间
关机
时间
其
他
采集江苏省XX市内网终端
12383台
主要采集时间为7、8、9月日
均传输数据量:15GB
总容量:
由于采用了集群冗余,实际占
用空间约为 TB
案例分析--以XXXX案例进行分析
信息采集
案例分析--以XXXX案例进行分析
工程建设里程碑
3月15日-3月30日
平台搭建
4-9 月 5-9月 7-9月 6-9月 10月
信息采集 资源池 打标签 建模分析 校准数据 成果展现
9-10月
案例分析--以XXXX案例进行分析
网站, 490
业务, 265
网站:490个
二级及
以下
URL
59
业务类网
站
16
2
269
综合类网
站
B/S应用数量:755个
资源池
案例分析--以XXXX案例进行分析
C/S应用数量:6061个
业务:386
通用
5720
黑名单:193
白名单:5527
资源池
3月15日-3月30日
平台搭建
4-9 月 5-9月 7-9月 6-9月 10月
信息采集 资源池 打标签 建模分析 校准数据 成果展现
9-10月
案例分析--以XXXX案例进行分析
以业务聚类为例
工程建设里程碑
案例分析--以XXXX案例进行分析
建模分析
业务应用、运行
次数、应用对应的
业务等特征,进行
预学习
1
根据终端使用业
务应用之间的相似性
采用贝叶斯分类算法
进一步分析终端业务
类别信息
2
设置相应的权重,综
合分析CS业务应用、BS 业
务应用、BS网站业务类和BS
网站综合类二级url的维度,
预测业务人员X属于具有最
高后验概率的业务类别
3
参照真实业务类别信息对
聚类不符的业务终端采用运
行次数最大的业务应用业务
类型进行替换,生成所属业
务分类结果
4
采用贝叶斯分类模型方法
案例分析--以XXXX案例进行分析
3月15日-3月30日
平台搭建
4-9 月 5-9月 7-9月 6-9月 10月
信息采集 资源池 打标签 建模分析 校准数据 成果展现
9-10月
工程建设里程碑
案例分析--以XXXX案例进行分析
成果展现
案例分析--以XXXX案例进行分析
成果展现
1. 数据采集以及使用维度
PKI信息 Time 时间
PKI信息 Mode 类型(0,1)
PKI信息 PkiId ID
PKI信息 UserName 使用人
PKI信息 Unit 单位
PKI信息 PId 身份证号码
移动存储设备信息 Time 时间
移动存储设备信息 Mode 类型(写入、读取)
移动存储设备信息 SrcP 源路径
移动存储设备信息 DstP 目的路径
移动存储设备信息 FSize 文件大小
移动存储设备信息 FSign 文件特征码(文件的MD5值)
移动存储设备信息 FCode 文件指纹(取文件前1024字节的前32字节和后32字节)
移动存储设备信息 MifTime 文件修改日期
移动存储设备信息 UType U盘特征(取U盘的VID、PID、设备序列号、供应商、设备名称)
复制粘贴信息 Time 时间
复制粘贴信息 Mode 类型
复制粘贴信息 DataType 数据格式
复制粘贴信息 EXE 进程
复制粘贴信息 WinF 窗体名称
截屏信息 Time 时间
截屏信息 Mode 类型
截屏信息 EXE 置顶进程
截屏信息 WinF 置顶窗体名称
案例分析-数据泄露模型简析
2. 分析重要BS应用资源库
a) 整理重要资源库url,标题,地区码等基础信息
b) 提炼重要资源关键词库
应用TF-IDF提取重要资源库的关键词:
( )
( ) ( )
log
( ) ( )
wi j d
i
w j d wi
n d N Train
W
N d n Train
其中,n
wi
表示第i个词语在d
j
类中出现的次数,
N
w
表示在d
j
类中词语的总数,
N
d
表示每类的文本个数,
n
d(wi)
表示第i个词语类中词语出现的文本个数,
Train代表训练样本个数,
W
i
为该词语在所在类中的贡献值。
案例分析-数据泄露模型简析
3. 数据盗取模型核心算法
案例分析-数据泄露模型简析
a) 合并行为对为分析对象
案例分析-数据泄露模型简析
终端数据盗取行为分析
截屏
粘贴
复制
粘贴
时间差<t0
时间差<t0
重要应用资源库
重要文件资源库
窗体名
文件名
USB拷贝
关联
关联
行为对
(关联)
(关联)
b)数据盗取模型基本过程
案例分析-数据泄露模型简析
通过终端的危险度函数,计算结果,得到终端的风险程度值,从而锁定PKI
等个人信息。
c)计算结果
e)对比调优并添加模型参数
d)人工审核模型结果
案例分析-数据泄露模型简析
谢谢大家!