大数据安全及隐私
参考书及补充
重点与难点
• 内容:大数据安全、隐私及其保护的基本概念。
• 重点:安全及隐私保护技术。
• 难点:密码学和协议。
内容提纲
大数据安全
隐私及其保护
信息安全技术
大数据安全
信息安全(Information Security):是一个综合、交叉
的学科领域,研究内容涉及安全体系结构、安全协议、密
码理论、信息分析、安全监控、应急处理等。分为3个层
次:
① 系统安全:操作系统、数据库系统。
② 数据安全:数据的安全存储与传输。
③ 内容安全:病毒防护、不良内容过滤
***密码学技术是保障信息安全的关键技术
信息安全的模型
信息安全威胁:宏观地分为人为威胁和自然威胁
① 人为威胁:对信息的人为攻击,主要来自用户(恶意的
或无恶意的)和恶意软件的非法侵入。
② 自然威胁:可能来自于自然灾害、恶劣的场地环境、电
磁辐射和电磁干扰、网络设备自然老化等。
重点在于预防 重点在于检测、恢复
人为攻击
信息的安全性(安全属性)
① 机密性:是指信息不泄露给非授权实体并供其利用的特性。
② 完整性:是指信息不能被未经授权的实体改变的特性。
③ 不可否认性:是指通信双方信息真实同一的安全属性,收
发双方均不可否认。
④ 可控性:是指授权实体可以对信息及信息系统实施安全监
控,控制信息系统和信息使用的特性。
⑤ 可用性:指信息能够被授权实体访问并按要求使用,信息
系统能以人们所接受的质量水平持续运行,为人们提供有
效的信息服务的特性。
安全服务
① 鉴别服务:提供对通信中对等实体和数据来源的鉴别。
② 访问控制服务:对资源提供保护,以对抗其非授权使用
和操作。
③ 机密性服务:保护信息不被泄露或暴露给非授权的实体。
④ 完整性服务:对数据提供保护,以对抗未授权的改变、
删除或替代
⑤ 抗抵赖服务:防止参与某次通信交换的任何一方事后否
认本次通信或通信内容。
安全机制
① 加密机制:为数据提供机密性,也为通信业务流信息提供
机密性。
② 数字签名机制:证实消息的真实来源和抗抵赖。
③ 访问控制机制:对资源访问或操作加以限制的策略。
④ 完整性机制:保护数据以避免未授权的数据乱序、丢失、
重放、插入和篡改。
⑤ 鉴别交换机制:通过密码、密码技术、实体特征或占有物
提供对等实体的鉴别。
⑥ 通信业务填充机制:提供通信业务流机密性,对抗通信业
务分析。
⑦ 路由选择控制机制:使路由能动态地或预定地选取,以便
通信只在具有适当保护级别的路由上传输。
⑧ 公正机制:公正人为通信双方所信任,并掌握必要信息以
一种可证实方式提供所需的保证。
数据安全:是一种主动的包含措施,包括数据本身的安全
和数据防护的安全。
① 数据本身的安全,主要是指采用现代密码算法对数据进
行主动保护,如数据保密、数据完整性、双向强身份认
证等;
② 数据防护的安全,主要是采用现代信息存储手段对数据
进行主动防护,如通过磁盘阵列、数据备份、异地容灾
等手段保证数据的安全。
大数据安全内涵:应该包括两个层面的含义:
① 保障大数据安全,是指保障大数据计算过程、数据形态、
应用价值的处理技术;
② 大数据用于安全,利用大数据技术提升信息系统安全效
能和能力的方法,涉及如何解决信息系统安全问题。
行业 安全需求
互联网 有效的安全存储和智能挖掘分析,严格执行大数据安全监管和
审批管理,从海量数据中合理发现和发掘商业机会与商业价值
电信 核心数据和资源的保密性、完整性和可用性、保障用户利益、
体验和隐私的基础上发挥数据的价值
金融 对数据访问控制、处理算法、网络安全、数据管理和应用等方
面提出安全要求,期望利用大数据安全技术加强金融机构的内
部控制,提供金融监管和服务水平,防范和化解金融风险
医疗 数据隐私性高于安全性和机密性,同时要安全可靠的数据存储、
完善的数据备份和管理,以帮助医生与病人进行疾病诊断,药
物开发,管理决策、完善医院服务,提高病人满意度,降低病
人流失率
政府 隐私保护的安全监管、网路环境的安全感知、大数据安全标准
的制定、安全管理机制规范等内容
大数据安全威胁
① 大数据基础设施具有虚拟化和分布式特点,容易受到非
授权访问、信息泄露或丢失、破坏数据完整性、拒绝服
务攻击、网络病毒传播;
② 大数据应用的生命周期中,数据存储是一个关键环节,
尤其是非关系数据库带来如下安全挑战:模式成熟度不
够、系统成熟度不够、服务器软件没有内置的足够的安
全机制、数据冗余和分散性问题。
③ 网络安全是大数据安全防护的重要内容,安全问题随着
网络节点数量的增加呈指数级上升;安全数据规模巨大,
安全事件难以发现;安全的整体状况无法描述;安全态
势难以感知,等等。
④ 网络化社会使大数据易成为攻击目标:在网络化社会中,
信息的价值要超过基础设施的价值;大数据蕴涵着人与
人之间的关系和联系,使得黑客成功攻击一次就能获得
更多数据。
⑤ 大数据滥用的风险:一方面,大数据本身的安全防护存
在漏洞,安全控制力度不够。另一方面攻击者利用大数
据技术进行攻击,最大限度地收集更多用户敏感信息。
⑥ 大数据误用风险:大数据的准确性和数据质量不高,对
其进行分析和使用可能产生无效的结果,从而导致错误
的决策。
传统数据安全的不足
• 传统数据安全往往是围绕数据生命周期来部署,即数据的
产生、存储、使用和销毁。由于大数据的规模没有上限,
且许多数据的生命周期极为短暂,因此,常规安全产品想
要继续发挥作用,则需要解决如何根据数据存储和处理的
动态化、并行化特征,动态跟踪数据边界,管理对数据的
操作行为等。
• 随着大数据应用越来越多,数据的拥有者和管理者相分离,
原来的数据生命周期逐渐转变成数据的产生、传输、存储
和使用。数据以外包形式存储在云端。
保障大数据安全
• 围绕大数据全生命周期,即数据的产生、采集、传输、存
储、处理、分析、发布、展示和应用、产生新数据等阶段
进行安全防护。
• 大数据保障技术可以从物理安全、系统安全、网络安全、
存储安全、访问安全、审计安全、运营安全等角度进行考
虑。
• 保障大数据安全的目标:最大程度地保护具有流动性和开
放性特征的大数据自身安全,防止数据泄露、越权访问、
数据篡改、数据丢失、密钥泄露、侵犯用户隐私等问题的
发生。
• 对大数据全生命周期阶段合并与精简,大数据应用过程可
划分为4个环节:采集、存储、挖掘和发布。
1、采集环节安全技术
• 安全威胁:数据损坏、丢失、泄露、窃取。
• 安全机制:
① 身份认证
② 数据加密
③ 完整性保护
④ 抗重放攻击
⑤ 端到端的数据安全传输:采用SSL VPN(安全套接层,
虚拟专用网),有Web浏览器模式、客户端模式、Lan
到Lan模式。
2、存储环节安全技术
• 安全威胁:数据被窃取、丢失、破坏、机密数据泄露、隐
私数据泄露。
• 安全机制:
① 隐私保护:数据变换、数据加密、匿名化。
② 数据加密:静态数据是指文档、报表、资料等不参与计
算的数据—先加密再存储;动态数据是指需要检索或参
与计算的数据—同态加密。
③ 备份与恢复:异地备份、RAID(独立磁盘冗余阵)、数
据镜像、快照(数据副本、复制品)、
3、挖掘环节安全技术
• 数据挖掘是大数据应用的核心部分,是发掘大数据价值的
过程,即从海量的数据中自动抽取隐藏在数据中有用信息
的过程,有用信息可能包括规则、概念、规律和模式等。
• 安全威胁:第三方在进行数据挖掘的过程中植入恶意程序、
窃取系统数据。
• 安全机制:
① 身份认证:基于秘密信息、基于信物、基于生物特征
② 访问控制:自主访问控制DAC,可将拥有的权限自主地授予
其他主体,并在随后的任何时刻将这些权限回收,控制是自主
的;强制访问控制MAC—系统根据使用系统的机构事先确定
的安全策略,对用户的访问权限进行强制性的控制,用户不能
改变他们的安全级别或对象的安全属性;基于角色的访问控制
RBAC—在用户和访问权限之间引入角色的概念,将用户和角
色联系起来,通过对角色的授权来控制用户对系统资源的访问。
4、发布环节安全技术
• 发布是指大数据在经过挖据分析后,向数据应用实体输出
挖掘结果数据的环节,即数据“出门”环节,必须对即将
输出的数据进行全面的审查,确保输出的数据符合“不泄
密、无隐私、不超限、合规约”等要求。
• 安全威胁:泄密、泄露隐私、不合规范。
• 安全机制:
① 安全审计:基于日志的、基于网络监听的、基于网关的、
基于代理的
② 数据溯源:就是对大数据应用周期的各个环节的操作进
行标记和定位,在发生数据安全问题时,可以及时准确
地定位到出现问题的环节和责任者,以便于对数据安全
问题的解决。溯源方法:标注法、反向查询法、数字水
印。
大数据用于安全
• 安全监测与大数据的融合技术,利用大数据技术实时监控
海量、多样、快速和复杂的数据,有效提高安全监测的效
果和能力。
• 大数据技术将极大扩展安全分析的深度和广度,把传统的
数据安全分析的被动的事后分析变成主动地事前防御,能
够更好地感知网络安全态势。
• 在信息安全领域借助大数据处理技术,可以针对APT
(Advanced Persistent Threat,高级持续性威胁,恶意商业间谍威
胁)攻击隐蔽能力强、长期潜伏、攻击路径和渠道不确定等
特征,设计具备实时检测能力与事后回溯能力的全流量审
计方案。
隐私及其保护
隐私是与个人相关的、具有不被他人搜集、保留和处分的
权利的信息资料集合,并且它能够按照所有者的意愿在特
定时间、以特定方式、在特定程度上被公开。
• 隐私的基本属性:保密性、个人相关、能够被所有者处分。
• 隐私分类
① 个人隐私:任何可以确定特定个人或与可确定的个人相
关,但个人不愿意暴露的信息,譬如:就诊记录。
② 共同隐私:不仅包含个人隐私,还包含所有个人共同表
现出但不愿意被暴露的信息,譬如:平均薪资。
隐私权
• 1890年,哈佛大学法学院教授Samuel D. Warren和
Louis D. Brandeis发表题为《隐私权》的论文,标志隐
私权理论的诞生。
• 《公民权利和政治权利国际公约》第17条:任何人的私生
活、家庭、住宅和通信不得任意或非法干涉,其荣誉和名
誉不得加以攻击。人人有权享受法律保护,以免受非法干
涉或攻击。我国将侵犯隐私权的行为视为侵害名誉权。
• 信息时代的隐私权保护要比传统的隐私权保护重要得多。
信息隐私权保护的客体可分为以下4个方面:
① 个人属性的隐私权:譬如姓名、身份、肖像、声音等,
直接涉及个人领域的第一层次,是保护的首要对象。
② 个人资料的隐私权:譬如消费习惯、病历、犯罪前科等
记录,若其涉及的客体为一个人,则这种资料含有高度
的个人特性而常能辨识该个人的本体,即“间接”的个
人属性,也应以隐私权加以保护。
③ 通信内容的隐私权:通信内容包含个人的思想与情感,
原本存于内心,别人不可能知道,因而应以隐私权保护,
以保护个人人格的完整发展。
④ 匿名的隐私权:匿名权利的适度许可,可以鼓励个人的
参与感,并保护其自由创造力空间,真知直谏推动社会
的整体进步。
隐私保护
• 隐私保护(Privacy Preserving):是对个人隐私采取一
系列的安全手段防止其泄露和被滥用的行为。
• 隐私保护面临的威胁
① 数据搜集:Internet服务提供商在搜集、下载、集中、整
理和利用用户个人隐私资料极为方便。
② 信息服务:个性化需求的信息服务需要用户提供更多的
个人信息,才能提供更好的用户体验。
③ 搜索引擎:无法对自己搜索到的网页数据库信息进行监
督,不会对搜索到的内容信息负责。
④ 数据挖掘:从大量的、不完全的、有噪声的、模糊的、
随机的实际应用数据中,提取隐含在其中的、人们事先
不知道的、但又是潜在有用的信息和知识的过程。
• 隐私保护面临大数据的威胁
① 大数据时代带来信息存储和管理的集中化,一个大规模
生产、分享和应用数据的时代,一切皆可量化,通过社
交网络将社会关系和活动数据化,实现了过去不可想象
的情绪数据化。
② 大数据通常包含了大量的用户身份信息、属性信息、行
为信息,在大数据应用的各阶段内,如果不能保护好大
数据,极易造成用户隐私泄露。
③ 大数据的多源性,使得来自各个渠道的数据可以用来进
行交叉检验,有可能发现匿名化数据后面的真实用户,
因而导致隐私泄露。大数据时代,人们无法避免失去隐
私。
④ 数据存储过程:大数据环境下,用户无法知道数据确切
的存放位置,用户对其个人数据的采集、存储、使用、
分享无法有效控制。
⑤ 数据传输过程:大数据环境下,数据传输将更为开放和
多元化,传统物理区域隔离的方法无法有效保证远距离
传输的安全性,电磁泄漏和窃听将成为更加突出的安全
威胁。
⑥ 数据处理过程:大数据环境下,部署大量的虚拟技术,
资源动态共享增加了访问控制和身份认证的管理难度,
基础设施的脆弱性和加密措施的失效可能产生新的安全
风险。
隐私保护技术
• 隐私保护技术是用于保护用户隐私的各种安全策略的功能
集合。
① 访问控制:隐私数据的内容和用途相关。
② 推理控制:防止依据低密级的数据和模式的完整性约束推到出
高密级的数据。
③ 数据变换技术:将用户的真实隐私数据进行伪装或经轻微改变,
而不影响原始数据的使用。
④ 密码和密码协议:安全多方计算、盲签名
⑤ 匿名化技术:通过对需要保密的数据进行泛化和隐匿处理,防
止攻击者通过准标识符将某一个体与其敏感属性值关联起来。
⑥ 保护隐私数据挖据技术:基于启发式的(集中式数据对象,方
法:值替代和分组),基于密码学的(分布式数据对象,水平
或垂直分割),基于重构的(集中式对象,使用方法构造原始
数据的分布)。
信息安全技术
• 有人说第一次世界大战是化学家的战争,因为芥子气和氯
气第一次被用来作为战争武器;第二次世界大战是物理学
家的战争,因为原子弹被派上了战场。同样我们可以说,
如果有第三次世界大战的话,那将是数学家的战争,因为
数学家将控制战争中下一个重要的武器—信息。现在由数
学家负责发明新密码来保护军事信息,相应地,数学家也
会站在破解这些密码的前沿。
• Hadoop的安全机制:
基于令牌的认证机制:Kerberos机制
数据完整性:在文件创建时,客户端会对每个文件块计算
MD5或SHA1的值,并将这些值写入同一路径的隐藏文件
中。当客户端读取文件时,会先读取该隐藏文件中的信息,
利用该信息校验所读数据的完整性。
数据存储的完整性:周期性地对DataNode所管理的数据
块进行CRC校验和检查
SSH, Secure Shell 的缩写,SSH 为建立在应用层基础
上的安全协议。专为远程登录会话和其他网络服务提供安
全性的协议。
基于ACL的服务级权限控制(两级:系统级—服务级授权
控制Hadoop服务的访问、HDFS文件权限和
MapReduce队列权限)
密码体制
保密通信模型
密码体制定义
密码体制安全:取决于密钥的保密性,与算法的保密性
无关,即由密文和加解密算法不可能得到明文。
密码体制分类:单钥体制和双钥体制。
单钥体制:加密密钥和解密密钥相同(K1=K2),又称对
称密码体制。
• 分类:流密码(明文消息按字符,逐位地加密)、分组密
码(明文消息分组,含有多个字符,逐组地进行加密)。
• 密钥管理:密钥可由发送方产生然后再经一个安全可靠的
途径(如信使递送)送至接收方,或由第三方产生后安全
可靠地分配给通信双方。
• 应用:数据加密(速度快),消息的认证。
• 常用:DES(数据加密标准,64位分组,密钥56位,双密
钥的3DES,密钥112位,常用PGP、S/MIME),AES
(高级加密标准,128位分组,密钥支持128、192和
256)
双钥体制:加密密钥和
解密密钥不同(K1≠K2
,已知密码算法和加密
密钥,求解密密钥在计
算上是不可行的。 ),
又称非对称密码体制。
采用两个相关密钥,将
加密和解密能力分开,
其中一个密钥是公开的,
称为公开密钥,简称公
开钥,用于加密;另一
个密钥是为用户专用,
因而是保密的,称为秘
密密钥,简称秘密钥,
用于解密,因此也称公
钥密码体制
公钥密码体制实现
① RSA算法是1978年由, 和
提出的一种用数论构造的、也是迄今为止
理论上最为成熟完善的公钥密码体制,该体制已得到
广泛的应用。RSA的安全性是基于分解大整数的困难
性假定,之所以为假定是因为至今还未能证明分解大
整数就是NP问题,也许有尚未发现的多项式时间分解
算法。
② ECC(elliptic curve cryptography,椭圆曲线密码
体制),为保证RSA算法的安全性,它的密钥长度需
一再增加,使得它的运算负担越来越大。相比之下,
ECC可用短得多的密钥获得同样的安全性,因此具有
广泛的应用前景。ECC已被IEEE公钥密码标准P1363
采用。ECC安全性是基于椭圆曲线上的离散对数问题
的困难性假设。
• 数字证书,也称电子证书(简称证书)。在很多场合下,
数字证书、电子证书和证书都是公钥证书的同义词,
符合ITU-T V3标准。
• 数字证书是随PKI(Public Key Infrastructure,公钥基
础设施)的形成而发展起来的安全机制,证明实体所声明
的身份与其公钥的匹配关系,即实体身份与证书上的公钥
相绑定,是公钥体制密钥管理的媒介,即公钥的分发、传
送依靠证书机制来实现,也称公钥证书。
• 数字证书是一种权威性的电子文档,它是由具有权威性、
可信任性及公正性的第三方机构CA(Certificate
Authority)所颁发。
• 认证机构通过对一组信息(包括用户的可辨识名和公钥以
及包含关于该用户的附加信息)进行数字签名来产生用户
证书。
• 数字签名:或称数字签字(digital signature),类似于
手书签字。
• 数字签字应满足以下要求:
① 签字的产生必须使用发方独有的信息以防伪造和否认。
② 签字的产生应较为容易。
③ 签字的识别和验证应较为容易。
④ 对已知的数字签字构造一新的消息或对已知的消息构造
一假冒的数字签字在计算上都是不可行的。
• 实现:私钥加密算法或特定的签字算法。
① 公钥密码体制:使用私钥加密产生签名,公钥解密进行
验证。因为公钥密码体制加密解密速度慢,所以一般先
计算消息杂凑值,然后进行签名。
② 数字签字标准DSS(Digital Signature Standard)是由美
国NIST公布的联邦信息处理标准FIPS PUB 186。采用
DSA(Digital Signature Algorithm),仅能用于签名。
随机数k,发送方的秘密钥SKA和供所有用户使用的一族参数PKG(称为全局公开钥
)
基于身份的公钥密码体制IBE(Identity-Based Encryption)
• 思想:最早由Shamir于1984年提出, 方案中不使用任
何证书, 直接将用户的身份作为公钥, 以此来简化公钥
基础设施PKI 中基于证书的密钥管理过程。
• 一个基于身份的加密体制(E )由以下四个算法组成:
① 建立 (Setup):由安全参数k 生成系统参数params和主密钥
master-key。
② 加密 (Encrypt): 由输入params、 ID和M, 返回密文C。
③ 提取(Extract) : 由给定公钥 (身份) 生成秘密钥,即由
params,master-keys和任意ID ∈ {0, 1}*,返回一个秘密钥
d。
④ 解密(Decrypt): 由输入params、 C和 d,返回明文M。
数据完整性
• 认证符是用于认证消息的数值,它的产生方法又分为消息
认证码MAC(message authentication code)和杂凑
函数(hash function)两大类。HMAC是Hash函数和
MAC结合。
• 数字签名(Digital Signature),前面已讲述
• CRC(Cyclic Redundancy Check,循环冗余校验码)
MAC:是指消息被一密钥控制的公开函数作用后产生的、
用作认证符的、固定长度的数值,也称为密码校验和。此
时需要通信双方A和B共享一密钥K。
• 设A欲发送给B的消息是M,A首先计算MAC=CK(M),其
中CK(·)是密钥控制的公开函数,然后向B发送M‖MAC
,B收到后做与A相同的计算,求得一新MAC,并与收到
的MAC做比较。
杂凑函数:又称哈希函数,常用来构造数据的短“指纹”。
• 杂凑函数H是一公开函数,用于将任意长的消息M映射为
较短的、固定长度的一个值H(M),作为认证符,称函数
值H(M)为杂凑值、杂凑码或消息摘要。杂凑码是消息中
所有比特的函数,因此提供了一种错误检测能力,即改变
消息中任何一个比特或几个比特都会使杂凑码发生改变。
• 为了能够实现对数据的认证,杂凑函数应满足以下条件:
① 函数的输入可以是任意长。
② 函数的输出是固定长。
③ 已知x,求H(x)较为容易,可用硬件或软件实现。
④ 已知h,求使得H(x)=h的x在计算上是不可行的,这一性质
称为函数的单向性,称H(x)为单向杂凑函数。
⑤ 已知x,找出y(y≠x)使得H(y)=H(x)在计算上是不可行的。
如果单向杂凑函数满足这一性质,则称其为弱单向杂凑函数。
⑥ 找出任意两个不同的输入x、y,使得H(y)=H(x)在计算上是
不可行的。如果单向杂凑函数满足这一性质,则称其为强单向
杂凑函数。
第⑤和第⑥个条件给出了杂凑函数无碰撞性的概念,如果杂凑
函数对不同的输入可产生相同的输出,则称该函数具有碰撞性。
• 目前使用的大多数杂凑函数如MD5、SHA,其结构都是
迭代型的。
• MD4是MD5杂凑算法的前身,由Ron Rivest于1990年
10月作为RFC提出,1992年4月公布的MD4的改进
(RFC 1320,1321)称为MD5。算法的输入为任意长
的消息(图中为K比特),分为512比特长的分组,输出
为128比特的消息摘要。
• 安全杂凑算法(secure hash algorithm, SHA)由美国
NIST设计,于1993年作为联邦信息处理标准(FIPS
PUB 180)公布。SHA是基于MD4的算法,其结构与
MD4非常类似。算法的输入为小于264比特长的任意消息,
分为512比特长的分组,输出为160比特长的消息摘要。
HMAC(密码杂凑函数):
• 传统上构造MAC最为普遍使用的
方法,即基于分组密码的构造方
法。密码杂凑函数没有出口限制,
而分组密码即使用于MAC也有出
口限制。
• 目前已提出了很多将杂凑函数用
于构造MAC的方法,其中HMAC
就是其中之一,已作为RFC2104
被公布,并在IPSec和其他网络协
议(如SSL)中得以应用。
• 基于密码杂凑函数构造的MAC的
安全性取决于镶嵌的杂凑函数的
安全性,而HMAC最吸引人的地
方是它的设计者已经证明了算法
的强度和嵌入的杂凑函数的强度
之间的确切关系。
K+是左边经填充0后的K,ipad为b/8个00110110,opad为b/8个01011010
CRC(Cyclic Redundancy Check,循环冗余校验码):
1961,W. Wesley Peterson发明 ,在K位信息码后再拼
接R位的校验码,整个编码长度为N位,因此,这种编码
也叫(N,K)码,是一类重要的线性分组码,编码和解码方法
简单,检错和纠错能力强,在通信/存储领域有广泛应用。
• CRC工作原理:对于一个给定的(N,K)码,可以证明存在
一个最高次幂为N-K=R的生成多项式G(x)。校验码生成过
程为:假设要发送的信息用多项式C(X)表示,将C(x)左移
R位(可表示成C(x)*2R),这样C(x)的右边空出R位就是
校验码的位置。用 C(x)*2R 除以生成多项式G(x)得到的余
数就是校验码。
名称 多项式 应用举例
CRC-8 X8+X7+X6+X4+X2+1
CRC-12 X12+X11+X3+X2+X+1 telecom systems
CRC-16 X16+X15+X2+1 Bisync, Modbus, USB, ANSI
, SIA DC-07, many others;
also known as CRC-16 and
CRC-16-ANSI,磁盘驱动器
CRC-CCITT X16+X12+X5+1 ISO HDLC, ITU ,
PPP-FCS
CRC-32 X32+X26+X23+X22+X16+X12
+X11+X10+X8+X7+X5+X4+X
2+X+1
ZIP, RAR, IEEE 802 LAN/FDDI,
IEEE 1394, PPP-FCS
CRC-32C X32+X28+X27+X26+X25+X23
+X22+X20+X19+X18+X14+X
13+X11+X10+X9+X8+X6+1
iSCSI, SCTP, payload,
, Btrfs, ext4, Ceph
11010011101100 000
^1011
01100011101100 000
^ 1011
00111011101100 000
^ 1011
00010111101100 000
^ 1011
00000001101100 000
^ 1011
00000000110100 000
^ 1011
00000000011000 000
^ 1011
00000000001110 000
^ 1011
00000000000101 000
^ 101 1
-------------------
00000000000000 100 (CRC校验码)
11010011101100 100
^1011
01100011101100 100
1011
00111011101100 100
^ 1011
00010111101100 100
^ 1011
00000001101100 100
^ 1011
00000000110100 100
^ 1011
00000000011000 100
^ 1011
00000000001110 100
^ 1011
00000000000101 100
^ 101 1
--------------------
0 (余数为0,正确)
身份认证
• 认证:事实上安全可靠的通信除需进行消息认证外,还需
建立一些规范的协议对数据来源的可靠性、通信实体的真
实性加以认证,以防止欺骗、伪装等攻击,即身份认证。
• 问题陈述: A和B是网络的两个用户,他们想通过网络先
建立安全的共享密钥再进行保密通信。那么A(B)如何确信
自己正在和B(A)通信而不是和C通信呢?这种通信方式为
双向通信,因此,此时的认证称为相互认证。类似地,对
于单向通信来说,认证称为单向认证。
• A、B两个用户在建立共享密钥时需要考虑的核心问题是
保密性(密文形式)和实时性(时戳—时钟同步,面向无
连接、询问与应答—随机数、面向连接)。
• 实现:通信双方建立共享密钥时可采用单钥加密体制和公
钥加密体制。
采用单钥加密体制实现
• 为通信双方建立共享的密钥时,需要有一个可信的密钥分
配中心KDC,网络中每一用户都与KDC有一共享的密钥,
称为主密钥。KDC为通信双方建立一个短期内使用的密钥,
称为会话密钥,并用主密钥加密会话密钥后分配给两个用
户。这种分配密钥的方式在实际应用中较为普遍采用,譬
如:Kerberos系统。
• Kerberos是MIT作为Athena计划的一部分开发的认证服
务系统,Kerberos系统建立了一个中心认证服务器用以
向用户和服务器提供相互认证。目前该系统已有5个版本,
其中V1到V3是内部开发版,V4是1988年开发的,现已
得到广泛应用,而V5则进一步对V4中的某些安全缺陷做
了改进,已于1994年作为Internet标准(草稿)公布
(RFC 1510)。
• C:客户机;AS:认证服务器, 它知道每个用户的口令,并将口令
存在一个中心数据库。 ;V:服务器;IDC: 客户机用户的身份;
TGS:票据许可服务器;IDV: 服务器V的身份;IDtgs:TGS的身
份;ADC:C的网络地址;PC:C上用户的口令;TSi:第i个时戳;
lifetimei:第i个有效期限;KC:由用户口令导出的用户和AS的共享
密钥;Kc,tgs:C与TGS的共享密钥;KV:TGS与V的共享密钥;Ktgs
:AS与TGS的共享密钥;Kc,v:C与V的共享密钥。
第Ⅰ阶段(认证服务交换)用户从AS获取票据许可票据:
① C→AS:IDC‖IDtgs‖TS1
② AS→C:EKC[Kc,tgs‖IDtgs‖TS2‖lifetime2‖Tickettgs]
其中:Tickettgs=EKtgs[Kc,tgs‖IDC‖ADC‖IDtgs‖TS2‖lifetime2]
第Ⅱ阶段(票据许可服务交换)用户从TGS获取服务许可票据:
③ C→TGS:IDv‖Tickettgs‖Authenticatorc
④ TGS→C:EKc,tgs[Kc,v‖IDv‖TS4‖TicketV]
其中:Ticketv=Ekv[Kc,v‖IDC‖ADC‖IDV‖TS4‖lifetime4]
Authenticatorc=EKc,tgs[IDC‖ADC‖TS3]
第Ⅲ阶段(客户机与服务器间的认证交换)用户从服务器获取服务:
⑤ C→V:Ticketv‖Authenticatorv
⑥ V→C:EKc,v[TS5+1]
其中:Ticketv=Ekv[Kc,v‖IDC‖ADC‖IDV‖TS4‖lifetime4]
Authenticatorv=EKc,v[IDC‖ADC‖TS5]
采用双钥加密体制实现
① A→AS: IDA‖IDB
② AS→A:ESKAS[IDA‖PKA‖T]‖ESKAS[IDB‖PKB‖T]
③ A→B:
ESKAS[IDA‖PKA‖T]‖ESKAS[IDB‖PKB‖T‖EPKB[ESKA[KS‖T]]
** AS是认证服务器,时戳T用以防止重放攻击
① A→KDC:IDA‖IDB
② KDC→A:ESKAU[IDB‖PKB]
③ A→B:EPKB[NA‖IDA]
④ B→KDC:IDB‖IDA‖EPKAU[NA]
⑤ KDC→B:ESKAU[IDA‖PKA]‖EPKB[ESKAU[NA‖KS‖IDB]]
⑥ B→A:EPKA[ESKAU[NA‖KS‖IDB]‖NB]
⑦ A→B:EKS[NB]
**KDC:密钥分发中心,一次性随机数NA 、NB保证会话密钥的新鲜性。
SSH认证协议
• 从客户端来看,SSH提供两种级别的安全验证。
① 基于口令的安全验证:通过帐号和口令可以登录到远程主机,
所有传输的数据都会被加密,易受“中间人” 攻击,即假冒
的服务器。
② 基于密钥的安全验证:用户必须为自己创建一对密钥,并把公
钥放在需要访问的服务器上。如果要连接到SSH服务器上,客
户端软件就会向服务器发出请求,请求用公钥进行安全验证。
服务器收到请求之后,先在该服务器上的主目录下寻找用户的
公钥,然后把它和用户发送过来的公用密匙进行比较。如果两
个密匙一致,服务器就用公钥加密“质询”(challenge)并
把它发送给客户端软件。客户端软件收到“质询”之后就可以
用自己的私钥(一般用口令保护)解密,然后再把它发送给服
务器。优点:不需要在网络上传送口令;不仅加密所有传送的
数据,而且“中间人”这种攻击方式也是不可能的。缺点:登
录时间长(可能需要10秒)
访问控制列表ACL
• 基于访问控制列表(ACL)的访问控制:以资源客体为判断
对象实现访问控制。在整个系统中,资源客体访问控制列
表中的元素表示为一个二元组(s,a),其中s表示访问主体,
a表示一种访问控制方式(访问策略)。
• Linux用户管理:超级用户(root,仅有一个)、常规用
户和用户
• Linux文件系统中的所有内容,包括目录和设备,都是以
文件形式存在的,每个文件都有一组权限。权限按所有者、
组和其他进行分组,包括读权限(4)、写权限(2)和执
行权限(1)。
-rw-rw-r-- 文件权限
drwxrwxr-x 目录权限
crw-rw---- 字符设备
brw-rw---- 块设备
小结
• 信息安全、网络空间安全、大数据安全、隐私保护的基础
是密码学。
• 大数据为安全技术发展提供了新的机遇,促进了安全技术
与其他学科和技术融合与发展。
• 大数据安全内涵包括保障大数据安全和大数据用于安全两
方面。
• 服务个性化和隐私保护的矛盾。