第9章 大数据与云数据管理
大数据
云计算
云数据管理
有关大数据的两个问题
问题1:你知道什么是“大数据”吗?
如果你不知道,那么你很可能OUT了!
问题2 :你听说过“大数据”吗?
如果你连“大数据”听都没听过,那么你
绝对OUT了!
你认识这位老兄吗?
如果你连这位老兄都不认识,那你也太OUT
了!
斯诺登事件带给我们的最大震动是什么?
不在于他暴露了美国政府正在监听全世界这件事
情。因为,这早已是公开的秘密,对“世界警察
”而言,这没有什么值得大惊小怪的!
而在于他使我们了解到美国政府已经具备了获取、
存储、管理、分析和使用“大数据”的超强能力。
这使美国政府获得了相对他国政府更明显的优势
!
大数据为“世界警察”的“大拳头”装上了“大
眼睛” 、 “大耳朵”和“大脑袋” !
目前IT领域最引人关注的三个热词是什么?
大数据
云计算
物联网
其他:移动互联网,社交网,
什么是大数据?
来源:2008年9月《科学》(Science)杂志发
表了一篇文章“Big Data: Science in the
Petabyte Era”, 从此“大数据”这个词开
始被广泛传播。
什么是大数据?
没有统一定义,因为“大”是一个相对“小”
而言概念。
与大数据(Big Data)相类似的词汇:
Large Scale 大规模,
Very Large 超大规模,
Massive 海量
…
什么是大数据?
从历史发展的视角看这几个
词:
Very Large表示GB级别的数据
Massive表示TB级的数据
Big Data表示PB级别及其以上
的数据
显然,争论它们中哪一个更
大没有什么意义。
什么是大数据?
一个普遍接受的定义
大数据是指无法在可容忍的时间内用传统方
法或工具对其进行抓取、管理和处理的数据
集合。
数据集组成非常巨大和复杂,以至于传统数
据库管理工具处理起来面临很多问题。
获取、存储、检索、共享、分析和可视化。
数据量达到PB、EB或ZB级别。
* * from {Big Data} @ {Big Data} @wikipedia.
难道这就是大数据?
难道这就是大数据?
大数据产生的背景
数据量 3个月翻一番
通信速度 6个月翻一番
存储容量 9个月翻一番
集成电路 18个月翻一番
现在网络环境下每18个月产生的数据量相
当于过去几千年的数据量之和
数据之多,数据量之大,前所未有
大数据有多大?—— 以互联网为例
Facebook
截止2012年4月,每日评论已达32亿条;每天新上传照
片近3亿张。
每周新增图片容量约60TB,图片总量约2600亿张,已
超过20PB。
平均每秒3500次写操作,读操作的峰值可以达到每秒
百万次。
Amazon
目前EC2有约450000台服务器(存储+处理)。
•• * *数据来自数据来自FacebookFacebook于于20122012年年44月提交的监管文件。月提交的监管文件。
•• ** **数据来源于亚马逊数据来源于亚马逊20122012年年44月的官方介绍材料。月的官方介绍材料。
大数据有多大?
多,实在是多!
繁,实在是繁!
大,实在是大!
No data like more data!
数据永远也不嫌多!
大数据从何而来?—— 机器
存储
软件、系统文件、基础数据
元数据(如索引)
冗余、备份
…
处理
原始数据的自动加工:
压缩、聚类、规则适用、可视化、智能衍生…
传播
负载迁移、分布式共享( 如P2P)…
大数据从何而来?—— 人
内容提供商
新闻报道、时事评论、广告宣传…
音频、视频、微视频…
职业撰稿人
网络作家、写手、推手、水军…
普通大众
博文、图片、音乐、视频…
SNS网络传播
评论、转发…
大数据从何而来?—— 物理世界
无所不在的感知数据
传感节点(压力、温度、湿度、声光电…)
• 无线宽频信号采样、太湖蓝藻检测、PM …
视频监控
• 目前1路720P高清视频摄像数据每小时视频录像3GB左右。按一
个月保存时间要求计算,3GB/小时×24小时×30天×1路=。一
个拥有500路高清视频摄像,需要保存1个月的监控系统所需的最
少存储容量是1PB。
对地观测
• 资源三号卫星在运行前两个月的时间内,产生37TB的原始影像数
据。这是后续互联网地图的基础。
天文物理、气象、医学等专业领域数据…
大数据向何而去?
服务
如果不能提供服务,大数据就没有意义。
面向人、机、物的服务
物理世界:需要足够的采样数据
机器:需要数据具有关联度,能够从中分析出有用信
息,非结构化半结构化结构化
人:能够直接使用数据的表现形式,进行生产和决策
大数据为什么重要?
2012年3月29日,奥巴马政府宣布投资2亿
美元启动“大数据研究和发展计划”,美国
政府已把“大数据”上升到了国家战略的层
面。
中国政府和业界对“大数据” 高度重视并
在大力推进。据报道,今年两会上已有委员
提出将大数据列入国家发展战略。
20
大数据的特征
容量大容量大1
电子商务
科学计算
网络生活
每月交易21亿笔,产生300TB交
易日志信息
7亿用户、400亿张照片,总容量
超过1500TB
新墨西哥州的天文望远镜每年产
生80TB的图像信息
美国国会图书馆存档信息量:约 80TB
生物信息 第一个中国人的全基因组图谱,
1177亿碱基对
21
大数据的特征
增加快增加快2
许多数据是人造出来的!
例子:北京至纽约的客机有千余个传感器,
一次飞机记录的数据达数百T至P级。
22
大数据的特征
非结构化非结构化3
非结构化=没有找到共性特征
多层结构
大数据的构成
大数据的4V特性
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能Vs传统商务智能
(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
Volume 数据量
PB是大数据层次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.
• 价值密度低,是大数据的一个典型特征.
Variety 多样性
企业内部的经营交易信息,物联网世界中商品,物流信息;
互联网世界中人与人交互信息,位置信息等是大数据的主
要来源。
能够在不同的数据类型中,进行交叉分析的技术,是大数
据的核心技术之一。
语义分析技术,图文转换技术,模式识别技术,地理信息
技术等,都会在大数据分析时获得应用。
Velocity 速度
1s 是临界点。
对于大数据应用而言,必须要在1秒钟内形成答案,
否则处理结果就是过时和无效的。
实时处理的要求,是区别大数据引用和传统数据仓
库技术、BI技术的关键差别之一。
脸谱(Facebook) 数据中心 微软(Microsoft)数据中心
苹果(Apple) 数据中心 谷歌(Google) 数据中心
数据中心—看上去,规模庞大4
大数据管理的基础——数据中心
30
数据中心—走进去,结构复杂4
大数据管理的基础——数据中心
数据库与大数据
GB/TB级
高质量、较干净
强结构化
Top-down
重交易
确定解
数据库
vs
大数据*
传统数据库/数据仓库
PB级以上
有噪声、有冗余
非结构化
Bottom-up
重交互
满意解
大数据
* * 摘自李德毅院士于摘自李德毅院士于20122012年年55月月2323日在云计算大会上的讲话,略有修改日在云计算大会上的讲话,略有修改
“大数据”是数据增长
从量变到质变的里程碑
从人的认知角度来看,在数据量比较小的情况下,我们基于典型的数
据去思考。
例如,我们可以设计一个数据模型来管理目前没遇到但以后可能遇到
的数据,或者设计一个精妙的算法正确高效地处理将来可能遇到的数
据和各种情况。
而大数据则颠覆了这一假定,目前的数据量已足够大,足以包罗万象,
充分利用现有数据得出的全面而简约的数据模型和算法足以应对我们
可能遇到的各种情况。
换言之,数据模型与算法设计的首要任务不再是人基于少量数据的思
考,而是机器基于海量数据的分析归类。
从基于猜测假定的设计到基于事实和经验的归纳总结,是人类认知过
程的进步。
这是一个革命性的进展,是大数据之所以激动人心的根本。
大数据不仅仅是“大”
多大?
PB 级 比大更重要的是
数据的复杂性,
有时甚至大数据
中的小数据如一
条微博就具有颠
覆性的价值
大数据的应用不仅仅是精准营销
通过用户行为分析实现精准营销是大数据的典型应用,但
是大数据在各行各业特别是公共服务领域具有广阔的应用
前景
消费
行业
金融
服务
食品
安全
医疗
卫生
军事
交通
环保
电子
商务
气象
软件是驱动大数据的引擎
和数据中心(Data
Center) 一样,软件是大
数据的驱动力。
软件改变世界!
大数据生态:软件是引擎
前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需
求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。
谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等
信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精
准。广告的价值就越高。
这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。
颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。
互联网越来越智能 Google精确掌握用户行为、获取需求
微博为新浪带来巨大价值 马云的判断来自于数据分析
“2008年初,阿里
巴巴平台上整个买
家询盘数急剧下滑,
欧美对中国采购在
下滑。海关是卖了
货,出去以后再获
得数据;而我们提
前半年时间从询盘
上推断出世界贸易
发生变化了。”
马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多
家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一
个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的
准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。
腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博
产品,提供精准的数据分析服务。
更高一层数据层面整合企业内外部更高数据层面整合
利用用户”行为指纹”创造新商机
用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。
互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,
进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预
判。
这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户
平台级公司的附庸。
大数据应用中的陷阱
邦弗朗尼原理(Bonferroni’s Principle)
邦弗朗尼原理: 在数据随机性假设的基础上,计算
所寻找的事件的发生的期望值,如果该期望值大
于找到的真实事件的数目,则所找到的事件很可
能是一种假象。
即随着数据规模的不断增加,任何数据都会显现
出一些不同寻常的特征,这些特征看上去似乎非
常重要,但实际上却并不重要。
42
整体情报预警的故事
设有一群恐怖分子会偶尔在酒店聚会策划恐
怖阴谋。
想找出那些同一天在同一个酒店至少出现两
次的人群。
43
假设
被监控的人数:10亿(109)
被监控的天数: 1000 days
每个人去酒店的概率 1% (1000天里住10
天酒店)
有 10万(105 ) 家酒店,每家酒店可容纳
100 人
每个人行为都是随机的。
通过数据挖掘能发现可疑行为吗?
44
Calculations – (1)
人员 p 和人员 q 同一天在同一个酒店出
现的概率 :
1/100 1/100 10-5 = 10-9.
人员p 和 q 在d1 和 d2 出现在同一个酒店
的概率:
10-9 10-9 = 10-18.
1000天任意两天的排列组合:
5105.
p at
some
hotel
q at
some
hotel Same
hotel
45
Calculations – (2)
人员 p 和 q 在任意两天出现在同一个酒
店的概率:
5105 10-18 = 510-13.
可能的人数是10亿,任意两个人的排列
组合是:
51017.
平均可疑的人员对的数目:
51017 510-13 = 250,000.
实际上他们是纯随机导致的巧合
46
结论
假设真的有10 对恐怖分子在同一个酒店出
现两次
那么需要扫描250,010 对候选人才能找出这
10对恐怖分子
这个方法好吗?
“大数据”是不能乱用的!
大数据与云数据管理
大数据
云计算
云数据管理
云计算(Cloud Computing),2007年第3季度才诞生的新名
词,仅过了半年多,其受到关注程度就超过网格计算(Grid
Computing),而且关注度至今一直居高不下
云计算是一种商业计算模型。它将计算任务分布
在大量计算机构成的资源池上,使各种应用系统能够
根据需要获取计算力、存储空间和信息服务。
云计算到底是什么? 云
计算有什么特点?
云计算起源和发展
• 1961年斯坦福教授John McCarthy 提出计算资源可
以成为一种重要的新型工业基础。类似水、电、气
和通信。
• 1999年Salesforce成立,2001年发布在线CRM系
统
• 2001年Google CEO Eric Schmidt 在搜索引擎大
会上首次提出”Cloud Computing“概念。
• 2003年Google逐步开始在内部使用云计算,2008
年推出Google AppEngine云计算平台
• 2006年Amazon正式对外推出弹性计算服务(EC2)
• 。。。各大全球知名厂商跟进(IBM,MicroSoft….)
51
什么是云计算?
计 算:对数值或信息进行处理并得到结果的过程,有时也
指计算方式。
1+1=2
云:由网络连接起来的各种计算资源(包括计算设备和其上
的软件)
云计算:运用由网络连接起来的大量虚拟化的计算设备对信
息进行处理并得到结果的一种计算方式。不是一种产品,也
不是一种技术,而是一种产生和获取计算能力的模式。
52
大型机时代
1960年代 1980年代 2000年代 1990年代
微型机时代
个人计算机变革
将只在特定行业中应
用的大型主机变成每个
人都负担得起的个人电
脑,大幅度提高了个人
生产效率和企业效率
互联网变革
将数以亿万计的信息孤
岛汇集成庞大的信息网络,
极大的提高了人类沟通,
共享和协作的效率,丰富
了社交和娱乐生活
互联网时代
云计算变革
将IT基础设施转变为像水和煤
气一样的社会公用基础设施
超级数据中心成为IT资源和服
务的提供者
技术
云计算时代
时间
云计算是继个人计算机、互联网变革之后的第三次IT革命
云计算的由来
云计算定义
云计算(Cloud Computing ):是分布式处理(Distributed Computing)、并行
处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这
些计算机科学概念的商业实现。是指基于互联网的超级计算模式--即把存
储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在
一起,协同工作。在极大规模上可扩展的信息技术能力向外部客户作为
服务来提供的一种计算方式。
使得计算资源如同用水、用电、用燃气一样
40多亿的移动电话一
2010年 [数据来源:
Nokia]
个人电脑
和
笔记本电
脑
企业电脑
和服务器
PDA
54
从不同角度看云计算的内涵
1.云计算是一种IT基础设施交付和使用模式
从原理看,云计算是将计算工作分布在大量的、分布式的计算机上,从而利
用大量计算资源(包括硬件设备、软件及网络等IT基础设施)完成所要求的计
算任务。
云计算环境下,与传统的IT基础设施交付和使用模式的主要区别:
1.基础设施建设运维方式不同:基础设施所有权和运维责任
2.交付和使用的便捷性不同:提供商交付方式和用户使用方式
55
从不同角度看云计算的内涵
2.云计算是一种信息服务的交付和使用模式
从商业层面看,云计算提供的是而且仅是服务——可以统称为“云服务”。
从云计算服务商和云计算用户间的关系看,服务商并未向用户提供硬件、软件等事物
或具体产品,而是运用自己所掌握的IT资源帮助用户完成计算任务,满足用户使用软
硬件设备或获得信息的需要。
基础设施作为服务(IaaS)
平台作为服务(PaaS)
软件作为服务(SaaS)
服务器 网络 存储
中间件
协同合作
业务流程
CRM/ERP/HR
行业应用
数据中心
Fabric
共享的虚拟化的, 动态部属
数据库
Web 应用运行环境 Java
运行环境
开发工具
云计算分类
Computi
ng on
Demand
Blue
Cloud,Pur
eScale
Appliicatio
n System
市场的
例子
IBM
的例子
Source: Hagen Wenzek CHQ Strategy, 2/09
云计算分类
操作系统+应用服务引擎
应用系统
基
础
设
施
应
用
平
台
应
用
软
件
(IaaS) (PaaS) (SaaS)
根据提供的服务类型,将云计算应用(服务)分为三类
Infrastructure as a Service
以服务的形式提供虚拟硬件资源,如虚
拟主机/存储/网络/安全等资源。
用于无需购买服务器、网络设备、存储
设备,只需通过互联网租赁即可搭建自
己的应用系统
典型应用:Amazon Web服务 IDC
Platform as a Service
提供应用服务引擎,如互联网应用编
程接口/运行平台等。
用户基于该应用服务引擎,可以构建
该类应用。
典型应用:Google AppEngine, IBM
PureScale Application System,SAE
Software as a Service
用户通过标准的Web浏览器来使用
Internet上的软件。
用户不必购买软件,只需按需租用软件
典型应用:Lotus Live,
58
从不同角度看云计算的内涵
3.云计算是一种基于互联网的新型计算模式
从数值和信息处理的角度看,云计算是通过互联网将计算任务分布到由大量
计算机构成的资源池上,从而使用户能够根据需要获取计算能力、存储空和
信息服务。
云计算的四方面新特征:
1.资源汇聚:计算资源汇聚在一起通过多租户模式服务多个消费者
2.快速弹性:计算能力能够以某种自动方式快速而弹性地实现供应
3.按需的自助服务:消费者能够根据自己的需要获取计算能力
4.可控可计量:系统根据服务类型提供相应的计量方式
59
云计算服务对象:在各行各业、各种组织、各种产业拓展应用范围
云计算服务内容:从基础架构、在线存储、软件服务扩展到各种应用领域
云计算服务形式:更简单易用、更安全、更智能的差异化服务
从行业视角
• 满足中小企业、政府部门、科研教育、娱乐、
商业企业的信息化需求
• 成为互联网企业的运营平台和资源平台
• 成为人民群众生活的必需品
从产业领域视角
• 成为物联网信息存储、分析的智能化平台
• 成为移动互联网的基础信息支撑平台
• 成为移动电子商务、移动支付的支持平台
• 逐步进入网络通信基础设施领域
已有主要服务内容
• 基础设施即服务/IaaS
• 软件平台即服务/PaaS
• 软件即服务/SaaS
• 存储即服务/DaaS
XaaS
一切皆服务,延伸到各种应用
• 硬件即服务:终端设备成为服务发布形式
• 消息即服务:消息中间件成为服务
• 监控即服务:监控内容成为服务
• 现存各种应用均被云服务化…
• 更为便捷:就像现在水、电、气、通信那样简单,打开即用,关闭即停,按需使用,用完充值
• 隐私和信息安全更有保障:用户信息隔离、网络传输加密、高强度身份认证、服务商数据安全审核
• 更智能化:用户服务状态恢复、信息推荐、精准营销、预测用户潜在信息需求、
• 差异化服务:提供从免费、普通用户、中端用户、高端用户的各种服务,按质论价
云服务
云计算的优势
数据在云端:不怕丢失,不必备份,可以任意点的恢复 ;
软件在云端:不必下载自动升级 ;
无所不在的计算:在任何时间,任意地点,任何设备登录后就
可以进行计算服务;
无限强大的计算:具有无限空间的,无限速度。
硬件为中心 软件为中心 服务为中心
PC C/S 云计算
天下大势,合久必分,分久必合,
计算机技术的分合演义
早期计算技术以“合”为特征:曲高和寡
PC的发展使“分”成为了主流:
旧时王谢堂前燕,飞入寻常百姓家
网络技术的发展使云计算成为了“合”的模式,计算和存
储通过网络隐形于云端:
大象无形
云计算体系结构
云计算的基本原理是通过使计算分布在大量的
分布式计算机上,而非本地计算机或远程服务
器中,企业数据中心的运行将更与互联网相似。
这使得企业能够将资源切换到需要的应用上,
根据需求访问计算机和存储系统。
云计算发展路线
并行计算
集群计算
网格计算
云计算
在动态、多
机构参与的虚
拟组织中协同
共享资源和求
解问题
同时使用
多种计算资
源解决计算
问题的过程
将需要巨大
计算能力的
问题分成许
多小部分进
行处理,最
后综合结果
分布式计算 并行计算 网格计算
云计算
云计算特点
超大规模
虚拟化
高可靠性
通用性
高可伸缩性
按需服务
极其廉价
超大规模
虚拟化
高可靠性
通用性
高可伸缩性
按需服务
极其廉价
云计算技术体系结构
云计算与大数据
大数据虽然不是云计算,但却是云计算的灵魂和升
级方向。
云计算的核心是业务模式,本质是数据处理技术。
数据是资产,云为数据资产提供了保管、访问的场
所和渠道。
如何盘活数据资产,使其为国家治理、企业决策乃
至个人生活服务,是大数据的核心议题,也是云计
算内在的灵魂和必然的升级方向。
云计算与大数据
本质上,云计算与大数据的关系是“静”与“动的
关系;
云计算强调的是计算,这是动的概念;
而数据则是计算的对象,是静的概念。
如果结合实际的应用,前者强调的是计算能力,或
者看重的存储能力;
云计算与大数据
但是这样说,并不意味着两个概念就如此泾渭分明。
一方面,大数据需要处理大数据的能力(数据获取、
清洁、转换、统计等能力),其实就是强大的计算能
力;
另一方面,云计算的“动”也是相对而言,比如基础
设施即服务(IaaS)中的存储设备提供的主要是数据存
储能力,所以可谓是动中有静。
云计算与大数据
如果数据是财富,那么大数据就是宝藏,
而云计算就是挖掘和利用宝藏的利器!
没有强大的计算能力,数据宝藏终究是镜
中花;
没有大数据的积淀,云计算也只能是杀鸡
用的宰牛刀!
大数据比云计算更为落地
商业模式驱动 应用需求驱动
云计算本身也是大数据的一种业务模式
大数据与云数据管理
大数据
云计算
云数据管理
什么是云数据管理?
云数据管理是指通过集群应用、网格技术或分布
式文件系统等,将网络中大量各种不同类型的存
储设备通过应用软件集合起来协同工作,共同对
外提供数据存储和业务访问功能的一个系统。
云数据管理的基础是云存储,其核心是以No
SQL(New SQL)为代表的新一代云数据存储(库)
系统。
云数据管理的背景
随着云计算中大数据集高效管理、海量数据中特
定数据的快速定位、云端海量数据精准查询等迫
切需求的日益显现,Web数据管理正逐步向云数据
管理阶段发展,一个新的云数据管理研究领域正
逐渐形成。
云数据管理的背景
云数据管理在云计算概念上延伸和发展出来的一
个新的概念。
云数据管理使更大数据量的处理成为可能,被称
为下一代的因特网计算和下一代的数据中心。
Web应用作为推动云计算发展的主力,正快速的
普及成熟起来,它需要能够按需进行扩展,企业
都希望他们的Web应用系统能够应对不断增长的
用户量和数据量,以及适应用户和其它开发人员
对WEB应用系统的高吞吐量和低响应时间的要求。
云数据管理的背景
通过云计算技术,网络服务提供者可以在数秒之内,
处理数以千万计甚至亿计的信息,达到和“超级计
算机”同样强大的网络服务。
系统必须以低延迟的响应速度(几十毫秒)、高吞吐
量(每秒上万的读写)为世界范围内的用户请求提供
服务。
并且,应用必须具备高可用性,长期维持最小的运
维成本。
但是,如果WEB应用系统仍然依赖传统的关系
(SQL)数据库系统,我们会发现数据存储将成为最
大的瓶颈。
云数据管理的背景
幸运的是我们已不再需要提供完整的事务(ACID)
支持,单独的系统也可以执行复杂的分析任务,
比如像Hadoop这样的map-reduce平台。
对于许多应用程序来说,它们处理的请求相比传
统数据管理更为简单。
数据可能是用户的会话数据,用户在网页上所有
的行为只涉及单条记录的读写。
应用也有可能是社交化的,对于社交活动可能会
被写入单条的用户记录,而用户的朋友们的活动
需要从少量的其他用户记录中读取。
云数据管理的背景
这些挑战推动了新一代数据存储管理系统的发展,
该系统基于大型(可能包括成千上万台机器的集群
)分布式架构。
为了容错,所有数据会在数据中心内被复制。
甚至有些数据为了保证低延迟读取,需要横跨多
个数据中心进行地域性复制。
为了满足构建多租户(multi-tenanted)模式的需要,
大型分布式架构能够根据自身需求扩大容量,并
且多个应用的托管系统可以共享底层的资源。
传统关系型数据库的限制
扩展困难:由于存在类似Join这样多表查询机制,使
得数据库在扩展方面很艰难;
读写速度慢:这种情况主要发生在数据量达到一定
规模时由于关系型数据库的内部逻辑非常复杂,使
得其很容易发生死锁等的并发问题,而这将导致其
读写速度严重下滑;
成本高:企业级数据库的License价格很惊人,并且
随着系统的规模扩大,而不断上升;
有限的支撑容量:现有关系型解决方案还无法支撑
Google这样海量的数据存储;
云数据管理的需求
低延迟的读写速度:应用快速地反应能极大地提升
用户满意度;
支撑海量的数据和流量:对于搜索这样大型应用,
需要利用PB级别的数据和能应对百万级的流量;
大规模集群的管理:系统管理员希望分布式应用能
更简单的部署和管理;
庞大运营成本的考量:IT经理和CFO们都希望在硬
件成本、软件成本和人力成本上面能够有大幅度地
降低;
云数据管理准则(1)
切分万物以治之
Partition Everything and key-value storage
数据库的第一范式无法满足
云数据管理准则(2)
容不同乃成大同
Embrace Inconsistency
数据库的ACID属性无法满足
云数据管理准则(3)
狡兔三窟方高枕
Backup everything with three copies
每个数据都有三个备份,达到 %的可
用性
云数据管理准则(4)
运筹沧海量兼容
Scalable and high performance
提供一个可伸缩的,处理和分析海量数据的
平台
拨云见日
切分万物以治之
容不同乃成大同
狡兔三窟方高枕
运筹沧海量兼容
86
•大数据的使用模式
•基于服务计算的模式
•具体的实现途径:
•基于云计算的方式
•因为大(数据规模),需要大容量的存储(云存储)
•因为复杂(数据结构),需要高性能的计算能力(云计算)
•因为有关联(数据关联度),需要跨平台的协同能力(应
该是今后云应用的拓展方向之一,在协同粒度、隐私保护、
安全等方面更有保证)(云协同)
大数据与云计算的结合
87
大数据发展之我见
物联网越普及,云计算越落地,大数据就
越有用。
人无远虑,必有近忧,如何超前思考科学
问题
技术的本质特点与应用需求的无缝对接,
才能产生真正的生产力
后大数据阶段应该是什么呢?
大家可以一起思考…