1 1
数据集成为Hadoop保驾护航
久经验证的降低数据管理成本
的创新之路
2
Informatica Corporation Confidential – Do Not Distribute
2
“到2015年,那些将高价值、多样和最新的信息类型及来源集成到统一连贯的
信息管理基础设施的组织,其财务表现将较业内同行优越20%以上。”,
Neil Chandler, Gartner
“当前部署的85%数据仓库项目,都不能适当扩展规模以满足
新的信息数量和复杂性要求”,“
Mark Beyer, Gartner
3
Informatica Corporation Confidential – Do Not Distribute
3
大
v
实施久经验证
的创新之路
随着数据呈指数级增长,
降低大数据成本
4
Informatica Corporation Confidential – Do Not Distribute
4
您如何权衡创新&成本?
5
Informatica Corporation Confidential – Do Not Distribute
5
您打算如何利用大数据来开发创新产品和服务?
欺诈侦查,
风险 & 投资组合分析
投资推荐
互联车辆 预测维护维修
基于位置的服务
实时数据审计
医疗保险交易
合规性
国家安全
治疗效果预测
患者监护
个性化医疗
合规性
主动客户沟通交流 药物识别
基因测序
合规性
忠诚度计划
游戏遥测
6
Informatica Corporation Confidential – Do Not Distribute
6
源数据 分析系统
社交媒体和网络日志
科学机器设备
文档和电子邮件
批量 ETL
交易,
OLTP, OLAP
企业数据仓库
原始数据或不经常使用的数据
耗费能力
批量窗口已到极限,
SLA处于危险之中
数据库和数据仓库迅速
力不从心
数据量持续增长,您如何降低 & 控制成本?
数据集市
ODS
7
Informatica Corporation Confidential – Do Not Distribute
7
企业数据仓库 交易,
OLTP, OLAP
网格计算
传统
• 将原始数据临时存储在低成本的商用硬件上
• 将 ETL/ELT 处理转移到低成本的商用硬件上
降低数据管理成本
8
Informatica Corporation Confidential – Do Not Distribute
8
企业数据仓库
交易,
OLTP, OLAP
实时数据集成
传统
• 借助实时数据集成,平滑实现ETL处理
• 借助高速数据复制,从源系统中卸载处理
降低数据管理成本
高速数据复制
大型机 ODS
9
Informatica Corporation Confidential – Do Not Distribute
9
• 借助通用的IDE,将生产效率提升两倍。开发人员通
过一次开发,即可实现随地部署。
降低数据管理成本
企业数据仓库
图形开发工具 ODS
C
o
m
m
o
n
I
D
E
(B
u
il
d
o
n
c
e
,
d
e
p
lo
y
a
n
y
w
h
e
re
+
R
a
p
id
p
ro
to
ty
p
in
g
)
Traditional Grid
在低成本商用硬件上执行
在本地或云中部署
下推至RDBMS
主数据
管理
10
Informatica Corporation Confidential – Do Not Distribute
10
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
企业数据仓库
BI 报告 / 报表
数据虚拟化
ODS 主数据管理
• 消除数据副本,通过数据虚拟化提升数据仓库能力
降低数据管理成本
11
Informatica Corporation Confidential – Do Not Distribute
11
活跃数据
性能
时间
数
据
库
规
模
企业数据仓库
低成本
存储
归档
交易,
OLTP, OLAP
低成本
存储
归档
• 识别休眠数据
• 将不活跃数据归档至低成本存储
降低数据管理成本
不活跃数据
12
Informatica Corporation Confidential – Do Not Distribute
12
您如何实现大数据的最大回报?
大交易数据 大交互数据
在线交易处理(OLTP)
Oracle
DB2
Ingres
Informix
Sysbase
SQL Server
…
云
Concur
Google App Engine
Amazon
…
其他交互数据
图像/文本
科学
基因/制药
医疗
医疗/设备
传感器/仪表
RFID 标记
CDR/移动设备
…
社交媒体&网页数据
Facebook
Twitter
Linkedin
Youtube
…
大数据处理
在线分析处理(OLAP) &
数据仓库设备
Teradata
Redbrick
EssBase
Sybase IQ
Netezza
Exadata
HANA
Greenplum
DataAllegro
Asterdata
Vertica
Paraccel …
大数据集成
网页应用
博客
论坛
社区
合作伙伴门户
…
容量
种类
速度
13
Informatica Corporation Confidential – Do Not Distribute
13
… 以及将大数据项目风险降至最低
Informatica, 数据集成领域的绝对领导者
欺诈侦查
风险&投资组合分析
投资推荐
基于位置的服务
医疗费用
医疗保险交易
合规性
国家安全
互联车辆
预测维护维修
治疗效果预测
主动客户沟通交流
药物识别
基因测序
忠诚度计划
14
Informatica Corporation Confidential – Do Not Distribute
14
实施久经验证的创新之路
通过快速原型法和合作获得更快的洞察力
数据科学团队
协同合作发现洞察力
欺诈侦查 下一个最佳购物建议 流失的可能性
解析
分阶段
集成
通用化
屏蔽
标准化
清洗
NLP,
提取
匹配
15
Informatica Corporation Confidential – Do Not Distribute
15
PowerCenter 大数据版
降低大数据项目成本
交易
OLTP, OLAP
社交媒体和网络日志
科学机器设备
文档和电子邮件
企业数据仓库
ODS
主数据
管理
传统网格
将处理卸载至低成本的
商用硬件
快速上载新的数据类型
16
Informatica Corporation Confidential – Do Not Distribute
16
设计一次
随地部署
分析师 &
数据科学家
开发人员
传统网格
PowerCenter 大数据版
提高生产率,降低风险
生产率提高近3倍
17
Informatica Corporation Confidential – Do Not Distribute
17
PowerCenter 大数据版
大数据之旅安全畅通
大交易数据 大交互数据
在线交易处理(OLTP)
Oracle
DB2
Ingres
Informix
Sysbase
SQL Server
…
云
Concur
Google App Engine
Amazon
…
社交媒体和网页数据
Facebook
Twitter
Linkedin
Youtube
…
大数据处理
在线分析处理(OLAP) &
数据仓库程序
Teradata
Redbrick
EssBase
Sybase IQ
Netezza
Exadata
HANA
Greenplum
DataAllegro
Asterdata
Vertica
Paraccel …
网页应用程序
博客
论坛
社区
合作伙伴门户
通用数据访问
高速数据存入和提取
ETL on Hadoop
Hadoop平台数据剖析
Hadoop平台
复杂数据分析
虚拟数据机
(设计一次,随地部署)
无代码生产力
Business-IT 合作
统一管理
其他交互数据
图像/文本
科学
基因/制药
医疗
医疗/设备
传感器/仪表
RFID 标记
CDR/移动设备
… Hadoop平台实体提取和
数据分类
18
Informatica Corporation Confidential – Do Not Distribute
18
HADOOP核心:MAPREDUCE
分布式计算框架
1
2
3
4
5
2
4
5
MR
1
2
5
1
3
4
2
3
5
1
3
4
在多个节点并行处理大量工作,并整合结果。
来源:Cloudera
19
Informatica Corporation Confidential – Do Not Distribute
19
交易,
OLTP, OLAP
社交媒体
网络日志
文档和电子邮件
科学机器设备
最大化大数据投资回报
Hadoop 补充现有基础设施
数据仓库
主数据管理
运营系统 分析系统 数据资产 数据产品
数据集
市
ODS
OLTP
OLTP
访问 &
存入
解析 &
准备
识别 &
剖析
转化&
清洗
提取 &
交付
管理 (例如安全、性能、治理 和协作)
& 其他 NoSQL
20
Informatica Corporation Confidential – Do Not Distribute
20
3. 在 Hadoop 中解析和准备数据
(MapReduce)
1. 将数据存入 Hadoop
4. 在 Hadoop 中转换和清洗/标准化数
据 (MapReduce)
监
控
和
管
理
(
H
a
d
o
o
p
或
非
H
a
d
o
o
p
作
业
/流
程
)
编
排
工
作
流
(
H
a
d
o
o
p
或
非
H
a
d
o
o
p
作
业
/流
程
)
6. 从 Hadoop 提取数据
2. 发现 Hadoop 数据的异常、关系和
域类型
5. 在 Hadoop 上调用自定义业务分析
配
置
文
件
数
据
销售和市场营销
数据集市
客户服务门户
账户交易
2012年12月
立即可用 通过Informatica
释放Hadoop的强大功能
Informatica 公司机密 – 未经许可,不得发布。
提供产品和服务 客户配置文件 社交媒体 客户服务日志和调查 营销活动
21
Informatica Corporation Confidential – Do Not Distribute
21
数据仓库
主数据
管理
应用程序
交易,
OLTP, OLAP
社交媒体
网络日志
文档和电子邮件
行业标准
科学机器设备
数据存入和抽取
每小时移动数十TB的交易数据、交互数据
和流数据
Replicate
Streaming
Batch Load
Extract
Archive Extract
低成本
存储
22
Informatica Corporation Confidential – Do Not Distribute
22
CUSTOMER_ID example
国家代码示例
3. 追溯分析(Hadoop 数据)
2. 值和
模式
分析
Hadoop 数据
1. 剖析统计数据:
最小值/最大值,空值
推导的数据类型等
邮政编码示例
追溯实际数据值来检验整个数
据集中的结果,包括可能的
重复
值和模式频率与不一致的/
脏数据或意外模式隔离 Hadoop 数据剖析结果 ——通
过浏览器 接触企业中的任何人
员
标识数据中的异常和反常
现象的统计数据
Hadoop 数据剖析结果
Informatica 公司机密 – 未经许可,不得发布。
23
Informatica Corporation Confidential – Do Not Distribute
23
24
Informatica Corporation Confidential – Do Not Distribute
24
SELECT
AS ORDERKEY2, _count, _CUSTKEY AS CUSTKEY, _NAME,
_NATIONKEY, _NAME, _REGIONKEY
FROM
(
SELECT TRANSFORM () USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (_ORDERKEY = _ORDERKEY)
JOIN customer ON (_CUSTKEY = _CUSTKEY)
JOIN nation ON (_NATIONKEY = _NATIONKEY)
WHERE _NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(ORDERKEY2) GROUP BY
CUSTKEY;
Informatica Hadoop 路线图
Hadoop MapReduce 处理
Hive HQL
Informatica 开发人员
1. Informatica 映射转换成优化的 Hive
HQL和用户自定义功能
2. 优化的 HQL 转换为 MapReduce
3. 在 Hadoop 上执行 MapReduce 用
户自定义功能
Data Node
Data Node Data Node
数据节点
UDF MapReduce
Informatica
数据转换引擎
Entire mapping logic (all transformations) can be executed on Hadoop
Informatica 公司机密 – 未经许可,不得发布。
25
Informatica Corporation Confidential – Do Not Distribute
25
4. The DT engine can immediately use this
service to process data.
The DT Engine is fully embeddable and
can be invoked using any of the supported
APIs.
Java, C++, C, .NET, web services
For simple integration, a command line
interface is available to invoke services.
Internal custom applications can embed
transformation services using the various
APIs.
PowerCenter leverages DT via the
Unstructured Data Transformation (UDT).
This is a GUI transformation widget in
Powercenter which wraps around the DT
API and engine.
DT can also be embedded in other middleware
technologies.
For some (WBIMB, WebMethods, BizTalk) INFA
provides similar GUI widgets (agents) for the
respective design environments.
For others the API layer can be used directly.
DT can be invoked in two general ways:
1. Filenames can be passed to it, and DT will
directly open the file(s) for processing.
On the output side, DT can also directly
write to the filesystem.
2. The calling application can buffer the data and send
buffers to DT for processing.
On the output side, DT can also write back to memory
buffers which are returned to the calling application.
Though not shown below, the engine fully supports multiple input
and output files or buffers as needed by the transformation.
Engine invocation is a shared library. The DT engine runs
fully within the process of the calling application.
It is not an external engine. This removes any overhead
from passing data between processes, across the network,
etc. The engine is also dynamically invoked and does not
need to be „started up‟ or maintained externally.
The DT engine is also thread-safe and re-entrant.
This allows the calling application to invoke DT in multiple
threads to increase throughput.
A good example is DT‟s support of PowerCenter partitioning
to scale up processing.
As shown below, the actual transformation logic is
completely independent of any calling application.
This means you can develop a transformation once, and
leverage it in multiple environments simultaneously resulting
in reduced development and maintenance times and lower
impact of change.
1. Developer uses Studio to develop a
transformation
2. Developer deploys transformation
to local service repository (directory).
All files needed for the transformation
are moved.
3. To deploy to the server, this service
folder is moved to the server via FTP,
copy, script, etc.
NOTE: If the server file system is mountable from
the developer machine directly, then step 2
would deploy directly to the server.
Informatica HParser
处理各种各样的大数据
S
Svc Repository
S
平面文件和文档 交互数据 行业标准 XML
最广范围的大数据
^/>限定<\^
定位
名称 = 价值
社交
科学设备/传感器
生产力
• 直观解析环
境
• 预定义转换
任何 DI/BI 体系架构
PIG EDW
MDM
26
Informatica Corporation Confidential – Do Not Distribute
26
hadoop …
… My_Parser /input/*/input*.txt
1. 在 HParser 可视化工作室中定义
解析器
2. 在 Hadoop 分布式文件系统
(HDFS) 上部署解析器
3. 运行 HParser 提取数据,并在
Hadoop 产生表格格式
在Hadoop上解析和准备数据
工作原理如何?
27
Informatica Corporation Confidential – Do Not Distribute
27
混合工作流编排
在Hadoop和本地环境中运行任务工作流同一
Cmd_选择上传路径
MT_上传至Hadoop
+ 解析
Cmd_上传至
Hadoop
MT_解析
Cmd_剖析数据 MT_清洗
MT_数据分析 通知
名称 类型 默认值 描述
$ Integer 2 Load path for workflow, depending on output of cmd task
$ String HiveSourceConnection Source connection object
$ Integer 100 Output from “profiling” commnad task.
增加
修改
删除
变量列表:
Informatica 公司机密 – 未经许可,不得发布。
28
Informatica Corporation Confidential – Do Not Distribute
28
单个 M/R 作
业的可跟踪性。
作业跟踪器链
接 URL
查看 Hive 查
询详情
作业跟踪器状态摘要
监控 – Hive 查询追溯 M/R
Informatica 公司机密 – 未经许可,不得发布。
29
Informatica Corporation Confidential – Do Not Distribute
29
监控 – Hive 查询计划详情
开发人员工具中同样可
用的 hive 查询
Informatica 公司机密 – 未经许可,不得发布。
30
Informatica Corporation Confidential – Do Not Distribute
30
数据沿袭和业务术语表
元数据管理路线图
Informatica 公司机密 – 未经许可,不得发布。
31
Informatica Corporation Confidential – Do Not Distribute
31
先进技术转化为常规IT部署
• 重复性
• 可预测、可重复的部署和方法
• 与快速的 Hadoop 变化隔离
• 经常推出新版本和项目
• 避免对错误的技术下注
• 现有资产的重复使用
• 应用现有集成逻辑向 Hadoop 加载数据
• 重新使用现有数据质量规则验证 Hadoop 数据
• 现有技能的重复使用
• 使 ETL 开发人员能够利用 Hadoop 的功能
• 治理
• 执行并验证数据安全性、数据质量和法规遵从政策
• 可管理
Informatica 公司机密 – 未经许可,不得发布。
32
Informatica Corporation Confidential – Do Not Distribute
32
网络日志
传统网格
近乎实时
挑战:随着数据量和处理负荷的迅速增长,对更快的数据驱动型决策的需求不断增加
解决方案 结果
• 经济高效地拓展性能
• 降低硬件成本
• 通过在统一数据集成平
台上的标准化,增加了
灵活度
RDBMS
RDBMS
RDBMS
数据集市
数据集市
数据仓库
阶段 2
扩展ETL 并控制成本
为大数据分析奠定基础
大型国际金融机构
33
Informatica Corporation Confidential – Do Not Distribute
33
挑战:为“互联车辆”计划,在年底前实现实时收集汽车数据
解决方案 结果
• 助力实现互联车辆的目标:
• 嵌入移动技术提升客户体验
• 预测维修维护和提高燃料效
率
• 电话道路救援和自动调度服
务
• 持续收集所有车辆的所有信息
• 所有车辆在年底时,都将把数据传送到中央Teradata数据仓库
• 利用PowerCenter, CDC和CEP 实现实时数据集成
互联车辆项目
开发创新产品和服务
业务报告
企业数
据仓库
复杂事件处理
(CEP)
Power Center
大型国际汽车制造商
34
Informatica Corporation Confidential – Do Not Distribute
34
PowerCenter 大数据版
加速创新产品和服务的上市速度
降低大数据项目成本
将 Hadoop扩展至整个企业
将采用新技术的风险降至最低