商业智能
商业智能概述
数据仓库
联机分析处理
数据挖掘
Information Technology in Business
Collaborative processing systems
Operational & e-business systems
Decision processing systems
Run and manage business operations
Analyze & model business operations
Support business operations
Two Information Technologies Have Profound Impact on Business Today
World Wide Web or Internet
Enable e-business
Enable rapidly share business intelligence company-wide
Business Intelligence
Enable decision makers to access, analyze and share information
如果数据是金钱,商业智能可以...
Existing Data Assets
产品或服务分析
降低成本
分析利润
发现销售机会
目标市场/动态区隔
P = R - C
什么是商业智能?
商业智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。
商业智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。
Data
Information
Knowledge
Business and Technology
From the business perspective
Business Intelligence refers to the type of information, extracted from business data, about sales trends, customer buying habits and other key performance metrics of an organization, that line-of-business managers can use to make business decisions.
From the technology perspective
Business Intelligence covers a wide range of technologies, methodologies and products that companies use to generate business intelligence information.
Core Technologies in Business Intelligence
Data warehousing
Integrated corporate data source for decision support
OLAP and DSS
Information query, analysis and reporting
Data Mining
Knowledge discovery from business data
Customer Relationship Management(CRM)
Top Ten Motives for Business Intelligence
Decision/Management Processes
Customer Services
Ahead of Competition
Corporate Strategy
Costs of Operations
Customer Retention
New Customers/Markets
Business Unit Strategy
Keep up with Competition
ROI/Marketing Investments
商业智能在行业的应用
银行
客户利润分析
分支行利润分析
交叉销售
信用风险管理
新产品推销
收费策略
保险
欺诈管理
收费策略
目标市场活动
客户挽留
客户利润分析
零售
地区/商店各种货物(品牌,分类等)销售业绩
定价和减价
市场篮子关系
市场需求预测
仓储规划
通讯
客户忠实
客户流失模式
客户利润分析
竞争分析
欺诈管理
商业智能方案
Administration
Data Warehouse Center
Transformation Tools
Warehouse Manager
Replication Family
ETI
Vality
Warehouse/Mart
DB2 Family
DB2 Olap
Server
Analysis
Intelligent Miner
Intelligent Decision Server
DB2 OLAP Server
Metadata
Templates
Access Tools
Data Warehouse Center
Data Joiner
ETI
Clients
Browsers
Notes
Approach
Partners
Metadata
Information Catalog
E-Business and Business Intelligence
E-business processing
E-business data
E-business applications
Collaborative processing
Office systems
Documents Web page e-mails, etc
Transaction, Web log, Click-streams
Operational processing
Operational data
Back-office systems
Front-office systems
Decision processing
Data warehouse
BI tools & data mining
ETL tools
External data
Report & analysis
Customer Relationship Management
Customers
Sales
Services
Marketing
Target right online customers
Personalized one-to-one marketing
Convert site visitors to customers
Up selling
Cross selling
Customer loyalty
Churn reduction
CRM = CRM system + best business practice
BI for CRM Solutions
(Pilot Software)
Data Mining in CRM
Web visits
Online shopping
Web server
Customer Database
Data Mining
Marketing Campaign Model
Call Center
Outbound Emails
End Customer
End Customer
Example: Online Marketing Automation
数据挖掘
选择
转换
挖掘
理解
转换后数据
抽取的信息
可理解的信息
选择的数据
数据仓库
商业智能概述
数据仓库
联机分析处理
数据挖掘
数据仓库
数据仓库的最终目标是把企业范围内的所有数据集成在一个大仓库中,让用户能运行查询、产生报告、执行分析
“数据仓库之父”Bill Inmon给的定义:
数据仓库就是一个用以更好地支持企业或组织的决策分析处理的,面向主题的,集成的,不可更新的,随时间不断变化的数据集合
数据仓库的特征
面向主题的:主题是一个在较高层次将数据归类的标准,每个主题基本对应一个宏观的分析领域
集成的:允许数据来自于跨组织和部门等不同数据源;集成的数据必须是一致的、用户看来是统一的数据视图
不可更新的:指一旦某个数据进入数据仓库后,一般情况下将被长期保留(反映历史数据内容)
随时间不断变化:库中的信息系统地记录了企业从过去某一点到目前的各阶段的信息
数据仓库与数据库比较
不同点:
—依据决策要求,只从数据库中抽取需要的数据,
并进行一定的处理
—数据仓库是多维的,即数据仓库的数据的组织
方式有多层的行和列
—支持决策处理(OLAP),不同于普通的事务处
理(OLTP)
需要的数据库知识
—并行数据库技术:数据量很大
—高性能的数据库服务器:分析型的应用
—数据库互操作技术:数据来源多种多样
Business Perspective of Data Warehouse
A data warehouse supports business analysis and decision making by creating an integrated database of consistent, subject-oriented, historical information.
A data warehouse provides business with
Ability to perform complete analyses of business processes, enabling organizations to make decisions based on an understanding of the entire business picture rather than estimates based on incomplete data
Ability to rationalize and automate the process of building the enterprise-wide decision support system
Benefits to strategic decision making which can yield long term impact
Ability to simultaneously understand and manage both the macro and micro perspectives of the organization
Why Data Warehousing needed?
Lack of historical business data
Data required for analysis often resides in different operational systems
Query performance is extremely poor when the analysis is done in the operational systems.
Operational DBMS were not designed for decision support
Common Business Applications on Data Warehouse
Risk management
Financial analysis
Marketing programs
Product profit trends
Procurement analysis
Customer database integration
Asset management
Inventory analysis
Customer relationship management
Statistical analysis
Claim analysis
Data mining
Technology Perspective of Data Warehousing
Business and Data Modeling
ER, OO, Multidimensional Data Modeling
Middleware technology
Client/Server
Internet
High performance parallel computing
Parallel and distributed DBMS
Application Software
Query and reporting tools, ., OLAP, MOLAP, ROLAP
Data mining tools
Special application tools such as marketing campaign management
Data Warehouse Functions
Access
Operational and external data
Transform
Cleanse, Reconcile, Enhance, Summarize, Aggregate
Distribute
Stage, Join multiple sources, Populate on demand
Store
Relational data, Specialized caches, Multiple platforms & hardware
Find
Information catalog, Business views, Models
Display & Analyze
Query and reporting, Multi-dimensional analysis, Data mining
Data in Data Warehouse
Current data
Most recent business transactions
Voluminous
Stored on hard disk for fast access
Historical data
Infrequent access
Large volume
Stored on other mediums such as tapes
Summarized data
Metadata
数据仓库的体系结构
操作型数据源
1
报告查询、应用开发和
EIS
工具
操作型数据源
2
OLAP
工具
n
数据挖掘工具
仓库管理器
元数据
高度综合数据
轻度综合数据
细节数据
集
成
管
理
器
查
询
管
理
器
操作型数据源n
基本概念—Data Mart, ODS
Data Mart
数据集市 -- 小型的,面向部门或工作组级数据仓库。
Operation Data Store
操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。
基本概念—ETL, 元数据,粒度,分割
ETL
ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc.
元数据
关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
粒度
数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。
分割
数据分散到各自的物理单元中去,它们能独立地处理。
体系结构
Source
Databases
Data Extraction,
Transformation, load
Warehouse
Admin.
Tools
Extract,
Transform
and Load
Data
Modeling
Tool
Central
Metadata
Architected
Data Marts
Data Access
and Analysis
End-User
DW Tools
Central Data
Warehouse
Central
Data
Warehouse
Mid-
Tier
Mid-
Tier
Data
Mart
Data
Mart
Local
Metadata
Local
Metadata
Local
Metadata
Metadata
Exchange
MDB
Data
Cleansing
Tool
Relational
Appl. Package
Legacy
External
RDBMS
RDBMS
带ODS的体系结构
Source
Databases
Hub - Data Extraction,
Transformation, load
Warehouse
Admin.
Tools
Extract,
Transform
and Load
Data
Modeling
Tool
Central
Metadata
Architected
Data Marts
Data Access
and Analysis
Central Data Ware-
house and ODS
Central
Data
Warehouse
Mid-
Tier
RDBMS
Data
Mart
Mid-
Tier
RDBMS
Data
Mart
Local
Metadata
Local
Metadata
Local
Metadata
Metadata
Exchange
ODS
OLTP Tools
Data
Cleansing
Tool
Relational
Appl. Package
Legacy
External
MDB
End-User
DW Tools
现实环境—异质性[Douglas Hackney ,2001]
Custom
Marketing
Data
Warehouse
Packaged
Oracle
Financial
Data
Warehouse
Packaged
I2 Supply Chain
Non- Architected
Data Mart
Subset
Data Marts
Oracle Financials
i2 Supply Chain
Siebel CRM
3rd Party
e-Commerce
联合型数据仓库/数据集市体系结构
Real Time
ODS
Federated
Financial
Data
Warehouse
Subset
Data Marts
Common
Staging
Area
Oracle Financials
i2 Supply Chain
Siebel CRM
3rd Party
Federated
Packaged
I2 Supply
Chain
Data Marts
Analytical
Applications
e-Commerce
Real Time
Data Mining
and Analytics
Real Time
Segmentation,
Classification,
Qualification,
Offerings, etc.
Federated
Marketing
Data
Warehouse
数据仓库的焦点问题-数据的获得、存储和使用
Relational
Package
Legacy
External
source
Data
Clean
Tool
Data
Staging
Enterprise
Data
Warehouse
Datamart
Datamart
RDBMS
ROLAP
RDBMS
End-User
Tool
End-User
Tool
MDB
End-User
Tool
End-User
Tool
数据仓库和集市的加载能力至关重要
数据仓库和集市的查询输出能力至关重要
ETL工具
去掉操作型数据库中的不需要的数据
统一转换数据的名称和定义
计算汇总数据和派生数据
估计遗失数据的缺省值
调节源数据的定义变化
ETL工具体系结构
元数据库及元数据管理
元数据分类:技术元数据、商业元数据、数据仓库操作型信息。-[Alex Berson etc, 1999]
技术元数据
包括为数据仓库设计人员和管理员使用的数据仓库数据信
息,用于执行数据仓库开发和管理任务。包括:
数据源信息
转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)
目标数据的仓库对象和数据结构定义
数据清洗和数据增加的规则
数据映射操作
访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等
元数据库及元数据管理
商业元数据
给用户易于理解的信息,包括:
主题区和信息对象类型,包括查询、报表、图像、音频、视频等
Internet主页
支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等
数据仓库操作型信息
例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法
元数据库及元数据管理
元数据库(metadata repository)和工具 — [Martin Stardt,2000]
自上而下的设计方法
Build Enterprise data warehouse
Common central data model
Data re-engineering performed once
Minimize redundancy and inconsistency
Detailed and history data; global data discovery
Build datamarts from the Enterprise Data Warehouse (EDW)
Subset of EDW relevant to department
Mostly summarized data
Direct dependency on EDW data availability
Local Data Mart
External Data
Local Data Mart
Operational Data
Enterprise Warehouse
自底而上设计方法
创建部门的数据集市
范围局限于一个主题区域
快速的 ROI -- 局部的商业需求得到满足
本部门自治 -- 设计上具有灵活性
对其他部门数据集市是一个好的指导
容易复制到其他部门
需要为每个部门做数据重建
有一定级别的冗余和不一致性
一个切实可行的方法
扩大到企业数据仓库
创建EDB作为一个长期的目标
局部数据集市
外部数据
操作型数据 (全部)
操作型数据
(局部)
操作型数据
(局部)
局部数据集市
企业数据仓库
EDB
数据仓库建模 — 星型模式
Example of Star Schema
Date
Month
Year
Date
CustId
CustName
CustCity
CustCountry
Cust
Sales Fact Table
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_sales
Measurements
ProductNo
ProdName
ProdDesc
Category
QOH
Product
StoreID
City
State
Country
Region
Store
数据仓库建模 — 雪片模式
Date
Month
Date
CustId
CustName
CustCity
CustCountry
Cust
Sales Fact Table
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_sales
Measurements
ProductNo
ProdName
ProdDesc
Category
QOH
Product
Month
Year
Month
Year
Year
City
State
City
Country
Region
Country
State
Country
State
StoreID
City
Store
Example of Snowflake Schema
操作型(OLTP)数据源 --- 销售库
星形模式
时间维
事实表
多维模型
事实
度量
(Metrics)
时间维
时间维的属性
DSS Architecture
ETL
METADATA
METADATA
Data Warehouse
DSS Engine
Reports
OLTP
联机事物处理OLTP系统和数据仓库的比较
典型的数据仓库解决方案
IBM数据仓库解决方案
ORACLE数据仓库解决方案
SAS数据仓库解决方案
…...
IBM数据仓库解决方案
建立数据仓库包括以下阶段:
数据抽取阶段:完成对各种数据源的访问
数据转换阶段:完成对数据的清洗、汇总、整合
数据分布阶段:完成对结果数据存储的分配
通常此三阶段紧密结合在一个产品中体现
数据仓库的存储:由DB2家族完成
数据的呈现:由不同产品完成不同的分析要求
管理和维护数据仓库中的数据:
交给Visual Warehouse
IBM数据仓库解决方案
IBM数据仓库解决方案
前三个阶段(抽取、转换、分布):Visual Warehouse、Data Joiner、
Date Propagator
数据仓库的存储由DB2家族产品来完成
IBM数据仓库解决方案
数据的呈现:
Approach可进行查询和统计分析
IntelligentDecisionServer支持多维分析
IntelligentMiner用于数据挖掘
用户查找和理解数据仓库中的数据:DataGuide
ORACLE数据仓库解决方案
ORACLE
数据仓库解决方案是
OracleOLAP
产品。其示意图如下:
OLAP
应用程序
OLAP
工具
OLAP Server
数据源
Oracle
Sales
Analyzer
Oracle
Financial
Analyzer
Oracle
Financial
Controller
第三方
前端工
具
Oracle
Express
Objects
Oracle
Express
Analyzer
Oracle
Express Web
Agent
Oracle
Discoverer
Oracle Express Server
其他传统的和外
部数据库
关系型数据库
管理系统
ORACLE数据仓库解决方案
Oracle Express Server是一个先进的计算引擎和数据高速缓存
Oracle 的OLAP工具主要包括Oracle Express Objects、Oracle Express Analyzer和Oracle Discoverer
ORACLE数据仓库解决方案
Oracle Express Web Agent将Oracle Express技术的分析能力和Web浏览器的简单性相结合
Oracle Financial Analyzer,Oracle Financial Controller和Oracle Sales Analyzer是Oracle针对财务和销售而预制的OLAP应用
商业智能概述
数据仓库
联机分析处理
数据挖掘
联机分析处理(OLAP)
60年代,关系数据库之父提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出了多维数据库和多维分析的概念,即OLAP。
OLTP和OLAP的区别
OLTP数据 OLAP数据
原始数据 导出数据
细节性数据 综合性和提炼性数据
当前值数据 历史数据
可更新 不可更新,但周期性刷新
一次处理的数据量小 一次处理的数据量大
面向应用,事务驱动 面向分析,分析驱动
面向操作人员,支持日 面向决策人员,支持管理需要
常操作
什么是OLAP?
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)
OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
相关基本概念
1.维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
2.维的层次:人们观察数据的某个特定角度(即某个维) 可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
3.维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)
4.多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)
5.数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)
OLAP特性
(1)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。
(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
(3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持…
(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
多维视图
地
北京
理
多维数据视图
位
上海
99
置
98
年
广州
97
份
彩电
洗衣机
电冰箱
产
品
类
型
98
97
OLAP多维数据结构
1.超立方结构(Hypercube)
超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。(收缩超立方结构:这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维)。
2.多立方结构(Multicube)
在多立方结构(Multicube)中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据(特别是稀疏数据)的分析效率
OLAP多维数据分析
对以多维形式组织起来的数据,采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据
数据分析方法
1.切片和切块(Slice and Dice)
在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。
2.钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。
3.旋转(Rotate)/转轴(Pivot)
通过旋转可以得到不同视角的数据。
OLAP的分析方法(一)切片、切块
OLAP的分析方法(二)钻取
按时间维向下钻取
按时间维向上钻取
60
OLAP的分析方法(三)旋转
OLAP分类
按照存储方式
OLAP
MOLAP
HOLAP
ROLAP
按照处理地点
Client OLAP
Server OLAP
ROLAP与MOLAP
在关系数据库上建立数据仓库(ROLAP)
ROLAP方案以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储;
通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题
在多维数据库上建立数据仓库(MOLAP)
MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;
在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少
OLTP、ROLAP与MOLAP模式
ROLAP的星型模式(Star Schema)
事实表:用来存储事实的度量值和各个维的码值。
维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。
Budget
Time_id
Sales Table
Discount%
Dollars
Units
"Fact Table"
Market_id
Product_id
Scenario
Product_id
Product Table
Size
Brand
Product_Desc
"Dimension Table"
Time_id
Year
Quarter
Period_Desc
Period Table
"Dimension Table"
Scenario Table
Actual
Profit
Scenario
"Dimension Table"
Market_id
Market Table
Region
District
Market_Desc
"Dimension Table"
MOLAP的多维立方体(Multicube)
数据组织形式
RDB数据组织 - MDDB数据组织 - 关系表中综合数据的存放
多维数据库中综合数据的存放
产品名称
地区
销售量
冰箱
东北
50
冰箱
西北
60
冰箱
华北
100
彩电
东北
40
彩电
西北
70
彩电
华北
80
空调
东北
90
空调
西北
120
空调
华北
140
东北
西北
华北
冰箱
50
60
100
彩电
40
70
80
空调
90
120
140
产品名称
地区
销售量
冰箱
东北
50
冰箱
西北
60
冰箱
华北
100
冰箱
总和
210
彩电
东北
40
彩电
西北
70
彩电
华北
80
彩电
总和
190
空调
东北
90
空调
西北
120
空调
华北
140
空调
总和
350
总和
东北
180
总和
西北
250
总和
华北
320
总和
总和
750
东北
西北
华北
总和
冰箱
50
60
100
210
彩电
40
70
80
190
空调
90
120
140
350
总和
180
250
320
750
OLAP体系结构
商业智能概述
数据仓库
联机分析处理
数据挖掘
数据挖掘(Data Mining)
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中抽取出潜在的、有价值的知识(模型或规则)的过程
数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等
数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, data archeology.
多学科交叉
Data Mining
Database
Technology
Statistics
Other
Disciplines
Information
Science
Machine
Learning (AI)
Visualization
数据挖掘过程模型
1. 定义商业问题
2. 建立数据挖掘模型
3. 分析数据
4. 准备数据
5. 建立模型
6. 评价模型
7. 实施
数据挖掘和数据仓库
数据源
数据仓库
各分公司数据集市
分析
数据集市
数据挖掘
数据集市
图1:数据挖掘库从数据仓库中得出
数据源
数据挖掘库
图2:数据挖掘库从事务数据库中得出
数据挖掘和联机分析处理
OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)
OLAP方法先建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论
OLAP分析过程在本质上是一个演绎推理的过程
数据挖掘是在数据库中自己寻找模型 ,在本质上是一个归纳的过程
数据挖掘和OLAP具有一定的互补性
数据挖掘的任务
分类 (Classification)
估值(Estimation)
预言(Prediction)
相关性分组或关联规则(Affinity grouping or association rules)
聚类(Clustering)
描述和可视化(Description and Visualization)
数据挖掘模式
直接数据挖掘 (预测型数据挖掘Predictive):
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述
可以根据数据项的值精确确定某种结果
间接数据挖掘(描述型数据挖掘Descriptive):
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系
对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组
分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
各种具体模式的简介
分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b.分配客户到预先定义的客户分片
注意: 类的个数是确定的,预先定义好的
常用算法: Decision tree induction、 Neural networks、 Genetic algorithms、 K-Nearest neighbors 、Case based reasoning、 Association Rule Model、 Decision Cluster model、 Rough set classification model
各种具体模式的简介(续)
估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
各种具体模式的简介(续)
预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
各种具体模式的简介(续)
相关性分组或关联规则(Affinity grouping or association rules)
两种常用的技术是关联规则和序列模式。
关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式寻找的是事件之间时间上的相关性
例子:
a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
b. 客户在购买A后,隔一段时间,会购买B (序列分析)
各种具体模式的简介(续)
聚类(Clustering)
聚类是对记录分组,把相似的记录在一个聚类里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚类可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚类,可能暗示成员属于不同的亚文化群
聚类通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚类,将客户分组在各自的聚类里,然后对每个不同的聚类,回答问题,可能效果更好。
各种具体模式的简介(续)
描述和可视化(Description and Visualization)
是对数据挖掘结果的表示方式。
数据挖掘的技术背景
1)数据挖掘技术包括三个主要部分:算法和技术、数据、建模能力
2)数据挖掘和机器学习(Machine Learning)
机器学习是计算机科学和人工智能AI发展的产物
机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决策树)
3)数据挖掘和统计
统计也支持数据挖掘。统计本包括预测算法(回归)、抽样、基于经验的设计等
4)数据挖掘和决策支持系统
数据仓库 、OLAP、Data Mart、多维数据库
Database Techniques for Data Mining
Database techniques and tools (SQL) are used for
Data storage
Access to data sources
Data selection and integration
Data preprocessing
Data mining and algorithms (Association Rule)
Deployment environment
Data Selection and Extraction
Useful steps:
Understand the business problem.
Collect the materials about the data sources and study them to understand what data is available.
Identify the data items relevant to the business problem, ., tables and attributes.
Make a data extraction plan and arrange the data extraction (with DBAs).
Calculate the summary statistics of the extracted data.
Data Preprocessing
Field selection
Sampling
Data correction
Missing values treatment
Data transformation, ., birth date to age.
Derive new fields
Data aggregation
Statistical Techniques for Data Mining
Statistical techniques are used for
Data exploration
Data pre- and post-processing
Statistical model building
Model test and result verification
Data Exploration
Use some graphical tools to visually investigate the characteristics of data.
Visual data exploration can help
Data understanding
Error correction
Variable selection
Variable transformation
Data Exploration Examples
Histogram
Plotting
Association
Frequency Distribution
Machine Learning Techniques for Data Mining
Machine Learning provides useful data mining algorithms such as
Decision tree induction
Neural networks
Conceptual clustering
Genetic algorithms
Genetic programming
Pattern Recognition Techniques for Data Mining
Pattern Recognition provides well developed techniques and methodologies for
Classification
Clustering
Feature selection
Result validation
Summary Statistics of Data
To understand the extracted data to be used for mining, it is useful to calculate the following summary statistics.
Data size, no. of records, no. of columns.
Numbers of columns in different data types, ., numeric and categorical.
Mean, Min, Max, Variance of numeric columns (variables).
Distinct values of categorical columns.
Frequencies of categorical values of each categorical column.
No. of records having missing values.
Percentages of records which miss values for each column.
These are the metadata for data mining.
Decision Tree Prediction Model
收入>¥40,000
工作时间>5年
高负债
高风险
低风险
高风险
低风险
否
否
否
是
是
是
一棵简单的决策树
决策树中最上面的节点称为根节点,是整个决策树的开始。每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)
Business Decision Rules
(Easy to understand to business users)
if
children =< 0 and married == YES and
mortgage == YES and save_act == NO
then YES
if
children =< 0 and married == NO and
mortgage == YES and save_act == YES
then NO
Neural Network Models
1
2
3
4
5
6
输入
输出
隐含层
一个神经元网络
一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度
神经网络常用于两类问题:分类和回归