熵值法原理及应用实践
培训目标
理解熵值法的原理1.
学会使用熵值赋权2.
领悟熵值应用实践3.
熵值法原理及应用实践
2 熵值法如何计算权重?
3 怎样合理应用熵值法?
熵值法是做什么用的?1
日常工作中常常需要计算指标权重
专
家
打
分
法
(德
尔
菲
法
)
层
次
分
析
法
(AH
P)
…
主成
份分
析法
因子
分析
法
…
多元回归赋权法
线性回归
逻辑回归
……
熵
值
法
请大
家想
一想
,你
知道
的几
种指
标赋
权方
法?
赋权算法分类
对于权重的确定,目前已提出各种不同的方法,可以分为:
• 往往依靠专家打分和定性分析
• 精确性不够
• 主观性太强
• 一般采用数理统计方法和技术
• 过于依赖数据,缺乏业务指导
• 很多方法不能反映指标对目标的影
响方向
主观赋权 客观赋权
二者结合
使用最有效
“熵”是一种客观的赋权方法
“熵”原本是物理中热力学概念,后来发展为信息论的熵值法理论,在指标赋
权方面的应用比较广泛。
“熵”是不确定性信息的度量(就好比人的身高、体重,可以用来衡量人的体格):信息
量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。
熵大 越不确定 信息量小 影响小 权重小
熵小 越确定 信息量大 影响大 权重大
指标赋权中熵值法的一般原理
根据熵的特性,我们可以用熵值来判断某个指标的离散程度:
指标熵值越小,离散程度越大,该指标对综合评价的
影响(即权重)也就越大。
熵值法原理及应用实践
2 熵值法如何计算权重?
3 怎样合理应用熵值法?
熵值法是做什么用的?1
“熵”的一般计算公式
其中: ,n为总样本数, 为指标值
一个规划求极值问
题
“权”的一般计算公式
其中: 为第j个指标(维度)的熵,m为指标总数
利用样本数据上感受下熵的变化
请大
家动
一动
手,
用EX
CEL
计算
出样
本数
据的
熵!
感受
下不
同分
布的
指标
数据
算出
来的
熵值
会怎
样变
化?
详见附录1
熵值法的一般步骤
步
骤
一
•
确
立
指
标
体
系
步
骤
二
•
清
洗
指
标
极
值
步
骤
三
•
归
一
化
指
标
处
理
步
骤
四
•
计
算
指
标
“熵
”和
“权
”
步
骤
五
•
指
标
加
权
计
算
得
分
熵值法的一般步骤之一:确立指标体系
案例解说
我们用手游认知客户挖掘模型实例来解说熵值法计算指标权重的全过程。下图是
手游认知客户挖掘模型的二级指标评价体系,其中各个维度指标对应的权重
系数均是通过熵值法计算出来的。
下面具体看下模型中 “手游认知能力”部分指标权重的计算过程。
一级
二级
熵值法的一般步骤之二:清洗指标极值
案例解说
方法:即剔除各指标中极大或者极小的值,一般用比较合理的上下限值替换这些极值。目的是
减少极值数据对该指标的熵的影响;
原则:剔除占样本总数不到1-2%但指标值贡献率超过20-30%以上的极值样本
样本id
游戏流量
(K) 贡献率
… … …
981 6358 %
982 6401 %
983 6631 %
984 6635 %
985 7193 %
986 7432 %
987 7993 %
988 8385 %
989 8691 %
990 10038 %
991 10263 %
992 10417 %
993 10936 %
994 11307 %
995 14254 %
996 15073 %
997 15326 %
998 16480 %
999 16542 %
1000 61573 %
样本id
游戏流量
(K) 贡献率
… … …
981 6107 %
982 6107 %
983 6107 %
984 6107 %
985 6107 %
986 6107 %
987 6107 %
988 6107 %
989 6107 %
990 6107 %
991 6107 %
992 6107 %
993 6107 %
994 6107 %
995 6107 %
996 6107 %
997 6107 %
998 6107 %
999 6107 %
1000 6107 %
去极值后
熵值法的一般步骤之三:归一化指标处理
案例解说
方法:指标归一化过程也称之为指标的无量纲化,即将指标实际值转化为不受量纲影响的指标
平价值。方法比较多,具体见附录《无纲量化方法一览》;
原则:比较常用的是临界值法和Z-score法(更合理,保持了数据的连续性,减少数据信
息丢失),最终将所有指标转化为正区间里面,二者具体处理如下:
分
箱
处
理
逻
辑
处
理
临界值法 Z-score法
[1,2,3 …,100] (0,1]
熵值法的一般步骤之四:计算指标“熵”和“权”
案例解说
类似,按此公式还可以继续计算出 和
同理可以计算出 和
熵
权
熵值法的一般步骤之五:指标加权计算得分
案例解说
利用以上3个指标的权重和归一化指标值,计算上级指标的分数:
手游认知能力得分= *手游历史付费金额
+*手游访问次数
+*手游访问天数。
当然,模型其他部分的底层指标权重和一级指标权重均可以按以上步骤计算得到,并一层层
由下往上进行加权,最终得到模型的综合得分。
方法:计算综合得分就是指标合成的过程,一般可以采用加法原理和乘法原理;
原则:最常用的是加法合成法,其具体处理如下:
加法合成法
熵值法原理及应用实践
2 熵值法如何计算权重?
3 怎样合理应用熵值法?
熵值法是做什么用的?1
熵值法的优点在于其客观、准确和简便
优点
① 熵值法能深刻反映出指标的区分能力,进而确定权重。这种思想和我们的得分评价模型指
标选择的机理是一致的;
② 是一种客观赋权法,有理论依据,相对主观赋权具有较高的可信度和精确度;
③ 算法简单,实践起来比较方便操作,无需借助其他分析软件实现。
熵值法不是万能赋权法
缺点
① 智能程度不够高。与多元回归和主成份等统计方法不同,它不能考虑指标与指标间横向的
影响(如:相关性),更不能确定指标对目标/得分的影响方向(如:正相关或负相关);
② 同其他客观赋权法一样,若无业务经验的指导,权重可能失真;
③ 对样本的依赖性比较大,随着建模样本变化,权重会有一定波动;
项目中合理应用熵值法的几点个人经验:
① 必须结合专家打分法才可以发挥熵值法的优势。事实上,指标评价体系建立的基础就是专
家经验;
② 在确定权重前,需要完全确定指标对目标得分的影响方向。非线性的指标要么剔除,要么
进行预处理;
③ 熵值法对底层指标比较适用,而对上层指标权重需要重点借助专家经验;
④ 不要怕麻烦,好好处理所有指标的极值问题,对权重的优化有好处;
个人经验
附录
1. 计算熵值的数据样本
2. 熵值法的SQL实现脚本
3.无纲量方法一览
附录
附录1. 计算熵值的数据样本
附录2. 熵值法的SQL实现脚本
附录3 无量纲方法一览
• 阀值法(临界值法)
1、
2、
3、
4、
• Z-score法
1、
• 比重法
1、
2、
折线型 曲线型直线型
Thank you