第八章 数字媒体压缩技术
北京印刷学院 王亮
wangliang@
数字媒体技术导论数字媒体技术导论
第八章 数字媒体压缩技术
• 数据压缩及分类
– 压缩的可能性与信息冗余
– 数据压缩分类
• 通用的数据压缩技术
– 编码的理论基础
– 霍夫曼编码
– 行程编码
– 词典编码
– 脉冲编码调制
– 增量调制(DM)
– 差分脉冲编码调制
数字媒体技术导论数字媒体技术导论
第八章 数字媒体压缩技术
• 数字媒体压缩标准
– 声音压缩标准
– 图像压缩标准
– 运动图象压缩标准
• MPEG标准
• 系列视频标准
• AVS标准
数字媒体技术导论数字媒体技术导论
压缩的可能性与信息冗余
• 数据能够被压缩的主要原因在于媒体数
据中存在数据的信息冗余。信息量包含
在数据之中,一般的数据冗余主要体现
在:
–空间冗余
–结构冗余
–时间冗余
–视觉冗余
–知识冗余
–信息熵冗余
数字媒体技术导论数字媒体技术导论
数据压缩分类
数字媒体技术导论数字媒体技术导论
按信息压缩前后比较是否有损失进行划分
• 按信息压缩前后比较是否有损失,可以
划分有损压缩和无损压缩 。
–无损压缩指使用压缩后的数据进行重构,重
构后的数据与原来的数据完全相同。常用的
无损压缩算法有霍夫曼(Huffman)算法和LZW
算法 。
–有损压缩是指使用压缩后的数据进行重构,
重构后的数据与原来的数据有所不同,但不
影响人对原始资料表达的信息造成误解。
数字媒体技术导论数字媒体技术导论
按数据压缩编码的原理和方法进行划分
• 按数据压缩编码的原理和方法可划分为
– 统计编码,主要针对无记忆信源,根据信息码字出
现概率的分布特征而进行压缩编码,寻找概率与码
字长度间的最优匹配。
– 预测编码是利用空间中相邻数据的相关性来进行压
缩数据的。
– 变换编码是将图像时域信号转换为频域信号进行处
理。
– 分析—合成编码是指通过对源数据的分析,将其分
解成一系列更适合于表示的“基元”或从中提取若
干更为本质意义的参数,编码仅对这些基本单元或
特征参数进行。
数字媒体技术导论数字媒体技术导论
按照媒体的类型进行压缩划分
• 图像压缩标准
• 声音压缩标准
• 运动图象压缩标准
数字媒体技术导论数字媒体技术导论
通用的数据压缩技术
• 通用的数据压缩技术:
–行程编码
–字典编码
–熵编码等
– PCM
– DM
– DPCM
• 通用的压缩方法具有压缩比低、通用性
强等特点
数字媒体技术导论数字媒体技术导论
编码的理论基础
• 数据压缩技术的理论基础是信息论。
• 根据信息论的原理,可以找到最佳数据
压缩编码方法,数据压缩的理论极限是
信息熵。
• 熵是信息量的度量方法,它表示某一事
件出现的消息越多,事件发生的可能性
就越小,数学上就是概率越小。
数字媒体技术导论数字媒体技术导论
信息与信息量
• 信息量是指信源中某种事件的信息度量
或含量。一个事件出现的可能性愈小,
其信息量愈多,反之亦然。
• 若pi为第i个事件的概率为0≤ pi ≤1,则
该事件的信息量为
• 一个信源包括的所有数据叫数据量,而
数据量中包含有冗余信息。
信息量 = 数据量-冗余量
数字媒体技术导论数字媒体技术导论
信息熵
• 信息熵就是将信源所有可能事件的信息
量的平均。
• 设从N个数中选定任一个数xj的概率为
p(xj),假定选定任意一个数的概率都相
等,即p(xj) =1/N,则
I(xj)=log2N=-log2 1/N =-log2p(xj)=I[p(xj)]
上式中,p(xj)是信源X发出xj的概率。I(xj)
的含义是信源X发出xj这个消息(随机事
件)后,接收端收到信息量的量度。
数字媒体技术导论数字媒体技术导论
信息熵(续)
• 信源X发出的xj(j=1,2,…,n)共n个随机事件
的信息量的统计平均,即
• H(X)=E{I(xj)}=
H(X)称为信源X的“熵”,即信源X发出
任意一个随机变量的平均信息量。
• 其中,等概率事件的熵最大,假设有N个
事件,此时熵为:
• H(X)= =
数字媒体技术导论数字媒体技术导论
信息熵(续)
• 当P(x1)=1时,P(x2)=P(x3)=…=P(xj)=
0,此时熵为
H(X)=- P(x1) =0
• 由上可得熵的范围为:
0≤ H(X) ≤
数字媒体技术导论数字媒体技术导论
信息熵(续)
• 在编码中用熵值来衡量是否为最佳编码。
若以Lc表示编码器输出码字的平均码长,
其计算公式为:
Lc= (j=1,2,…,n)
• 其中:P(xj) 是信源X发出xj的概率,L(xj)
为xj的编码长。
数字媒体技术导论数字媒体技术导论
信息熵(续)
• 平均码长与信息熵之间的关系为:
– Lc≥H(X) 有冗余,不是最佳。
– Lc < H(X)不可能。
– Lc = H(X)最佳编码( Lc稍大于H(X) )
• 熵值为平均码长Lc的下限。
数字媒体技术导论数字媒体技术导论
霍夫曼编码
• 霍夫曼编码(Huffman)是运用信息熵原
理的一种无损编码方法,这种编码方法
根据源数据各信号发生的概率进行编码。
• 在源数据中出现概率大的信号,分配的
码字越短;出现概率越小的信号,其码
字越长,从而达到用尽可能少的码表示
源数据。
数字媒体技术导论数字媒体技术导论
霍夫曼编码的算法
1. 初始化,根据符号概率的大小顺序对符号进
行排序。
2. 把概率最小的两个符号组成一个新符号(节
点),即新符号的概率等于这两个符号概率
之和。
3. 重复第2步,直到形成一个符号为止(树),
其概率和等于1。
4. 分配码字。码字分配从最后一步开始反向进
行,即从最后两个概率开始逐渐向前进行编
码,对于每次相加的两个概率,给概率大的
赋“0”,概率小的赋“1”(也可以全部相
反,如果两个概率相等,则从中任选一个赋
“0”,另一个赋“1”)。
数字媒体技术导论数字媒体技术导论
• 霍夫曼编码构造出来的编码值不是唯一
的。
• 对不同信号源的编码效率不同
• 由于编码长度可变,因此译码时间较长;
编码长度的不统一,也使得硬件实现有
难度。
霍夫曼编码的特点
数字媒体技术导论数字媒体技术导论
行程编码
• 行程编码又称行程长度编码(Run
Length Encoding,RLE),是一种熵编
码。这种编码方法广泛地应用于各种图
像格式的数据压缩处理中。
• 行程编码的原理是在给定的图像数据中
寻找连续重复的数值,然后用两个字符
取代这些连续值。即将具有相同值的连
续串用其串长和一个代表值来代替,该
连续串就称为行程,串长称为行程长度。
数字媒体技术导论数字媒体技术导论
行程编码
• 如图所示,假定一幅灰度图像,第n行的像素
值为:
• 用RLE编码方法得到的代码为:4160831130。
代码斜黑体表示的数字是行程长度,黑体字后
面的数字代表像素的颜色值。例如黑体字60代
表有连续60个像素具有相同的颜色值,它的颜
色值是8。
数字媒体技术导论数字媒体技术导论
行程编码分类
• 定长编码
–定长编码是指编码的行程长度所用的二进制
位数固定
• 不定长编码
–变长行程编码是指对不同范围的行程长度使
用不同位数的二进制位数进行编码。使用变
长行程编码需要增加标志位来表明所使用的
二进制位数。
数字媒体技术导论数字媒体技术导论
词典编码
• 词典编码(dictionary encoding)技术
属于无损压缩技术,主要是利用数据本
身包含许多重复的字符串的特性。可以
用一些简单的代号代替这些字符串,就
可以实现压缩,实际上就是利用了信源
符号之间的相关性。字符串与代号的对
应表就是词典。词典编码法的种类有很
多,归纳起来大致有两种。
数字媒体技术导论数字媒体技术导论
词典编码
• 第一种方法的思想是查
找目前正在压缩的字符
序列在以前输入的数据
中是否出现过,然后用
出现过的字符串代替重
复的部分,它的输出仅
仅是指向早期出现过的
字符串“指针”。
• 这种编码的概念如右图
所示。这里所指的词典
是指用以前处理过的数
据表示编码过程中遇到
的重复部分。这类编码
的所有算法都是以LZ77
算法为基础的。
数字媒体技术导论数字媒体技术导论
词典编码
• 第二种算法的思想是
从输入的数据中创建
一个“短语词典”,
这类短语不一定有具
体的含义,可以是任
意字符的组合。在编
码过程中遇到在“短
语词典”中出现的短
语是,编码器就输出
这个词典中的短语“
索引号”,而不是短
语本身。其概念如右
图所示。
数字媒体技术导论数字媒体技术导论
LZ77算法
• LZ77是以以色列计算机专家Abraham
Lempel和Jakob Ziv在1977年开发和发表
的。
• 此算法的一个改进算法是由Storer和
Szymanski在1982年开发的,称为LZSS算
法。
• LZ77 算法在某种意义上又可以称为“滑
动窗口压缩”,该算法将一个虚拟的、
可以跟随压缩进程滑动的窗口作为词典,
要压缩的字符串如果在该窗口中出现,
则输出其出现位置和长度。
数字媒体技术导论数字媒体技术导论
LZ77算法中涉及的概念
1. 输入字符流(input stream):要被压缩的字符序列。
2. 字符(character):输入数据流中的基本单元。
3. 编码位置(coding position):输入数据流中当前要
编码的字符位置,指前向缓冲存储器中的开始字符。
4. 前向缓冲存储器(Lookahead buffer):存放从编码位
置到输入数据流结束的字符序列的存储器。
5. 窗口(window):指包含W个字符的窗口,字符是从编
码位置开始向后数也就是最后处理的字符数。
6. 指针(pointer):指向窗口中的匹配串且含长度的指
针。
数字媒体技术导论数字媒体技术导论
LZ77算法具体步骤
(1)把编码位置设置到输入数据流的开始位置。
(2)找窗口中最长的匹配串
(3)以“(Pointer, Length) Characters”的格
式输出,其中Pointer是指向窗口中匹配串的
指针,Length表示匹配字符的长度,
Characters是前向缓冲存储器中的不匹配的第
1个符。
(4)如果前向缓冲存储器不是空的,则把编码
位置和窗口向前移(Length+1)个字符,然后返
回到步骤(2)。
数字媒体技术导论数字媒体技术导论
LZW算法
• LZW压缩算法是一种新颖的压缩方法,它
采用了一种先进的串表压缩,将每个第
一次出现的串放在一个串表中,用一个
数字来表示串,压缩文件只存贮数字,
则不存贮串,从而使图像文件的压缩效
率得到较大的提高。
• LZW编码是围绕称为词典的转换表来完成
的。
数字媒体技术导论数字媒体技术导论
LZW算法中的术语和符号
1. 前缀(Prefix): 在一个字符之前的字符序列。
2. 缀-符串(String):前缀+字符。
3. 码字(Code word):码字流中的基本数据单元,代表词典中的一
串字符。
4. 码字流(Codestream): 码字和字符组成的序列,是编码器的输
出。
5. 词典(Dictionary): 缀-符串表。按照词典中的索引号对每条缀
-符串(String)指定一个码字(Code word)。
6. 当前前缀(Current prefix):在编码算法中使用,指当前正在处
理的前缀,用符号P表示。
7. 当前字符(Current character):在编码算法中使用,指当前前
缀之后的字符,用符号C表示。
8. 当前码字(Current code word): 在译码算法中使用,指当前处
理的码字,用W表示当前码字,表示当前码字的缀-符串。
数字媒体技术导论数字媒体技术导论
LZW编码算法执行步骤
1. 开始时的词典包含所有可能的根(Root),而
当前前缀P是空的;
2. 当前字符(C) :=字符流中的下一个字符;
3. 判断缀-符串P+C是否在词典中
1. 如果“是”:P := P+C // (用C扩展P) ;
2. 如果“否”:① 把代表当前前缀P的码字输出到
码字流;② 把缀-符串P+C添加到词典;③ 令P
:= C //(现在的P仅包含一个字符C);
4. 判断字符流中是否还有字符要编码
1. 如果“是”,就返回到步骤2;
2. 如果“否”:① 把代表当前前缀P的码字输出到
码字流;② 结束。
数字媒体技术导论数字媒体技术导论
脉冲编码调制
• 脉冲编码调制 (Pulse Code
Modulation, PCM)就是将模拟调制信号
的采样值变换为脉冲码组。
• PCM编码包括如下三个过程:
–采样,将模拟信号转换为时间离散的样本脉
冲序列。
–量化,将离散时间连续幅度的抽样信号转换
成为离散时间离散幅度的数字信号。
–编码,用一定位数的脉冲码组表示量化采样
值。
数字媒体技术导论数字媒体技术导论
PCM系统原理图
数字媒体技术导论数字媒体技术导论
PCM编码的优点
• 有很强的抗干扰性
• 能方便的利用计算机编程,实现各种智
能化设计。
数字媒体技术导论数字媒体技术导论
增量调制(DM)
• 增量调制也称△调制(delta modulation
,DM),它是一种预测编码技术,是PCM
编码的一种变形。
• DM是对实际的采样信号与预测的采样信
号之差的极性进行编码,将极性变成
“0”和“1”这两种可能的取值之一。
如果实际的采样信号与预测的采样信号
之差的极性为“正”,则用“1”表示;
相反则用“0”表示,或者相反。
数字媒体技术导论数字媒体技术导论
DM波形编码的原理
• 在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种
现象就称为增量调制器的“斜率过载” 。
• 在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,
增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调
制器的粒状噪声
数字媒体技术导论数字媒体技术导论
差分脉冲编码调制
• 差分脉冲编码调制(Differential
Pulse Code Modulation,DPCM)是利用
样本与样本之间存在的信息冗余度来进
行编码的一种数据压缩技术。
• 差值脉冲编码调制是利用信号的相关性
找出可以反映信号变化特征的一个差值
量进行编码。
数字媒体技术导论数字媒体技术导论
DPCM的基本工作原理
• 根据过去的样本去估算(estimate)下
一个样本信号的幅度大小,这个值称为
预测值,然后对实际信号值与预测值之
差进行量化编码,从而就减少了表示每
个样本信号的位数。
• 它与脉冲编码调制(PCM)不同处在于,
PCM是直接对采样信号进行量化编码,而
DPCM是对实际信号值与预测值之差进行
量化编码。
数字媒体技术导论数字媒体技术导论
DPCM的原理图
量化器
S(k) +
逆量化器
预测器
d(k) I(k)
Se(k-1)
8比特
PCM
样本k
PCM
样本k-1
Se(k-1)
dq(k)
Sr(k)
+
+
-
数字媒体技术导论数字媒体技术导论
声音压缩标准——MP3
• MP3是MPEG-1的标准草案中音频编码的
Layer 3。
• MP3 最大特点是能以较小的比特率、较
大压缩比达到近乎完美的CD音质,制作
简单,交流方便。
• MP3压缩编码是一个国际性全开放的编码
方案,其编码算法流程大致分为时频映射、
心理声学模型、量化编码三大功能模块,
这三个功能模块是实现MP3 编码的关键。
数字媒体技术导论数字媒体技术导论
MP3编码框图
• 下图为MP3编码框图
数字媒体技术导论数字媒体技术导论
MP4
• MP4是MPEG-2 AAC(ISO/IEC 13818-7)技
术(Advanced Audio Coding)。
• MP4的特点是音质更加完美而压缩比更大。
它增加了诸如对立体声的完美再现、比
特流效果音扫描、多媒体控制、降噪等
MP3没有的特性,使得在音频压缩后仍能
完美的再现CD的音质。
数字媒体技术导论数字媒体技术导论
图像压缩标准
• JPEG是国际标准组织(ISO)和国际电工委员会
(IEC)制定出的第一套国际静态图像压缩标
准:ISO/IEC 10918-1号标准 “多灰度连续
色调静态图像压缩编码”俗称为JPEG,以其优
异的性能,该标准一直到当前仍被因特网、数
码相机等很多领域广泛应用。
• JPEG包含两种基本的压缩算法:无损压缩算法
(基于差分脉冲调制 )和有损压缩算法(基
于离散余弦变换 )。
数字媒体技术导论数字媒体技术导论
JPEG算法框图
数字媒体技术导论数字媒体技术导论
JPEG算法压缩编码步骤
(1)使用正向离散余弦变换(Forward
Discrete Cosine Transform,FDCT)把
信息从空间域变换成频率域的数据,并
利用数据的频率特性进行处理;
(2)使用加权函数对DCT系数进行量化,
这个加权函数对于人的视觉系统是最佳
的;
(3)使用霍夫曼可变字长熵编码器对量化
系数进行编码。
数字媒体技术导论数字媒体技术导论
JPEG压缩编码算法的主要计算步骤
(1)正向离散余弦变换(FDCT)。
(2)量化(quantization)。
(3)Z字形编码(zigzag scan)。
(4)使用差分脉冲编码调制(differential
pulse code modulation,DPCM)对直流系数
(DC)进行编码。
(5)使用行程长度编码(Run Length Encoding
,RLE)对交流系数(AC)进行编码。
(6)熵编码(entropy coding)。
数字媒体技术导论数字媒体技术导论
JPEG2000
• JPEG2000弥补了传统JPEG压缩技术缺陷,
有以下优点
–高压缩率
–支持无损压缩和有损压缩
–渐进传输
–对感兴趣区域压缩
数字媒体技术导论数字媒体技术导论
MPEG标准
• 运动图像专家组MPEG是由国际标准化组
织ISO和国际电工委员会IEC联合成立的,
负责开发电视图像数据和声音数据的编
码、解码和它们的同步标准。这个专家
组开发的标准称为MPEG标准。
数字媒体技术导论数字媒体技术导论
MPEG-1标准
• MPEG-1标准于1993年公布,用于传输
数据传输率的数字存储媒体运动
图像及其伴音的编码。
• 该标准包括五个部分,分别为:系统、
电视图像、音频、一致性测试和软件模
拟。
• MPEG-1的数据流包含:图像流、伴音流
和系统流三种成分。
数字媒体技术导论数字媒体技术导论
MPEG-1译码器方框图
• 下图为MPEG-1译码器方框图。图像流包含画面信息,
伴音流包含声音信息,系统流实现图像和伴音的同步,
所有播放MPEG图像和伴音数据所需的时钟信息都包含
在系统流中。
数字媒体技术导论数字媒体技术导论
MPEG-2标准
• MPEG-2标准包括了系统、电视图像、音频、一
致性测试、软件模拟、数字存储媒体命令和控
制扩展协议、先进声音编码、编码器实时接口
扩展标准、DSM-CC一致性扩展测试等。
• MPEG-2的主要特点是:
1)MPEG-2解码器兼容MPEG-1和MPEG-2标准。
2)其视频数据速率为3 Mb/s~15Mb/s,基本分辨率
为720×576像素,每秒可播放30帧画面。
3)可以30∶1或更低的压缩比提供具有广播级质量的
视频图像。
4)允许在画面质量、存储容量和带宽之间选择,在
一定范围内改变压缩比。
数字媒体技术导论数字媒体技术导论
MPEG-2的系统模型
数字媒体技术导论数字媒体技术导论
MPEG-4标准
• MPEG-4标准于1998年11月公布,是各种音频/
视频对象的编码,包括了系统、电视图像、音
频、一致性测试和参考软件、传输多媒体集成
框架等。
• MPEG-4为多媒体数据压缩编码提供的是一种格
式、一种框架,而不是具体算法,以建立一种
更自由的通信与开发环境。
• MPEG-4的目标是支持多种多媒体的应用,特别
是多媒体信息基于内容的检索和访问,可以根
据不同的应用需求现场配置解码器。其编码系
统也是开放的,可以随时加入新的有效的算法
模块。
数字媒体技术导论数字媒体技术导论
MPEG-4系统示意图
数字媒体技术导论数字媒体技术导论
MPEG-7标准
• MPEG-7标准于2001年公布,称为多媒体内容描
述接口,包括系统、描述定义语言、电视图像、
音频、多媒体描述框架、参考软件以及一致性
测试七个部分。
• MPEG-7标准的目的是产生一个描述多媒体内容
的标准,支持对多媒体信息在不同程度层面上
的解释和理解,从而使其可以根据用户的需要
进行传递和存取。
• MPEG-7注重的是提供视听信息内容的描述方案,
并不包括针对不同应用的特征提取方法和搜索
引擎。
数字媒体技术导论数字媒体技术导论
MPEG-21标准
• MPEG-21基于两个基本概念:分布和处理基本单元
(Digital Item,DI)以及DI与用户间的互操作。
• MPEG-21可表述为以一种高效、透明和可以互操作的方
式支持用户交换、接入、使用甚至操作DI的技术。
– DI是MPEG-21框架中一个具有标准表示、身份认证和相关元数
据的数字对象。这个实体是框架中分布和处理的基本单元。
– 用户是指与MPEG-21进行环境交互或者使用DI的任何实体。
• MPEG-21可以被看成是提供用户间交互的一个框架。
数字媒体技术导论数字媒体技术导论
系列视频标准
• 系列视频标准是国际电信联盟ITU
的视频编码专家组(ITU-T)制定的系列
图像压缩标准,主要有、、
H264等。这些视频标准主要应用于实时
视频通信领域,如会议电视、可视电话
等。
数字媒体技术导论数字媒体技术导论
系列视频标准(续)
• 又称Px64,传输码率为P*64kbps,其中P可变。
根据图像传输清晰度的不同,传输码率变化范围在
64kbps至之间,编码方法包括DCT变换,可控
步长线性量化,变长编码及预测编码等。
• 是ITU-T为低于64kb/s的窄带通信信道制定的视
频编码标准,其标准输入图像格式可以是S-QCIF、
QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0子取样图像。
• 引入了很多先进的技术,可得到较高的压缩比,
但提高了算法的复杂度 。因此标准中加入了去
块效应滤波器,对块的边界进行滤波。
数字媒体技术导论数字媒体技术导论
AVS标准
• AVS(Audio Video Standards)是中国自主制
定的音视频编码技术标准,其核心是把数字视
频和音频数据压缩为原来的几十分之一甚至百
分之一以下。
• AVS标准包括系统、视频、音频、数字版权保
护等四个主要技术标准和一致性测试等支撑标
准。
• AVS-视频当中具有特征性的核心技术包括:
8x8整数变换、量化、帧内预测、1/4精度像素
插值、特殊的帧间预测运动补偿、二维熵编码、
去块效应环内滤波等。