数字媒体处理技术
课程定位
2021/4/18
提纲
数字媒体的基本概念
数字媒体处理关键技术
数字媒体标准简介
数字媒体技术的应用
4
数字媒体的基本概念
计算机的社会角色
计算 信息交流 智能服务
信息交流(人类发展和人的成长/计算机发展)
情感—>语言—>文字—> (—>>简单化、精确化)
情感<—语言<—文字<— (<<—自然化、可觉化)
文字信息为主的信息交流时代
计算机数字技术
什么是多媒体什么是多媒体
● 多媒体定义多媒体定义
多媒体技术是利用计算机对文字、图像、图形、动画、音频、视多媒体技术是利用计算机对文字、图像、图形、动画、音频、视
频等多种信息进行综合处理、建立逻辑关系和人机交互作用的产物。频等多种信息进行综合处理、建立逻辑关系和人机交互作用的产物。
●“多媒体”一词源自“”
( ) ( )
; ; ; ;
多重、复合多重、复合
( )
a
a ;
a ,
,
( )
的复数形式
介质、媒介和媒体11
22 33 44
多媒体的特性
多媒体强调的是使用多种媒体、综合表达信息
内容并进行交互式处理的技术。
从本质上来说,具有三种最重要的特性:
媒体的多样性,其中至少有一种连续媒体;
媒体的集成性(综合性),多种不同媒体综合
地表现某个内容,取得更好的效果;
处理的交互性,使人们获取和使用信息的过程
中具有细粒度的控制和操纵能力。
计算机与媒体
表示
存储
展现采集
感觉 感觉
表示
传输
什么是多媒体:分类
最常见的分类方法是基于感觉
文本
图像
音频(语音)
视频
基于描述空间中时间维分类
时间独立(离散)
文本、图形
时间依赖(连续)
音频、视频、语音、动画
基于描述空间中空间维分类
1D媒体
单声道语音、音乐
2D媒体
双声道音乐、图像、二维图形
3D及多维媒体
三维图形 , 全景图像 , 空间立体声音
乐
媒体分类标准
存储
()
展现
()
表示()
感觉
()
信息交换
( )
传输()
什么是数字媒体
多媒体
: 文本、图形、图像、视频和音频的组合形式,
使其内容更丰富,更便于交流。
数字媒体
: 以数字化的形式存储、处理和传播信息的媒体,
以网络为主要传播载体,并具有多样性、互动性、
集成性等特点。
什么是数字媒体:A
图像
文本
语音音频
视频
多媒体多媒体
Virtual worldsVirtual worlds
Streaming videoStreaming video
Web pagesWeb pages
Streaming audioStreaming audio Client-serverClient-server
数字媒体系统数字媒体系统
AuthoringAuthoring
媒体内容管理
ToolsTools
FrameworksFrameworks
网络网络
分布式数字媒体系统分布式数字媒体系统
数字媒体技术的研究内容
核心关键技术
数字媒体信息处理技术:视音频编码压缩、图像/视频内容
分析、语音识别等;
数字媒体传输技术:网络流媒体、P2P、无线多媒体传输等;
数字媒体内容管理技术:数字媒体数据库、基于内容的检索、
数字版权管理、数字信息保护、数字媒体集成分发等。
关联支持:
数字媒体信息获取与输出技术:图像/视频采集技术与设备、
三维显示技术与设备等;
数字媒体存储技术:海量分布存储等。
扩展应用:
图形与动画技术:图形输入、图形建模、图形处理与输出、
复杂物体造型、表演动画等;
虚拟现实技术:动态虚拟环境建模、实时三维图形生成、立
体显示与传感器等。
什么是数字媒体
数字媒体
信息的表现形式是多种多样的,能够用计算机
记录和传播的信息媒体,无论是已经应用还是
将要应用的,其共同的一个重要特点就是信息
的最小单元是比特——“0”或“1”。
数字信息的最小单元就是比特,通过比特可以
表述各种媒体信息。
比特是信息的最小单元
比特没有颜色、尺寸和重量,它只是一种存在的状态:开
或关、真或假、高或低、黑或白,总之简记为0或1。
比特易于复制,而且复制的质量不会随复制数量的增加而
下降。
比特可以以极快的速度传播,而且在传播时不受时空的限
制。
比特可以用来表现文字、图像、动画、影视、语音及音乐
等信息
多媒体与数字媒体
多媒体是混合的比特
多媒体():文本数据、声音、图像、动画等的
混合。
多媒体技术:能对多种载体(媒介)上的信息和
多种存储体(媒质)上的信息用计算机进行采集、
存储、编辑、显示、传播等综合处理的技术
多媒体信息:通过多媒体传播的信息。
多媒体系统:能够产生、存储、传播多媒体信息
的系统。
数字媒体技术的发展
数字媒体计算机演变的关键技术
1970
1980
1990
8位处理器
, , ,
16位处理器
桌面
32位处理器数字视音频
图形操作系统
计算、通信、内容、消费电子融合(4C)
,
,
, , ,
, , , ,
, ,
+
,
,
18
数字媒体处理关键技术
媒体数字化
为什么要数字化?
数字化过程
媒体数字化关键技术
采样()
压缩()
编码()
为什么要数字化?
模拟的问题:模拟失真,依赖载体
数字化的好处:
通用的存储和传输格式,数字化后处理更方便
适用于光盘存储和远距离传输
准确可靠,没有累计失真,可以无损传输和存
储
数字化的问题
采样率失真,信息丢失
与模拟相比,需要很大的空间,例如35照片需
要420万像素,高清视频码率大于 1
需要压缩
数字悬崖:马赛克、画面暂停丢失
数字化过程
三步骤
采样()
量化()
压缩()与编码()
Sampler
Quantizer
&
Coder
analog signal sampled signal
digitized signal
1: 采样与失真
通过某种频率的采样脉冲将模拟信息的值取出,变连续的模
拟信息为离散信号。
采样定理:采样频率>=原始信号频率的2倍时,
采样信号才可以保真地恢复为原始信号。
2:量化与失真
将采样样本的幅度按照量化级别决定其取值的过程。目的是
将采样样本的幅度值离散化。
量化之前需要规定量化级,比如8级,16级,256级等。
量化是一个对一的映射。
例如:画图软件的颜色级别
为什么感知很重要?
失真评价的基础
3:编码与压缩
编码
用相应位数的二进制代码表示量化后的采样样本的
量级。
如果有N个量化级为,那么对应的二进制位数就为
2N。当N=16,二进制需要4位。
经过编码之后,每个样本都表示为相应的二进制代
码。
脉冲编码调制(, ),完成模拟信号的数字化
为什么需要数据压缩?
压缩编码的理论基本原理
从信息论的角度来看,压缩就是去掉信息中的冗余,
即保留不确定的信息,去除确定的信息(可推知的)
,也就是用一种更接近信息本质的描述来代替原有
冗余的描述。
信息冗余的例子
你的朋友,,将于明天晚上6点零5分在上海的虹桥
机场接你。
(23*2+10=56个半角字符)
你的朋友将于明天晚上 6点零5分在虹桥机场接你。
(20*2+3=43个半角字符)
将于明晚6点在虹桥接你。
(10*2+7=27个半角字符)
结论:只要接收端不会产生误解,就可以减少承载
信息的数据量。
多媒体领域中的冗余分类
统计冗余
空间冗余——规则物体的物理相关性
时间冗余——视频与动画画面间以及音
频帧间的相关性
信息熵冗余
编码冗余——数据与携带的信息
结构冗余
纹理冗余——规则纹理、相互重叠的结
构表面
视/听觉冗余
视觉、听觉敏感度和非线性感觉
知识冗余
凭借经验识别
1011 0001 11001011 0001 1100
1011 0001 11001011 0001 1100
0101 1010 10100101 1010 1010
1011 11001011 1100
0101 1111 10100101 1111 1010
222424色色
2288色色
数据压缩
数据压缩可分成两种类型
无损压缩
有损压缩
无损压缩
指使用压缩后的数据进行重构(或者叫做还原,解
压缩),重构后的数据与原来的数据完全相同
用于要求重构的信号与原始信号完全一致的场合。
一个很常见的例子是磁盘文件的压缩。
有损压缩
指使用压缩后的数据进行重构,重构后的数据与原
来的数据有所不同,但不影响人对原始资料表达的
信息造成误解。
适用于重构信号不一定非要和原始信号完全相同的
场合。
压缩策略
无损压缩( )
哈夫曼编码( )
自适应哈夫曼编码
()
用于
有损压缩( )
, 1, 2
无损+有损( )
2000
数据压缩的性能指标
衡量压缩算法的三个主要性能指标
(1)压缩比;
(2)压缩质量(失真);
(3)压缩与解压缩的速度。
不能兼得时要综合考虑
压缩质量评价
主观评价 :平均意见得分()、五分制(优良中差劣)
客观评价:均方误差、加权均方误差、信噪比、峰值
信噪比(图像)、分段信噪比(音频)、似然比、谱
失真测度
编码方式举例:哈夫曼编码( )
编码属于信息熵编码的方法之一,是根据信源符号出现
概率的分布特性而进行的压缩编码。
也称为最佳编码,平均码长最短。
编码过程:
1. 初始化:将信源符号按频率递减顺序排列,输入L;
2. 重复如下操作直至L中只有1个结点:
(a)从L中取得两个具有最低频率的结点,为它们创建一
个父结点;
(b)将它们的频率和赋给父结点,并将其插入L;
(c) 将树的左右孩子赋符号“0”和“1”,并从L中删除。
哈夫曼编码( )示例
输入: “ ”
频率: 4A, 2H, 2I, 1L, 1O, 1 , 1W
96 (8 * 12 ) 32 :
A
I H
L [space] W O
0 1
0
0 0
0
01
1
1
11
0, 100, 101, 1100, 1101, .
例子:
33
数字媒体标准简介
为什么需要媒体标准?
数字媒体标准是相关技术与产业之基础!
技术基础:采用不同标准的数字媒体,其压缩、编码、传
输、内容分析与检索等技术有所不同
产业基础:五环相扣——技术、专利、标准、产业、应用
例子:全球电视竞争的转折点在2 (1996)
数字媒体领域的主要技术标准
系列: 2/4/7/21
系列:
( )标准( 10918)是和联合提出的通用静态图像压缩国际标
准。
的重要特性
设定压缩参数
在解码速度和图像
质量间均衡
无损压缩
原始
图像
重构
图像
逆向离散
余弦变换
正向离散
余弦变换
量化
逆量化
编码
解码
压缩
图像量化表 编码表
Quality level: 90
File size: 10,582 bytes
Quality level: 50
File size: 5,154 bytes
Quality level: 1
File size: 923 bytes
2000压缩标准
2000( 15444)是的更新换代标准,针对应用和无线通信等领域。
关键技术:以离散小波变换为主的多解析压缩方式
核心算法:
高压缩比:比压缩性能提高30%
与 2000的性能比较
标准 2000
标题 连续色调静态图像的数字压缩编码 新一代静态图像编码标准
日期
压缩比 2-30:1 2-50:1
主要技术
离散余弦变换
扫描
哈夫曼编码
算术编码
离散小波变换
核心算法
编码
空间可扩展编码
应用场合 数字照相
图像视频编辑
数字照相
打印、扫描、移动通信
系列标准
系列标准由国际标准化组织和国
际电工委员会第一联合技术组(
1) 制定的。
视频标准
1:数字电视标准,1992年正式
发布。
2:数字电视标准,1994年成为
国际标准草案。
3:已于1992年7月合并到高清晰
度电视( ,)工作组。
4:多媒体应用标准(1999年发布)。
7:多媒体内容描述接口标准
(2001年发布)。
21:有关多媒体框架的标准(正在
研究)。
:多媒体应用格式标准(正在研究
)。
1
1标准编号11172,标准名称为“用于码率约为时用于数字存储媒体的
动像及伴音的编码”。
1的基本目标
在音像质量上,达到的放像质量
在存储上,可存储在光盘、数字录音带、硬盘等
在传输码流上,为,以为宜
在网络方面,应适应、等多种网络
满足对称和不对称应用
1的基本内容
几种伴音压缩数据和图像数据的复用;
图像的压缩;
伴音的压缩。
1的特点
使用1的压缩算法, 可将一部120分钟长的电影压缩到左右。因此, 它
被广泛地应用于制作。
2
2是1 的扩展。标准编号 13818,标准名称为“运动图像及其伴音信息的通
用编码”。主要内容为:
码率为4-9,最大15;
涵盖1全部内容;
规定数字存储媒体命令和控制扩展协议,用于管理数据流();
先进的声音编码方案;
规定系统解码器实时接口扩展标准,用来适应网络传输;
一致性扩展测试;
先进声音编码标准修正。
2的特点
利用网络提供的3~100的数据传输率,支持具有更高分辨率图象的压缩和
更高的图象质量;
可支持交迭图象序列(每帧图像由两个场组成),支持可伸缩性编码,多
种运动估计方式,提供一个较广的范围改变压缩比;
可以适应不同画面质量、存储容量和带宽的要求,为此定义了不同的功能
档次(,框架),每个档次又分为不同的等级()。
和1主要区别
隔行扫描制式;变换可在帧内,也可在场内。用户可自行选择,亦可自适
应选择。
4
4标准编号14496, 标准名称为“甚低速率视听编码”
1998年11月公布第一版,1999年12月公布了第二版,共分为6个部
分。
目标是低速率下(<64)的视频、音频编码, 更加注重多媒体系统
的交互性和灵活性。
引入了视听对象( ,)
可以是孤立的人,也可是这个人的语音或一段背景音乐等。
具有高效编码、高效存储、高效传播以及可互操作的特性。
4对的操作主要有:采用来表示听觉、视觉或者视听组合内容;生
成复合的;对的数据灵活地多路合成与同步;对进行交互操作等。
4的特点
与1和2相比,4更适于交互视听服务以及远程监控。
设计目标使它具有更广的适应性和可扩展性。
4能以很低的速率基本实现的质量;由于属于一种高比率有损压缩
算法,其图像质量始终无法和的2相比。
举例:4视听场景的说明
由4个复合媒体对
象(人,背景,
家具,音视演示)
组成。
系统定义了一个
场景坐标系, 然后
可以指定组成该
场景的媒体对象
在该坐标系中的
位置,并可设定
用户观察该场景
时所在的坐标位
置,这些位置信
息都会包含在场
景的描述中。
7
7是一种用于信息检索的内容表示的标准。标准编号 15938
7将建立各种类型多媒体信息的标准的描述方法。这种描述与内容关联在一起,
支持对用户感兴趣的材料的快速、高效的检索。
7 的目标是:
规定 a 用来描述各种类型的多媒体信息,
对描述符及其相互关系的预定义结构(称为 )以及用户定义自己的结构的方法
进行标准化,
制定一种用于定义新的 的标准化的语言 ( ),
把描述 (a ) 与内容关联在一起,以便用户快速有效地检索感兴趣的材料,
把描述进行编码表示,以便有效地进行存储和快速访问。
Automatic extraction of
features (or ‘descriptors’) Search engines
44
7
音频标准
音频压缩的主要依据是人耳
朵的听觉特性,利用了“心理声学
模型( )” 。
心理声学模型的一个基本概念:
听觉阈值。低于听觉阈值的声音
信号听不到,因此就可以把这部
分信号去掉。
心理声学模型的另一个概念:听
觉蔽特性。听觉阈值会随听到
的不同频率的声音而发生变化。
音频标准
1 1:子带无损压缩 + 可选的简单掩蔽模型。
1 2:更高级的掩蔽模型。
1 3 (即3):增加了对低比特率的处理。
2 (即4):压缩比更大(15:1-20:1),增加了对立体声的完美再现、比特流
效果音扫描、多媒体控制、降噪等特性。
系列标准
H. 26X 系列标准由国际电联()制定的。
H. 26X 系列标准
:针对在窄带 上实现速率P ×64 的双向声像业务,其
中P = 1~30 。
:针对低比特率视频应用
:和 的 共同成立的联合视频小组 提出,目的是为
视频编码应用提供下一代的解决方案。
Video
Coding
System
Control
Audio
Coding
Data
C
al
l
C
on
tr
ol
Multimedia Multiplex and
Synchronization
Network Interface
Network Adaptation
General protocol stack of H-series audiovisual communication terminal
H. 261是 - T 于1984~1989 年制定的视频编码标准。
针对可视电话和视频会议等业务。
目的:在窄带 上实现速率P ×64 的双向声像业务,其中P = 1~
30 。
只支持两种图像格式(352 ×288 像素) 和(176 ×144 像素) 。
技术特征
帧包括I帧( )和P帧( );
16 ×16 微块的运动补偿、8 ×8 、标量量化、Z - Z 扫描、游程
编码和变长编码的编码结构。
H. 261 是视频编码的一个里程碑,对后续标准有较大的影响。
现有的一系列视频编码标准的编码方法都是基于H. 261 中的混
合编码方法和编码结构。
H. 261的特点
优点:低复杂度
缺点:低压缩比性能、缺乏灵活性
47
H. 263 标准是 - T 于1996年制定的视频编码标准。
针对低比特率(低于64)视频应用;
目标:在许多方面上通过视频编码算法和处理性能的提高,从而
比H. 261 较大地提高编码性能。
H. 263 支持图像的格式有: (128 ×96 像素) 、、、4(704 ×576 像
素) 和16(1408 ×1152 像素) 。
技术特征
使用了半像素运动矢量和重新设计的可变长编码() 表;
更多的帧大小和可选的编码模式;
运动向量预测。
H. 263+: H. 263的修改版本
修改量化模式;
运动向量范围:取决于帧尺寸;
修改半像素插值算法
更多的输入视频格式等。
48
+
H. 264 标准是和 的 共同成立的联合视频小组于2003年公布的视频编码
标准。
目标:为视频编码应用提供下一代的解决方案,提供显著增强的编码
效率,,同时减少H. 263 中一些混乱的可选模式。
标准内容分三个档次:
基本档次实现版本的基本功能;
核心档次用于、;
扩展档次用于。
技术特征
4 ×4 块的整数变换
多参考帧预测
多模式高精度帧间预测
多种帧内预测模式
统一的熵编码等。
H. 264 的特点
有点:更高的压缩比和更好的信道适应性;
缺点:计算复杂度的大大增加。
49
标准
是我国具有独立自主知识产权的视音频编码标准。
标准进展
2002年,数字音视频编解码技术标准()工作组成立。
2006年1月6日,信息产业部批准通过视频部分。
2006年2月,《信息技术 先进音视频编码 第二部分:视
频》国家标准 -2006发布。
2006年3月1日, -2006正式实施。
走向国际
2006年9月,已正式成为国际电联的联络组织,意味着
标准已具备选入标准体系的资格,为的国际化道路打开
了大门。
2007年4月, 在新一代标准框架要求支持的第一个非视
频编码标准就是。
2007年5月,列入 的内容编码标准文件,成为与、
1 并列的选项。
国家标准的构成
部分 国家标准计划号 小组草案()工作组草
案()
最终草案() 标准送审
稿()
国家标准
()
11(系统-广播) 20051304339
12(视频-基准) 20032265339
12(视频-增强) 20032265339
13(音频双声道) 20051305339
13(音频) 20051305339
13(移动) 20051305339
14(一致性测试) 20051306339
15(参考软件) 20051307339
16() 20051308339
17(移动视频) 20051309339
(系统)
(系统)
(文件格式)
(文件格式)
52
视频技术框架
熵编码
逆量化&
反变换
运动补偿
控制
数据
量化变
换因子
运动
数据
帧内/帧间
编码
控制
运动估计
变换/量化
-
输入视频
信号
划分成
16x16的
宏块
帧内预测
环路滤波
输出视
频信号
——创造中国音视频产业跨越机遇
信息论的通信摸式
任何电信通信技术如电话、电报、广播、电视等都遵
循着这一模式
数字媒体的传播模式
55
数字媒体技术应用
数字媒体技术的应用
家庭娱乐
数字影视(有线电视、、地面数字电视)
数字游戏
数字广播
数字广告……
教育培训
视频会议
远程医疗
移动通信
移动多媒体广播、手机电视、移动电视……
……
应用示例1:高清视频
高清播放器高清播放器 高清播放器高清播放器
应用示例2: 手机电视
—嵌入式播放器
可在 和 上运行
支持全屏播放和窗口方式播放。
应用示例3:高清地面广播
应用示例4:数字动漫
数字动漫:艺术与科学的完美结合
小结
数字媒体技术及其应用改变了使用计算机的方
式
数字媒体技术使提供信息、培训和娱乐所需要
的大容量文本、图形、音频和视频的传输成为
可能
对数字媒体内容的使用必须经过版权法的审查,
以维护开发者和使用者的权益。
思考题
数字媒体包括哪几方面的内容,数字媒体传播有
什么特点?
数字技术与数字传播应用有何区别和关系?
试讨论数字媒体在今后社会中会有什么新的应用。
谢 谢
四月-
2110:13:1610:1310
:13四月-21四月-
2110:13
10:1310:13:1
6四月-21四月
-2110:13:16
2021/4/18 10:13:16