多媒体技术
多媒体信息处理
( Multimedia Computing )
×××××
多媒体技术
内 容
0 Space of Multimedia Computing
1 Media and Multimedia
2 Media Processing
Media Food(Value) Chain
Digital Item Declaration
Multimedia Content Representation(coding)
Digital Item Identification and Description
Content Management and Usage
3 Networked Multimedia Applications
多媒体技术
•以文本为主
•以音频为主
•以视(音)频为主
离散媒体:
text, image,…
连续媒体:
audio, video, ...
0 多媒体信息处理空间
媒体处理
媒体类型
单
媒
体
复
合
媒
体
应用模式
单机应
用模式
网络应
用模式
获
取
(创
建
)
编
辑
管
理
传
输
检
索
描
述
展
现
说
明
编
码
多媒体技术
多媒体信息处理的总目标
• To enable transparent and augmented use of
multimedia resources across a wide range of
networks and devices.
• 使能跨越各种不同网络和设备, 透明地、
强化地使用多媒体资源。
多媒体技术
1 Media and Multimedia
多媒体技术
计算机与媒体
• 媒体又称媒介、媒质,指的是用于表示、存
储、分发、传输和展现数据(信息) 的手段、
方法、工具、设备或装置。
( In general, one describes medium as a means
for representation, storage, distribution,
transmission and presentation of data. )
多媒体技术
计算机与媒体
CPU OutputDevice
Storage
Input
Device
表示媒体
存储媒体
展现媒体展现媒体
感觉
媒体
感觉
媒体
表示媒体
传输
媒体
多媒体技术
感觉媒体与表示媒体
• 感觉媒体是人与人、人与计算机交换信
息所使用的媒体;
• 表示媒体是计算机内部、计算机与计算
机之间交换信息所使用的媒体;
• 多媒体技术所指的媒体是:感觉媒体及
其相应的表示媒体。
多媒体技术
感觉媒体 表示媒体举例
视觉媒体
文字
景象
听觉媒体
语言
声音
触觉媒体
嗅觉媒体
味觉媒体
力,运动,温
度
气味
滋味
声音
景象
类 型 名 称 分类 时间属性/空间属性/生成属性
图象(image)
图形(graphics)
文本(text)
视频(video)
动画(animation)
合成语音
MIDI音乐(MIDI)
MP3音乐
波形声音(wave)
多媒体技术
表示媒体的时间属性
• time-independent ( discrete ) media(离散
媒体,值不会随着时间而变化)
– text , graphics , static image, ….
• time-dependent ( continuous ) media (连续
媒体,值随着时间而变化)
– speech , music , video , animation, ….
多媒体技术
表示媒体的空间属性
• 1D媒体
– 单声道speech , music ,
• 2D媒体
– 双声道music ; text , image , 2D graphics ,
• 3D及多维媒体
– 3D graphics , 全景图像 , 空间立体声music ,
多媒体技术
表示媒体的生成属性
• 自然媒体(使用数字化方法从现实世界获
取的媒体)
– 取样声音 , image , video
• 合成媒体(使用计算机创建的媒体)
– 合成语音, MIDI , graphics , animation
多媒体技术
多媒体系统中听觉媒体的分类
来源 机外形式 空间属性 媒体名称
语言 1D 波形语音
语言 多维 多声道波形语音
非语言 1D 波形声音
非语言 多维 双声道/3D立体声
语言 1D 合成语音
语言 多维 多声道合成语音
音乐 1D 合成音乐(MIDI音乐)
音乐 多维 多声道合成音乐
自
然
媒
体
合
成
媒
体
多媒体技术
多媒体系统中视觉媒体的分类
来源 机外形式 时间 空间属性 媒体名称
文字 静止 2D 取样文本
图画 静止 2D 取样图像(image)
图画 静止 3D 全景图像
图画 活动 2D 视频(video)
图画 活动 3D 临境视频
文字 静止 2D 编码文本(简称文本)
图画 静止 2D 二维图形
图画 静止 3D 三维图形
图画 活动 2D 二维动画
图画 活动 3D 三维动画
自
然
媒
体
合
成
媒
体
多媒体技术
自然媒体与合成媒体的区别
自然媒体 合成媒体
来源 获取 创建
表示方法 取样表示 符号表示
表现能力 真实感强 真实感有限
可编辑性 有限 全部
存储 数据量很大 数据量很小
检索 困难 容易
传输 要求高 要求低
展现 处理容易 处理复杂
多媒体技术
多媒体
多媒体强调的是使用多种媒体、综合表达
信息内容并进行交互式处理的技术。从本质
上来说,它具有三种最重要的特性:
1 媒体的多样性,其中至少有一种连续媒体;
2 媒体的集成性(综合性),多种不同媒体综合地
表现某个内容,取得更好的效果;
3 处理的交互性,使人们获取和使用信息的过程中
具有细粒度的控制和操纵能力。
多媒体技术
多媒体是信息技术发展的必然趋势
计算机 通 信 大众传媒
数值计算
数据处理
图形、图象处理
声音处理
视频处理
邮 政
电 报
电 话
传 真
数据通信
综合业务
(N-ISDN)多媒体
书,刊,报纸
广 播
电 影
电 视
光盘出版物
交互电视
网络出版
支持宽带综合业务的数据通信网络
信息技术走向汇聚和融合
多媒体技术
2 Media Processing
多媒体技术
媒体食物(价值)链
多媒体技术
媒体处理内容
• 对媒体进行的各种处理:
– 媒体准备(media preparation)
• 媒体获取/媒体创建
– 媒体编辑(media editing)
– 媒体集成/组合(media integration / composition)
• 结构描述、特征描述、应用描述….
– 媒体通信/发送(media communication / delivery)
– 媒体消费(media consumption)
• 媒体转换(码),展现, 浏览, 检索,…..
多媒体技术
媒体食物(价值)链
多媒体作
品(文档)
媒体
集成
媒体
编辑
媒体
准备
媒体
编辑
媒体
准备
媒体
编辑
媒体
准备
媒体
编辑
媒体
准备
网络
媒体通信
媒体消费
文本
图像
音频
视频
内容
(conten
t)
媒体
展现
媒体消费
媒
体
展
现
数字项
(digital
item)
多媒体技术
多媒体(内容)处理的7要素
1 数字项目说明(Digital Item Declaration)
2 内容表示(Content Representation)
3 数字项目的标识与描述(Digital Item Identification
and Description)
4 内容管理与使用(Content Management and Usage)
5 知识产权管理与保护 (Inte11ectual Property
Management and Protection)
6 内容发送与终端及网络(Terminals and Networks)
7 事件报告(Event Reporting)。
多媒体技术
Digital Item Declaration
多媒体技术
Goal
• Establish a uniform and flexible abstraction
and interoperable schema for defining
digital items.
• 为定义数字项而建立一个统一、灵活的
抽象表示和可互操作的模式。
多媒体技术
Digital Item Declaration的需求1
· Digital items are open and extensible to any and all
media resources types and description schemes.数字项是
开放的,可扩展到所有媒体资源类型和描述模式.
· Composite items can be constructed from other items,
without losing the structure and properties of the sub-
items. 复合项由子项组合而成,子项的结构和性质不丢失.
· Multiple composite items may share individual
elements.多个复合项可以共享单个元素.
多媒体技术
Digital Item Declaration的需求
· An individual element may be referenced by multiple
locations within a digital item. 一个元素可以被数字项中的
多个地方引用.
· To enable applications to correctly manipulate and
validate digital items.能使应用程序正确操纵和验证数字项.
· Identification and revision of digital items and their
components must be supportable in an open and
extensible manner.对数字项及其组件的标识和修改必须以
开放和可扩展的方式进行.
多媒体技术
Digital Item Declaration的需求2
• Digital items explicitly define the relationships between
elements and their corresponding descriptors.数字项对其
元素与相应描述符之间的关系显式地进行定义
· Descriptors may be simple statements or full media components.描
述符可以是简单语句也可以是整个媒体组件
· Descriptors can be described by other descriptors.描述符也可以由
其它描述符描述
· Anchors must be declarable within a component that allow:
· descriptors to be associated with a specific point or range within a
media resource.
· linking back from within a media resource to the anchor.
· 锚(anchor)必须在一个组件中予以说明,从而允许描述符与
媒体资源中的一个指定点或指定范围相关联,也允许从媒体
资源反向链接到锚。
多媒体技术
Current Situation
• 目前还没有数字项的标准模型或表示方法:
– 没有一种能适合任何场合中说明各种各样内
容的通用的、灵活的、可以互操作的解决方
案,
– 也没有一个能将任何种类媒体资源同各种类
型媒体描述信息链接在一起的统一的方法。
• 由于数字项的概念是建立在显式地描述媒体数
据与描述数据之间关系的想法之上,这就严重
限制了标准模型或表示的存在。
多媒体技术
举例: MPEG-4的场景说明
• MPEG-4 视听场景(audiovisual scenes) 是由若干媒体
对象(media objects)以层次方式组合而成的,最低层的
称为初级(primitive) 媒体对象, 如:
• still images (. as a fixed background),
• video objects (. a talking person - without the background)
• audio objects (. the voice associated with that person);
• text and graphics;
• talking synthetic heads and associated text used to synthesize
the speech and animate the head;
• synthetic sound
• 初级媒体对象既可以是自然媒体,也可以是合成媒体,
既可以是 2维的,也可以是3维的。
多媒体技术
MPEG-4的场景说明
• MPEG-4视听场景的描述可以看作一棵树, 叶节点是初级媒
体对象 , 中间节点是复合媒体对象( compound media
objects),根节点则为场景。使用这种方法, 内容提供商
(作者)可以构造出相当复杂的场景, 例如:
place media objects anywhere in a given coordinate system;
apply transforms to change the geometrical or acoustical appearance of a
media object;
group primitive media objects in order to form compound media objects;
apply streamed data to media objects, in order to modify their attributes
(. a sound, a moving texture belonging to an object; animation
parameters driving a synthetic face);
change, interactively, the user’s viewing and listening points anywhere
in the scene.
多媒体技术
视听场景的说明
1 对象是如何组合在一起的。MPEG-4的场景的组织呈树状结构,它
是一个无回路的有向图,图中每个节点代表一个媒体对象。树的
结构未必是不变的,当增加节点、删除节点或替换节点时,节点
的属性(如位置参数)就会发生修改。
2 对象的空间和时间定位。MPEG-4中,每一个视听对象都有其空间
和时间范围, 有自己的局部坐标系。局部坐标系是用作在空间和
时间范围内操纵该媒体对象的手柄(handle) ,通过指定一个将
对象从局部坐标系变换到全局坐标系的坐标变换,可以将媒体对
象放置在场景中规定位置处。
3属性值选择。单个的媒体对象和场景描述节点向组合层
(composition layer)提供了一组参数,从而使它们的部分行为可
以进行控制。例如: 声音的音调,合成对象的颜色,可分级编码
的增强信息的起用和停止等。
多媒体技术
Multimedia Content
Representation(coding)
多媒体技术
Rationale (基本原理)
• Content 是多媒体技术框架中最重要的要素, 它
需要进行编码、标识、描述、存储、分发、保
护、交易、消费等等。
• 它以满足一组需求的数字编码方式表示,数字
内容的有效表示将会允许开展许多新的服务.
多媒体技术
Requirements 1
· Data Types – it shall be possible to represent a large range
of data types, both with natural and synthetic origin, as
well as any combination of these data types, . still
pictures, frame-based as well as arbitrarily shaped video,
specific and generic 3D models, graphics, text, natural and
synthetic audio, natural and synthetic speech, etc.
· 数据类型:应能够表示各种不同的数据类型,包括自
然的和合成的,也包括两者的组合。如:静止图像,其
于帧的视频,任意形状的视频,专用的和通用的3D模型,
图形,文本,自然声音和合成声音,自然语音和合成语音
等。
多媒体技术
Requirements 2
· Content Variety – it shall be possible to
represent any type of content for all the data
types considered.
· 内容种类:上述所有数据类型应能表示
任何种类的内容。
多媒体技术
Requirements 3
· Efficiency – it shall be possible to represent content for
each of the data types above mentioned in the most bit
efficient way for different target qualities; for a multimedia
scene composed as a combination of various elements of
the data types mentioned above, it shall be possible to
selectively choose the coding efficiency/quality for each
one of them.
· 有效性:根据不同的目标质量,上述每一种数据类型
都使用最有效的数据位来表示内容。对于由不同数据
类型的多种元素组成的多媒体场景,应能对每个元素
选择其编码的效率/质量。
多媒体技术
Requirements 4
· Scalability – it shall be possible to represent all
the elements in the multimedia scene in a scalable
way and with a fine granularity in the dimensions
considered relevant, . spatial, temporal, quality.
· 可分级性:应能以一种可分级的方法来表示多
媒体场景中的所有元素,且在所考虑的相关维
度如时间、空间、质量上是细粒度可分级的。
多媒体技术
Requirements 5
· Random Access – it shall be possible to randomly access,
within a limited time and with fine resolution, at all
scalable layers, all elements in the multimedia scene; for a
multimedia scene composed as a combination of various
elements of the data types mentioned above, it shall be
possible to randomly access each one of them.
· 随机存取:在一定时间内,以比较精细的分辨率,在
所有可分级的层次中,对多媒体场景中的所有元素可
以进行随机存取;对于由不同数据类型元素组成的多
媒体场景,应能随机存取场景中的每一个元素。
多媒体技术
Requirements 6
· Error Resilience – it shall be possible to
selectively protect the various elements in a
multimedia scene against channel errors with
relevant error patterns, . mobile networks,
ATM networks or storage media.
· 出错恢复:对多媒体场景中的各种元素,应能
有选择地进行保护,以免受到通道错误的影响,
如移动网络、 ATM网络或存储介质错误等。
多媒体技术
Requirements 7
· Interaction – it shall be possible to interact with the
various elements in the multimedia scene, with a fine
granularity, both in space and time; for a multimedia
scene composed as a combination of various elements
of the data types mentioned above, it shall be possible
to independently interact with each one of them.
· 交互:无论是时间和空间,应能以细粒度方式与
多媒体场景中的各种元素进行交互;对于由不同
数据类型元素组成的多媒体场景,应能单独同其
中的每个元素进行交互。
多媒体技术
Requirements 8
· Synchronization – it shall be possible to
synchronize all the elements in the
multimedia scene as well as other relevant
data.
· 同步:应能对多媒体场景中所有元素以
及其它相关数据进行同步。
多媒体技术
Requirements 9
· Multiplexing – it shall be possible to
multiplex the coded data corresponding to
the various elements in the multimedia
scene as well as other relevant data.
· 复用:应能对多媒体场景中不同元素的
编码数据以及其它相关数据进行复用。
多媒体技术
Current Situation
• 编码问题已研究了很多年,已经有了很多有名的标准,涉及许多种
媒体, 满足了不同类型的需求. 例如:
– still pictures: JPEG, JPEG-LS and JPEG2000
– frame-based video: , , MPEG-1 and MPEG-2 Video
– object-based pictures and video: MPEG-4 Visual.
– audio: MPEG-1, MPEG-2 and MPEG-4 Audio,
– speech: , and MPEG-4 Audio.
– synthetic visual content, VRML and MPEG-4
– synthetic audio content , MIDI and MPEG-4 Audio.
• 尽管这些标准在满足相关需求方面已相当完整,但现有标准并不
完全满足某些需求。
谢 谢
二月-
2313:40:5613:4013
:40二月-23二月-
2313:40
13:4013:40:5
6二月-23二月
-2313:40:56
2023/2/3 13:40:56