第三章 数字音频处理技术
第一节 数字音频基础
一、声学基础:
1、声音的三个物理量:
响度 、音调、音色。
2、室内声场中声能结构:
直达声、早期反射声、混响声。
第一节 数字音频基础
3、模拟音频信号的产生与再生
第一节 数字音频基础
二、音频的数字化
第一节 数字音频基础
三、立体声与三维立体声技术
第一节 数字音频基础
第一节 数字音频基础
四、数字音频的文件格式
1、WAV 波形文件。是非常流行的音频文件格式,占
有磁盘空间较大。
2、是音质最好的音频格式之一,采样率及量化位数较
高。
3、MP1\2\3文件。其中MP3是目前最为流行的音乐文
件格式。
4、VQF文件:雅马哈公司特有的文件格式,压缩后文
件可比MP3小30%~50%,但支持软件不多。所以影响力
不大。
第一节 数字音频基础
5、AIFF文件;音频交换文件格式,可广泛用于
其它类型的计算机平台。
6、RealAudio文件:流媒体文件格式,普遍用于
网络音频传播。
7、WMA文件:微软公司开发的流媒体文件格式,
音质好于MP3。
8、MIDI文件:计算机记录音乐的一种格式,不
能用于语音场合。
第二节 数字音频压缩技术
第二节 数字音频压缩技术
一、数字音频压缩方法分类
1、无损压缩:它利用数据统计冗余进行压缩,
根据信源符号出现概率的分布特性进行压缩编码,
在信源符号与码字之间明确的一一对应关系,但
压缩率受统计冗余度的限制,一般为2:1~5:1。
常用的编码方法为——哈夫曼编码和游程编码。
第二节 数字音频压缩技术
(1)霍夫曼编码
霍夫曼编码是哈夫曼于1952年提出的一种代
码长度不均匀的编码方法。它的基本原理是按信
源符号出现的概率大小进行排序,出现概率大的
分配短码,反之则分配长码。在分配码字时,需
建立一株n阶完全二叉树。哈夫曼编码有时称为
最佳编码,因为当符号的概率都是2的乘方时,
哈夫曼编码中码字的平均长度达到最小的极限。
即信源的熵。霍夫曼编码是消除编码冗余的最常
用技术。
第二节 数字音频压缩技术
假定要对下面这段歌词进行哈夫曼编码,
Because I'm bad,I'm bad—come On
Bad,bad-really,really bad
You know I'm bad,I'm bad-
Bad,bad--really,rea1ly bad
You know I'm bad,I’m bad—Come on, you know
Bad,bad really,really bad
第二节 数字音频压缩技术
第二节 数字音频压缩技术
第二节 数字音频压缩技术
第二节 数字音频压缩技术
结果,采用哈夫曼编码,大约可得到20%左
右的压缩率。编码效率=
第二节 数字音频压缩技术
(2)游程编码
游程编码是一种简单的编码方式,在二值图像
处理中应用较广。普遍用于传真系统中的信号编
码。
游程(行程):指由信源字符或信号样值在数
据流中重复出现的字符串长度。
第二节 数字音频压缩技术
主要方法是将数据中相同的符号串用一个游
程长度(符号数)和一个代表值描述,并分别赋
予不同的码字。
编码方式有定长编码与变长编码两种。
第二节 数字音频压缩技术
第二节 数字音频压缩技术
在对以上图像数据传输时,只要对上述扫描
得到的13对数据编码传输,就可以在接收端恢复
该图像的64个像素的灰度值。
为了达到比较好的数据压缩效果,行程编码常
常与其它一些编码技术结合使用。
第二节 数字音频压缩技术
(3)算术编码
算术编码是一种较好的统计编码,每一符号对
应[0,1]上的一个子空间,区间长度为该符号出
现的概率。该方法将被编码的符号串表示为一个
0和1之间的一个区间。
第二节 数字音频压缩技术
第二节 数字音频压缩技术
2、有损压缩
普通的无损压缩方法对信号的保真度高,但是信
号传输占用带宽较宽,保存占有磁盘空间较大。
所以,压缩技术的发展拓展了数字技术发展的平
台。
第二节 数字音频压缩技术
时域波形编码
时域波形编码音频质量好,但压缩比不大。
基本方法为:
差值量化、自适应预测编码、增量调制等。
差分脉冲编码(DPCM):利用取样值之间的
差值作为编码的依据。从而减少码字。
增量调制(DM):用一个比特的两种状态表
示相邻取样值的增加与减少关系。
第二节 数字音频压缩技术
感知编码:
1、心理声学模型
2、感知编码:用一个随音频信号而定的听力门限和
原有音频进行比较,对于哪些低于门限(人耳无法分辨)
的信号,略过编码或者减少比特位。以降低编码后的总
比特位。
3、频域压缩编码:分为子带编码和变换编码。把音
频信号变换到频域,用心理声学模型中的掩蔽曲线作为
对数据进行压缩的参照,对筛选出来的信息进行编码。
第二节 数字音频压缩技术
音频压缩标准
1、MPEG-1音频标准:属于感知编码类型。它
规定了三个不同层次的编码方案。Ⅰ、Ⅱ层建立
在掩蔽模式通用子带和多路复用编码算法的基础
之上。
Ⅲ层次编码复杂程度较大,应用于目前常见的
MP3音频文件编码。
2、 MPEG-2音频标准:经历了三个阶段,前两个
阶段增加了低取样频率的应用,同时增加了单声
道、双声道立体声、声道立体声应用。有向
后兼容的特点。第三阶段支持多声道应用,不向
后兼容。
第二节 数字音频压缩技术
MPEG-4 标准
MPEG-4研究的目的是解决低比特率下的多媒体窄宽
传输、高画质压缩、交互性操作以及如何将自然物体与
人造物体相溶合的表达方式,并特别强调广泛的适应性
和可扩展性。
MPEG-4音频结构包括:传统的音频编码标准;独特
的音频结构;合成/自然混合编码方法。从而解决了高质
量音频在窄带中传输的问题。
第二节 数字音频压缩技术
Dolby AC-3音频标准
是一款由杜比实验室开发的数字式多声道环绕式立体
声系统。系统由 “左声道”、“中置声道”、“右声道
”、后置的“左环绕声道”和“右环绕声道”五个全频
域声道加一个超低音声道(频率响应为3-120Hz )组成。
前置的左、右音箱,中置音箱产生极有深度感和定位明
确的音场,两个后置或侧置的环绕音箱和超低音箱表现
宽广壮阔的音场,全频段的细节十分丰富,具有真正的
立体声。
第三节 计算机音乐
1、数字式电子合成器
模拟电子合成器是用电子元件制成信号发生器
来产生声音信号中的各种频率成分。而数字式电
子合成器则是由数字方法造成波形然后转换为声
音信息。
第三节 计算机音乐
第三节 计算机音乐
2、MIDI(乐器数字接口)
通过电缆将电子音乐设备(MIDI键盘)与计算机连
接起来,与相关软件相配合进行电脑作曲。
1、MIDI输入单元(硬件设备):输入作曲旋律。
2、编辑控制单元(计算机软件):记录相关信息
3、音源单元(音乐合成器):合成音乐。
第三节 计算机音乐
MIDI键盘
MIDI链接电缆
声卡的MIDI接口和游
戏杆接口是共用的。
第三节 计算机音乐
第三节 计算机音乐
3、数字音频工作站
(1) 数字音频工作站是一种集中多种音频处
理工具,以计算机软硬件平台为主的数字音频制
作系统。
第三节 计算机音乐
(2)数字音频工作站的功能
• 具有专业要求的声音录入和声音播放。
• 具备录音、放音、与音乐合成功能。
• 方便快捷的音乐剪辑功能。
• 具备数字效果处理功能。
第三节 计算机音乐
Pocketstudio 5 是一方便移动的
4轨数字录音机,使用Flash卡用
作存储载体。除了它的四个音频
轨用于人声,吉他以及其它乐器
外,Pocketstudio 5 还带有一个
内置的MIDI音源,因此它也可以
被用作音序播放器,而且四音轨
可同时播放。它本身自带100首标
准的MIDI文件,插上卡就可以享
受多种背景音乐风格!另外,它
还 增加了超过100种自带的效果。
第三节 计算机音乐
罗兰 VS-2480通道数字音频工作站
VS-2480也是一个集录音机
调音台,和效果器于一体的
产品。具有24轨同时播放,
24比特AD/DA转换,96KHZ采
样频率,17个电动推子,LCD
液晶显示屏。
更令人振奋的是,VS-2480
可以象电脑那样操作,
第四节 数字语音处理技术
1、语音合成
语音合成最基本的目的是让机器模仿人类的语言发声
来传送信息。例如:常见的自动化语音服务系统。
(1)波形编码语音合成:以语句、短句、词和音节为合
成单元,这些单元被分别录音后,直接进行数字编码,
经适当数据压缩后组成数字语音库。重放时,根据待输
出的信息,在语音库中取出相应单元的波形数据,串接
或编辑在一起,经解码还原出声音。
第四节 数字语音处理技术
(2) 基音同步叠加法(PSOLA),在拼接语音波形片
断之前,根据上下文要求,对拼接单元的韵律特征进行
调整,使合成波形既保持原有的音段特征,又能使拼接
单元韵律特征符合上下文要求。
Sonic文——语转换系统:这是清华大学计算机系基
于波形编辑的汉语文语转换系统。该系统利用汉语词库
进行分词,并且根据语音学研究的成果建立了语音规则,
对汉语中的某些常见语音现象进行了处理。系统采用
PSOLA算法修改超音段语音特征,提高了言语输出的质
量。
第四节 数字语音处理技术
(3)参数语音分析合成
按照语言理论,对所有合成单元的语音进行分析,一
帧一帧地提取有关语音参数,以音节、半音节或音素为
合成单元,组成一个合成语音库,输出时,根据带合成
的语音信息,从语音库中提取相关信息进行合成。
3、规则语音合成
除提取有关语音参数外,在存储语音组成规则。语音
合成过程较复杂。音质一般。
第四节 数字语音处理技术
(4)文——语转换系
统
以文字串为语音合
成对象,对文字进行
正确理解后调用语音
库数据进行语音合成。
是一个语义、语音转
换的人工智能系统。
第四节 数字语音处理技术
2、语音增强
主要目的是消除原有语音中的噪声。
(1)噪声对消法
(2)谐波增强法
(3)基于参数估计的语音合成法。
第四节 数字语音处理技术
3、语音识别
语音识别技术集声学、语音学、计算机、信息
处理和人工智能等诸多领域的一项综合技术。是
多媒体领域目前研究的热点。目的是让机器能听
懂人的语言
第四节 数字语音处理技术
4、汉语语音识别
(1)汉语与其它语言有着截然不同的特点:
以字为最小语音单位,而且每一个汉字的发音对
应与一个音节,在常用的6000多个汉字中,全部
语音音节只有1281个,如果不考虑声调中的四声,
汉语无调音节只有412个。所以,以音节作为语
音合成的基本单位,历来是汉语语音合成的常用
方法。
第四节 数字语音处理技术
(2)语音特征参数的提取
• LPC倒谱系数分析法。
• Mel倒谱系数感知线性预测。
• 小波变换系数分析法
(3)模式识别匹配
◆动态时间规整技术 ◆隐马尔科夫模型技术
◆人工神经网络技术 ◆混合型模式匹配技术
◆自适应鲁棒性