多媒体计算机技术
鲁宏伟
luhw@@
第四讲 数字语音处理技术
数字音频压缩技术数字音频压缩技术
三维音效三维音效
语音识别语音识别
自然语言理解自然语言理解
语音合成语音合成
数字音频压缩技术
音频压缩技术指的是对原始数字音频信号
流(PCM编码)运用适当的数字信号处理
技术,在不损失有用信息量,或所引入损
失可忽略的条件下,降低(压缩)其码率,
也称为压缩编码。
它必须具有相应的逆变换,称为解压缩或
解码。
音频信号在通过一个编解码系统后可能引
入大量的噪声和一定的失真。
数字音频压缩技术
音频压缩算法的分类
时域压缩算法
子带编码
MP3音频压缩编码
音频压缩算法的分类
一般来讲,可以将音频压缩技术分为无损
(lossless)压缩及有损(lossy)压缩两大
类,而按照压缩方案的不同,又可将其划
分为时域压缩、变换压缩、子带压缩,以
及多种技术相互融合的混合压缩等等。
时域压缩(或称为波形编码)时域压缩(或称为波形编码)
子带压缩技术子带压缩技术
变换压缩技术变换压缩技术
数字音频压缩技术
音频压缩算法的分类
时域压缩算法
子带编码
MP3音频压缩编码
时域压缩算法
时域压缩技术一般多用于语音压缩、低码率应用时域压缩技术一般多用于语音压缩、低码率应用
(源信号带宽小)的场合。时域压缩技术主要包(源信号带宽小)的场合。时域压缩技术主要包
括括PCMPCM、、ADPCMADPCM、、LPCLPC、、CELPCELP,以及在这些技,以及在这些技
术上发展起来的块压扩技术。术上发展起来的块压扩技术。
脉冲编码调制脉冲编码调制(PCM)(PCM)
增量调制增量调制
连续可变斜率增量调制(连续可变斜率增量调制(CVSDCVSD))
自适应差分脉冲编码调制自适应差分脉冲编码调制 ((ADPCMADPCM))
数字电路倍增设备数字电路倍增设备——自适应差分脉冲编码调制自适应差分脉冲编码调制
时域压缩算法
嵌入式自适应差分脉冲编码调制(嵌入式自适应差分脉冲编码调制(E-ADPCM E-ADPCM ))
线性预测编码(线性预测编码(LPCLPC))
残差激励线性预测编码(残差激励线性预测编码(RELPRELP))
码激励线性预测编码(码激励线性预测编码(CELPCELP))
低时延码激励线性预测编码(低时延码激励线性预测编码(LD-CELPLD-CELP))
矢量和激励线性预测编码(矢量和激励线性预测编码(VSELP VSELP ))
代数码本激励线性预测编码代数码本激励线性预测编码(ACELP ) (ACELP )
共扼结构共扼结构——代数码激励线性预测编码(代数码激励线性预测编码(CS-ACELPCS-ACELP))
规则脉冲激励规则脉冲激励——长时预测长时预测——线性预测编码(线性预测编码(RPE-LTP-RPE-LTP-
LPCLPC))
脉冲编码调制
声音数字化有两个步声音数字化有两个步
骤:第一步是采样,就是骤:第一步是采样,就是
每隔一段时间间隔读一次每隔一段时间间隔读一次
声音的幅度;第二步是量声音的幅度;第二步是量
化,就是把采样得到的声化,就是把采样得到的声
音信号幅度转换成数字值。音信号幅度转换成数字值。
量化有好几种方法,但可归纳成两类:一类称为
均匀量化,另一类称为非均匀量化。如果采用相等的
量化间隔对采样得到的信号作量化,那么这种量化称
为均匀量化。均匀量化就是采用相同的“等分尺”来度
量采样得到的幅度,也称为线性量化。这种方法称为
脉冲编码调制,用PCM表示。
非线性量化
非线性量化的基本想法是,对输入信号进行量化时,非线性量化的基本想法是,对输入信号进行量化时,
大的输入信号采用大的量化间隔,小的输入信号采用小大的输入信号采用大的量化间隔,小的输入信号采用小
的量化间隔。的量化间隔。
在非线性量化中,采样输入信号幅度和量化输出数据在非线性量化中,采样输入信号幅度和量化输出数据
之间定义了两种对应关系,一种称为之间定义了两种对应关系,一种称为mm律压律压((缩缩))扩扩((展展))
算法算法,另一种称为,另一种称为AA律压律压((缩缩))扩扩((展展))算法算法。。
m律压(缩)扩(展)算法
m律压扩用在北美和日本等地区的数字电话通
信中,按下面的式子确定量化输入和输出的
关系:
式中:x为输入信号幅度,规格化成-1 x
1; sgn(x)为x的极性;m为确定压缩量的参数,
它反映最大量化间隔和最小量化间隔之比,
取100m500。
A律压(缩)扩(展)算法
AA律律(A-Law)(A-Law)压压扩扩用用在在欧欧洲洲和和中中国国大大陆陆等等地地区区的的数数字字
电电话话通通信信中中,,按按下下面面的的式式子子确确定定量量化化输输入入和和输输出出的的
关系:关系:
式中:式中:xx为输入信号幅度,规格化成为输入信号幅度,规格化成-1-1xx11,,
sgn(sgn(xx))为为xx的极性;的极性;AA为确定压缩量的参数,它反映为确定压缩量的参数,它反映
最大量化间隔和最小量化间隔之比。最大量化间隔和最小量化间隔之比。
增量调制
增量调制DM(Delta Modulation)是一种预测
编码技术。
DM是对实际的采样信号与预测的采样信号
之差的极性进行编码,将极性变成“0”和
“1”这两种可能的取值之一。如果实际的
采样信号与预测的采样信号之差的极性为
“正”,则用“1”表示;相反则用“0”
表示。
由于DM编码只须用1比特对信号进行编码,
所以DM编码系统又称为“1比特系统”。
DM波形编码的原理图
其其中中x[i]x[i]表表示示在在ii点点的的编编码码输输出出,, yyii表表示示输输入入信信号号的的实实际际值值,,
y[i]y[i]表表示示输输入入信信号号的的预预测测值值。。假假设设采采用用均均匀匀量量化化,,量量化化阶阶的的
大大小小为为△△,,在在开开始始位位置置的的输输入入信信号号yy00=0=0,,预预测测值值y[0]=0y[0]=0,,
编码输出编码输出x[0]x[0]==1 1
增量调制的缺点
一是会出现一是会出现斜率过载斜率过载,即增量调制器的输出不能,即增量调制器的输出不能
保持跟踪输入信号的快速变化保持跟踪输入信号的快速变化
二是会产生二是会产生粒状噪声粒状噪声。反馈回路输出信号的最大。反馈回路输出信号的最大
变化速率受到量化阶大小的限制,因为量化阶的变化速率受到量化阶大小的限制,因为量化阶的
大小是固定的。大小是固定的。
解决方法:解决方法:自适应增量调制自适应增量调制。。根据输入信号斜率根据输入信号斜率
的变化自动调整量化阶的变化自动调整量化阶ΔΔ的大小,以使斜率过载和的大小,以使斜率过载和
粒状噪声都减到最小。许多研究人员研究了各种粒状噪声都减到最小。许多研究人员研究了各种
各样的方法,而且几乎所有的方法基本上都是在各样的方法,而且几乎所有的方法基本上都是在
检测到斜率过载时开始增大量化阶检测到斜率过载时开始增大量化阶ΔΔ,而在输入信,而在输入信
号的斜率减小时降低量化阶号的斜率减小时降低量化阶ΔΔ。。
自适应差分脉冲编码调制
ADPCMADPCM编码的方法是对输入样值进行自适应预测,编码的方法是对输入样值进行自适应预测,
然后对预测误差进行量化编码。它是一种预测编然后对预测误差进行量化编码。它是一种预测编
码的方法。码的方法。
所谓预测编码,是指编码的对象不是原始信号的所谓预测编码,是指编码的对象不是原始信号的
采样量化值,而是对当前采样值与预测值(根据采样量化值,而是对当前采样值与预测值(根据
前若干个采样值采用一定的预测方法产生的输入前若干个采样值采用一定的预测方法产生的输入
信号)的差值进行编码。如果采用的预测方法足信号)的差值进行编码。如果采用的预测方法足
够准确(差值将接近于零),可以预见,这种编够准确(差值将接近于零),可以预见,这种编
码方法比直接对样本值进行编码可以采用较少的码方法比直接对样本值进行编码可以采用较少的
比特数。比特数。
CCITTCCITT的的32kbit/s32kbit/s语音编码标准语音编码标准采用采用ADPCMADPCM
编码方式,每个语音样值相当于用编码方式,每个语音样值相当于用4bit4bit进行编码。进行编码。
自适应差分
脉冲编码调制
它的核心想法是:它的核心想法是:①①利用自适应的思想改变量化阶的大小,利用自适应的思想改变量化阶的大小,即即
使用小的量化阶使用小的量化阶(step-size)(step-size)去编码小的差值,使用大的量化去编码小的差值,使用大的量化
阶去编码大的差值阶去编码大的差值 ;;②②使用过去的样本值估算下一个输入样使用过去的样本值估算下一个输入样
本的预测值,使实际样本值和预测值之间的差值总是最小。本的预测值,使实际样本值和预测值之间的差值总是最小。
数字电路倍增设备—自适应差分脉冲编码调制
DCME-ADPCM是CCITT 语音编码标
准算法
这种算法可以在40kbit/s、32kbit/s和24kbit/s
三种速率中动态调整,以达到在给定的信
道中增加容量的目的
线性预测编码
LPC(Linear Predictive Coding)LPC(Linear Predictive Coding)语音编码是最基本的语音编码是最基本的
低速率语音编码方法,低速率语音编码方法,LPCLPC语音编码的基础是语语音编码的基础是语
音产生模型,在这个模型中,语音是由激励信号音产生模型,在这个模型中,语音是由激励信号
激励一个自适应滤波器(即激励一个自适应滤波器(即LPCLPC滤波器)而产生。滤波器)而产生。
LPCLPC滤波器的参数是通过线性预测的方法,即用滤波器的参数是通过线性预测的方法,即用
过去的样值预测当前样值提取的。过去的样值预测当前样值提取的。
美国联邦标准美国联邦标准FS1015FS1015的的//sLPC-10sLPC-10和和LPC-LPC-
10e10e就是就是LPCLPC语音编码的典型例子,主要用于电话语音编码的典型例子,主要用于电话
线上的窄带语音保密通信。线上的窄带语音保密通信。
低时延码激励线性预测编码
LD-CELP是CCITT 语音编码标准算法,
其输出速率为16kbit/s。
这种方法在CELP算法的基础上,采用后向
自适应线性预测、50阶合成滤波、短激励
矢量(5个样值)等改进方法,从而达到高
质量和低时延的目的,总的编码时延小于
2ms。
代数码本激励线性预测编码
极低速率可视电话标准中语音编码标
准是,采用/s和/s
两种速率,其中/s速率就是以
ACELP算法为基础。
共扼结构—代数码激励线性预测编码
CS-ACELP编码算法被ITU-T的8kbit/s语音
编码标准采用
规则脉冲激励—长时预测—线性预测编码
这种算法是欧洲900MHz数字蜂窝移动电话
的语音编码标准(GSM),也为数字蜂窝
系统DCS1800所采用。
RPE-LTP-LPC算法是MPE-LPC的改进算法,
除了增加长时预测功能外,激励脉冲的位
置具有一定的规律。
数字音频压缩技术
音频压缩算法的分类
时域压缩算法
子带编码
MP3音频压缩编码
子带编码
子带编码子带编码SBC(SBC(ssububbband and ccoding)oding)的基本思想是,首先使用一组带通滤的基本思想是,首先使用一组带通滤
波器波器BPF(BPF(bband-and-ppass ass ffilter)ilter)把输入音频信号的频带分成若干个连续的把输入音频信号的频带分成若干个连续的
频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码
方案去编码。在信道上传送时,将每个子带的代码复合起来。在接收方案去编码。在信道上传送时,将每个子带的代码复合起来。在接收
端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原
成原来的音频信号。成原来的音频信号。
采用对每个子带分别编码的好处有二个。第一,对每个子带信号分别采用对每个子带分别编码的好处有二个。第一,对每个子带信号分别
进行自适应控制,量化阶的大小进行自适应控制,量化阶的大小(quantization step)(quantization step)可以按照每个子可以按照每个子
带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量
化,以减少总的量化噪声。第二,可根据每个子带信号在感觉上的重化,以减少总的量化噪声。第二,可根据每个子带信号在感觉上的重
要性,对每个子带分配不同的比特数,用来表示每个样本值。例如,要性,对每个子带分配不同的比特数,用来表示每个样本值。例如,
在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化
阶、较多的量化级数,即分配较多的比特数来表示样本值。而话音中阶、较多的量化级数,即分配较多的比特数来表示样本值。而话音中
的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少
的比特数。的比特数。
子带编码方块图
子带编码
对每个子带分别编码的好处是:
可以利用人耳(或人眼)对不同频率信号的感可以利用人耳(或人眼)对不同频率信号的感
知灵敏度不同的特性,在人的听觉(或视觉)知灵敏度不同的特性,在人的听觉(或视觉)
不敏感的频段采用较粗糙的量化,从而达到数不敏感的频段采用较粗糙的量化,从而达到数
据压缩的目的。据压缩的目的。
各个子带的量化噪声都束缚在本子带内,这就各个子带的量化噪声都束缚在本子带内,这就
可以避免能量较小的频带内的信号被其它频带可以避免能量较小的频带内的信号被其它频带
中量化噪声所掩盖中量化噪声所掩盖
通过频带分裂,各个子带的取样频率可以成倍通过频带分裂,各个子带的取样频率可以成倍
下降。下降。
数字音频压缩技术
音频压缩算法的分类
时域压缩算法
子带编码
MP3音频压缩编码
MP3音频压缩编码
MP3MP3是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。MP3MP3格式格式
开始于二十世纪开始于二十世纪8080年代中期,是在德国夫朗和费年代中期,是在德国夫朗和费
研究所(研究所(Fraunhofer InstituteFraunhofer Institute)开始的,研究致)开始的,研究致
力于高质量、低数据率的声音编码。力于高质量、低数据率的声音编码。
19891989年,夫朗和费研究所在德国被获准取得了年,夫朗和费研究所在德国被获准取得了
MP3MP3的专利权,几年后这项技术被提交到国际标的专利权,几年后这项技术被提交到国际标
准组织准组织(ISO)(ISO),整合进入了,整合进入了MPEG-1MPEG-1标准。标准。
MP3MP3格式是一个让音乐界产生巨大震动的一个声格式是一个让音乐界产生巨大震动的一个声
音格式。音格式。MP3MP3的全称是的全称是Moving Picture Experts Moving Picture Experts
Group, Audio Layer 3Group, Audio Layer 3,它所使用的技术是在,它所使用的技术是在
VCDVCD((MPEG-1MPEG-1)的音频压缩技术上发展出的第)的音频压缩技术上发展出的第
三代,而不是三代,而不是MPEG-3MPEG-3。。
MP3音频压缩编码
MPEGMPEG代表的是代表的是MPEGMPEG活动影音压缩标准,活动影音压缩标准,MPEGMPEG
音频文件指的是音频文件指的是MPEGMPEG标准中的声音部分即标准中的声音部分即MPEGMPEG
音频层。音频层。MPEGMPEG音频文件根据压缩质量和编码复音频文件根据压缩质量和编码复
杂程度的不同可分为三层(杂程度的不同可分为三层(MPEG AUDIO MPEG AUDIO
LAYER 1/2/3LAYER 1/2/3分别与分别与MP1MP1、、MP2MP2和和MP3MP3这三种声音这三种声音
文件相对应)。文件相对应)。
MPEGMPEG音频编码具有很高的压缩率,音频编码具有很高的压缩率,MP1MP1和和MP2MP2的的
压缩率分别为压缩率分别为4:14:1和和6:1-8:16:1-8:1,而,而MP3MP3的压缩率则高的压缩率则高
达达10:110:1~~12:112:1,也就是说一分钟,也就是说一分钟CDCD音质的音乐未音质的音乐未
经压缩需要经压缩需要10MB10MB存储空间,而经过存储空间,而经过MP3MP3压缩编码压缩编码
后只有后只有1MB1MB左右,同时其音质基本保持不失真。左右,同时其音质基本保持不失真。
MP3音频压缩编码
音乐信号中有许多冗余成分,其中包括间隔和一音乐信号中有许多冗余成分,其中包括间隔和一
些人耳分辨不出的信息(如混杂在较强背景中的些人耳分辨不出的信息(如混杂在较强背景中的
弱信号)。弱信号)。MP3MP3为降低声音失真采取了名为为降低声音失真采取了名为““感感
官编码技术官编码技术””的编码算法:编码时先对音频文件的编码算法:编码时先对音频文件
进行频谱分析,然后用过滤器滤掉噪音,接着通进行频谱分析,然后用过滤器滤掉噪音,接着通
过量化的方式将剩下的每一位打散排列,最后形过量化的方式将剩下的每一位打散排列,最后形
成具有较高压缩比的成具有较高压缩比的MP3MP3文件,并使压缩后的文文件,并使压缩后的文
件在回放时能够达到比较接近原音源的声音效果。件在回放时能够达到比较接近原音源的声音效果。
虽然它是一种有损压缩,但是它的最大优势是以虽然它是一种有损压缩,但是它的最大优势是以
极小的声音失真换来了较高的压缩比。极小的声音失真换来了较高的压缩比。
音频编码标准
音频编码标准比较
1972年CCITT为电话质量和语音压缩制定
了PCM标准。其速率为64kb/s,使用μ
律或A律的非线性量化技术,主要用于公共电
话网中。
19881988年年CCITTCCITT为调幅广播质量的音频信号压缩制为调幅广播质量的音频信号压缩制
定了定了标准,它使用子带编码标准,它使用子带编码(SBC)(SBC)方案,其方案,其
滤波器组将输入信号分成高低两个子带信号,然滤波器组将输入信号分成高低两个子带信号,然
后分别使用后分别使用ADPCMADPCM进行编码。进行编码。
能将能将224kb/s224kb/s的调幅广播质量的音频信号压的调幅广播质量的音频信号压
缩为缩为64kb/s64kb/s,主要用于视听多媒体和会议电视等。,主要用于视听多媒体和会议电视等。
的主要目标是保持的主要目标是保持64kb/s64kb/s的数据率,而音的数据率,而音
频信号的质量要明显高于频信号的质量要明显高于的质量。的质量。
1996年ITU-T通过了标准-“用于
多媒体传输的
码”。它采用多脉冲激励最大似然量化(MP-
MLQ)算法,此标准可应用于可视电话及IP电
话等系统中。
为了进一步降低压缩的速率,CCITT于
1992年制定了标准,使用基于低时延
码本激励线性预测编码(LD-CELP)算法,其
速率为16kb/s,主要用于公共电话网中。
ITU-T于1996年3月通过了标准,它
使用8kb/s的共轭结构代数码激励线性预测
(CS-ACELP)算法,此标准将在无线移动网、
数字多路复用系统和计算机通信系统中应用。
音频编码标准比较
第四讲 数字语音处理技术
数字音频压缩技术数字音频压缩技术
三维音效三维音效
语音识别语音识别
自然语言理解自然语言理解
语音合成语音合成
三维音效
人类的听觉
3D音效的分类
杜比AC-3
DTS
人类的听觉
人耳的基本声音定位原理是人耳的基本声音定位原理是IIDIID((Interaural Interaural
Intensity DifferenceIntensity Difference,两侧声音强度差别)和,两侧声音强度差别)和
ITDITD((Interaural Time DifferenceInteraural Time Difference,两侧声音时间延,两侧声音时间延
迟差别)。迟差别)。
IIDIID指距离音源较近的哪一边耳朵,所收到的声音指距离音源较近的哪一边耳朵,所收到的声音
强度比另一侧高,感到声音更大一些。强度比另一侧高,感到声音更大一些。
ITDITD指方位的不同,使声音到达两耳的时间有差别指方位的不同,使声音到达两耳的时间有差别
,人们会觉得声音位于到达时间早些的那一边,,人们会觉得声音位于到达时间早些的那一边,
IID+ITDIID+ITD的结果是把音源定位到以听者两耳这间连的结果是把音源定位到以听者两耳这间连
线为轴线的锥体范围之内。线为轴线的锥体范围之内。
人类的听觉
耳廓(外耳)的作用是滤波器,根据声音的不同耳廓(外耳)的作用是滤波器,根据声音的不同
角度,加强角度,加强//减弱音波能量,过滤之后传给大脑,减弱音波能量,过滤之后传给大脑,
让我们更准确地声源的位置。耳廓的大小有限,让我们更准确地声源的位置。耳廓的大小有限,
因此能够收到的音波范围也有限,通常是因此能够收到的音波范围也有限,通常是20Hz20Hz到到
20KHz20KHz,即波长,即波长1616米到米到厘米的音波。换言之,厘米的音波。换言之,
低于此范围是次声波,高于此范围是超声波。低于此范围是次声波,高于此范围是超声波。
由于两耳机的距离约为由于两耳机的距离约为1515厘米,当波长大于厘米,当波长大于1515厘厘
米时米时IITIIT和和ITDITD将会减弱。频率低的声音波长大,将会减弱。频率低的声音波长大,
因此我们很难判断出低音的位置,却能轻易分辨因此我们很难判断出低音的位置,却能轻易分辨
高音的方位。实际上,耳廓对于声音的定位,是高音的方位。实际上,耳廓对于声音的定位,是
至关重要的一环,没有外耳的人难以判断声音发至关重要的一环,没有外耳的人难以判断声音发
出的位置。出的位置。
人类的听觉
人类依靠一种称为人类依靠一种称为HRTFHRTF((Head Related Transfer Head Related Transfer
FunctionFunction,头部关联传输功能)的系统来判断声音,头部关联传输功能)的系统来判断声音
发出的位置。每个人的发出的位置。每个人的HRTFHRTF都不尽相同,还可以都不尽相同,还可以
进行交换。进行交换。
HRTFHRTF的检测非常简单,先在人的耳道内放置两个的检测非常简单,先在人的耳道内放置两个
微型麦克风,再在听者附近放一个音箱,播放确微型麦克风,再在听者附近放一个音箱,播放确
定的信号,同时记录麦克风收到的信号。比较源定的信号,同时记录麦克风收到的信号。比较源
信号和麦克风的脉冲特性曲线就可以得到其中一信号和麦克风的脉冲特性曲线就可以得到其中一
个滤波效果。最后于听者附近的所有位置重复上个滤波效果。最后于听者附近的所有位置重复上
述过程,即可获取完整的述过程,即可获取完整的HRTFHRTF系统。系统。
三维音效
人类的听觉
3D音效的分类
杜比AC-3
DTS
3D音效的分类
3D音效的两个最重要因素是定位和交互。
定位即让人们准确地判断出声音的来源,
可以通过预选录制声音,再进行特定的解
码来实现。
实时的定位就是交互,声音并非预选录制
好的,而是按照你的控制来决定声音的位
置。即时生成的交互式声音对输入设备的
要求,比预选录制音轨的放音设备(如:
电影)要更强一些。
3D音效的分类
扩展式立体声扩展式立体声
它使用声音延迟技术对传统的立体声进行额外处理,它使用声音延迟技术对传统的立体声进行额外处理,
扩宽了音场的位置,使声音延展到音箱以外的空间,扩宽了音场的位置,使声音延展到音箱以外的空间,
让我们感觉的让我们感觉的3D3D世界更广阔世界更广阔
环绕立体声环绕立体声
它采用音频压缩技术它采用音频压缩技术((如:杜比如:杜比AC-3)AC-3)把多通道音源编码把多通道音源编码
成一段程序,再以一组多扬声器系统来进行解码,实成一段程序,再以一组多扬声器系统来进行解码,实
现多区域环绕效果。现多区域环绕效果。
交互式交互式3D3D音效音效
交互式交互式3D3D尽量地复制了人耳在真实世界中听到的声音,尽量地复制了人耳在真实世界中听到的声音,
并使用一定的算法来播放出来,让我们感到整个三维并使用一定的算法来播放出来,让我们感到整个三维
空间的所有地方都可能产生声音,并随听者的移动而空间的所有地方都可能产生声音,并随听者的移动而
做出相应改变。做出相应改变。
三维音效
人类的听觉
3D音效的分类
杜比AC-3
DTS
杜比AC-3
为了提高为了提高HDTVHDTV声音的质量,避免模拟矩阵编码声音的质量,避免模拟矩阵编码
的局限性,提出了双通道的码率提供多通道的编的局限性,提出了双通道的码率提供多通道的编
码性能的设想,杜比码性能的设想,杜比AC-3AC-3就是为了实现这一设想就是为了实现这一设想
而开发的。杜比而开发的。杜比AC-3AC-3可以把五个独立的全频带和可以把五个独立的全频带和
一个超低音通道的信号实行统一编码,成为单一一个超低音通道的信号实行统一编码,成为单一
的复合数据流。的复合数据流。
AC-3AC-3的频响为的频响为20Hz20Hz~~20kHz ±(-3dB20kHz ±(-3dB时为时为3Hz3Hz
~~)),超低声道频率范围是,超低声道频率范围是20Hz20Hz~~120Hz120Hz
±±。可支持。可支持32kHz32kHz、、、、48kHz48kHz三种取三种取
样频率。数码率可低至单声道的样频率。数码率可低至单声道的32kb/s,32kb/s,高到多声高到多声
道道640kb/s640kb/s,以适应不同需要。,以适应不同需要。
杜比AC-3
AC-3采用基于改良离散余弦变换
(MDCT)的自适应变换编码(ATC)算法。
ATC算法的一个重要考虑是基于人耳听觉
掩蔽效应的临界频带理论,即在临界频带
内一个声音对另一个声音信号的掩蔽效应
最明显。因此,划分频带的滤波器组要有足
够锐利的频率响应,以保证临界频带外的
噪声衰减足够大,使时域和频域内的噪声
限定在掩蔽门限以下。
三维音效
人类的听觉
3D音效的分类
杜比AC-3
DTS
DTS
DTSDTS是是““Digital Theatre SystemDigital Theatre System””的缩写,是的缩写,是““数数
字化影院系统字化影院系统””的意思。的意思。
从技术上讲,从技术上讲,DTSDTS与包括与包括Dolby DigitalDolby Digital在内的其它在内的其它
声音处理系统是完全不同的。声音处理系统是完全不同的。Dolby DigitalDolby Digital是将音是将音
效数据存储在电影胶片的齿孔之间,因为空间的效数据存储在电影胶片的齿孔之间,因为空间的
限制而必须采用大量的压缩的模式,这样就不得限制而必须采用大量的压缩的模式,这样就不得
不牺牲部分音质。不牺牲部分音质。
DTSDTS公司用一种简单的办法解决了这个问题,即公司用一种简单的办法解决了这个问题,即
把音效数据存储到另外的把音效数据存储到另外的CD-ROMCD-ROM中,使其与影中,使其与影
像数据同步。这样不但空间得到增加,而且数据像数据同步。这样不但空间得到增加,而且数据
流量也可以相对变大,更可以将存储音效数据的流量也可以相对变大,更可以将存储音效数据的
CDCD更换,来播放不同的语言版本。更换,来播放不同的语言版本。
DTS
DTS DTS 系统不仅具有系统不仅具有 AC-3 AC-3 相似功能,更加强了其纵深定位相似功能,更加强了其纵深定位
交叉效果。交叉效果。DTS DTS 芯片容量为芯片容量为 1536kbps 1536kbps,压缩传输比为,压缩传输比为
4:14:1;而;而 AC-3 AC-3 芯片容量为芯片容量为 448kbps 448kbps,压缩比为,压缩比为 10:1 10:1。正。正
是由于是由于DTS DTS 信息容量的增加,音色更加优美。信息容量的增加,音色更加优美。
DTS DTS 家庭影院的核心是家庭影院的核心是 DTS DTS 解码器,它可对解码器,它可对 DVD DVD,,CD CD
的杜比数字解码,输出的杜比数字解码,输出 声道信息,也可以选择声道信息,也可以选择DTSDTS方方
式,输出式,输出6 6 声道信息。声道信息。
DTS DTS 和杜比数字在音质上有着明显的不同,前者声音力度和杜比数字在音质上有着明显的不同,前者声音力度
强劲,声音的上升和切入都很尖锐,音场的透明感清晰可强劲,声音的上升和切入都很尖锐,音场的透明感清晰可
闻,尤其是丰富的低音效果表现得更加激烈火爆。后者在闻,尤其是丰富的低音效果表现得更加激烈火爆。后者在
低音方面缺少丰富的力度低音方面缺少丰富的力度
第四讲 数字语音处理技术
数字音频压缩技术数字音频压缩技术
三维音效三维音效
语音识别语音识别
自然语言理解自然语言理解
语音合成语音合成
语音识别技术及应用
语音识别的发展历史
语音识别技术
语音识别系统的类型
语音识别的应用
语音识别的发展历史
语音识别技术的研究工作始于语音识别技术的研究工作始于2020世纪世纪5050年代,当时年代,当时AT&T AT&T
BellBell实验室实现了第一个可识别十个英文数字的语音识别实验室实现了第一个可识别十个英文数字的语音识别
系统系统——Audry——Audry系统。系统。
6060年代,计算机的应用推动了语音识别的发展。年代,计算机的应用推动了语音识别的发展。
7070年代,语音识别领域取得了突破。年代,语音识别领域取得了突破。
8080年代,语音识别研究进一步走向深入,其显著特征是年代,语音识别研究进一步走向深入,其显著特征是
HMMHMM模型和人工神经元网络(模型和人工神经元网络(ANNANN)在语音识别中的成)在语音识别中的成
功应用。功应用。
9090年代,随着多媒体时代的来临,迫切要求语音识别系统年代,随着多媒体时代的来临,迫切要求语音识别系统
从实验室走向实用。从实验室走向实用。
语音识别技术的发展历史
如图表示了从80年代初以来语音识别技术经历的从孤立词、小词汇
量、特定人到大词汇量、非特定人、自然口语识别的发展历程。
语音识别技术及应用
语音识别的发展历史
语音识别技术
语音识别系统的类型
语音识别的应用
语音识别技术
不同的语音识别系统,虽然具体实现细节
有所不同,但所采用的基本技术相似,它
所涉及的领域包括:信号处理、模式识别、
概率论和信息论、发声机理和听觉机理、
人工智能等等。
语音识别技术主要包括特征提取技术、模
式匹配准则及模型训练技术三个方面。此
外,还涉及到语音识别单元的选取。
特征参数提取技术
语音信号中含有丰富的信息,这些信息称
为语音信号的声学特征
特征提取是对语音信号进行分析处理,去
除对语音识别无关紧要的冗余信息,获得
影响语音识别的重要信息
由于语音信号的时变特性,特征提取必须
在一小段语音信号上进行,也即进行短时
分析
常用的一些声学特征
线性预测系数LPC
倒谱系数CEP
Mel倒谱系数MFCC和感知线性预测PLP
模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式模型训练是指按照一定的准则,从大量已知模式
中获取表征该模式本质特征的模型参数,而模式中获取表征该模式本质特征的模型参数,而模式
匹配则是根据一定准则,使未知模式与模型库中匹配则是根据一定准则,使未知模式与模型库中
的某一个模型获得最佳匹配。的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要语音识别所应用的模式匹配和模型训练技术主要
有动态时间归正技术(有动态时间归正技术(DTWDTW,又称为动态时间弯,又称为动态时间弯
折技术)、隐马尔可夫模型(折技术)、隐马尔可夫模型(HMMHMM)和人工神经)和人工神经
元网络(元网络(ANNANN)。)。
典型语音识别系统
的实现过程
语音识别单元的选取
选择识别单元是语音识别研究的第一步选择识别单元是语音识别研究的第一步
语音识别单元有语音识别单元有单词单词(句)、(句)、音节音节和和音素音素三种三种
单词单元广泛应用于中小词汇语音识别系统单词单元广泛应用于中小词汇语音识别系统
音节单元多见于汉语语音识别音节单元多见于汉语语音识别
音素单元以前多见于英语语音识别的研究中,但音素单元以前多见于英语语音识别的研究中,但
目前中、大词汇量汉语语音识别系统也在越来越目前中、大词汇量汉语语音识别系统也在越来越
多地采用多地采用
语音识别技术及应用
语音识别的发展历史
语音识别技术
语音识别系统的类型
语音识别的应用
语音识别系统的类型
语音识别系统有以下几种分类方式:
根据对说话人的依赖程度可以分为根据对说话人的依赖程度可以分为特定人特定人和和非非
特定人特定人语音识别系统语音识别系统
根据对说话人说话方式的要求,可以分为根据对说话人说话方式的要求,可以分为孤立孤立
字(词)字(词)语音识别系统,语音识别系统,连接词连接词语音识别系统语音识别系统
以及以及连续语音连续语音识别系统识别系统
根据词汇量大小,可以分为小词汇量、中等词根据词汇量大小,可以分为小词汇量、中等词
汇量、大词汇量以及无限词汇量语音识别系统汇量、大词汇量以及无限词汇量语音识别系统
特定人语音识别系统
特定人的识别系统精明得足以能了解讲话者的语特定人的识别系统精明得足以能了解讲话者的语
音特点,它从语音签名上就能知道讲话者的身份。音特点,它从语音签名上就能知道讲话者的身份。
只有在讲话者用特定单词组形成的词汇表训练系只有在讲话者用特定单词组形成的词汇表训练系
统后,它才能识别统后,它才能识别
特定人系统的优点是它是可训练的,系统很灵活,特定人系统的优点是它是可训练的,系统很灵活,
可以训练它来识别新词可以训练它来识别新词
特定人的系统的缺点是由一个用户训练的系统不特定人的系统的缺点是由一个用户训练的系统不
能被另一用户使用能被另一用户使用
例:手机中使用的语音拨号例:手机中使用的语音拨号
非特定人语音识别系统
非持定人识别系统可识别任何用户的语音。
它不需要任何来自用户的训练,因为它不
依赖于个人的语音签名。
为生成非特定人识别系统、大量的用户训
练了大词汇表的识别器。
在训练系统时,男声和女声、不同的口音
和方言,以及带有背景噪音的环境都计入
了考虑范围之内以生成参考模板。
例:IBM Via Voice
孤立词语音识别系统
孤立词(语音)识别系统,一次只提供一个
单一词的识别
识别器的第一个任务是进行幅度和噪声归
一化,下一步是参数分析
可以通过把对应于一个词的大量样本聚集
为单一群来获得非特定人孤立单词语音识
别器。
连接词语音识别系统
连接词的语音由所说的短语组成,而短语
又是由词序列组成
识别连接词短语中单词的一种方法是采用
词定位技术
类似于孤立词语音识别,连接词语音识别
用于命令和控制应用
连续语音识别系统
连续语音由在听写中形成段落的完整句子
组成
连续语音识别系统可以分成下列三部分:
第一部分包括数字化、幅度归一化、时间归一第一部分包括数字化、幅度归一化、时间归一
化和参数表示化和参数表示
另一部分包括分割并把语音段标记成在基于知另一部分包括分割并把语音段标记成在基于知
识或基于规则系统上的符号串识或基于规则系统上的符号串
最后一部分是设计用于识别词序列而进行语音最后一部分是设计用于识别词序列而进行语音
段匹配段匹配
语音识别技术及应用
语音识别的发展历史
语音识别技术
语音识别系统的类型
语音识别的应用
语音识别的应用
语音邮件集成
数据库输人和询问应用
语音命令和控制应用
第四讲 数字语音处理技术
数字音频压缩技术数字音频压缩技术
三维音效三维音效
语音识别语音识别
自然语言理解自然语言理解
语音合成语音合成
自然语言理解
自然语言理解就是研究如何能让计算机理解并生自然语言理解就是研究如何能让计算机理解并生
成人们日常所使用的成人们日常所使用的((如汉语、英语如汉语、英语))语言,使得计语言,使得计
算机懂得自然语言的含义,并对人给计算机提出算机懂得自然语言的含义,并对人给计算机提出
的问题,通过对话的方式,用自然语言进行回答。的问题,通过对话的方式,用自然语言进行回答。
目的在于建立起一种人与机器之间的密切而友好目的在于建立起一种人与机器之间的密切而友好
的关系,使之能进行高度的信息传递与认知活动。的关系,使之能进行高度的信息传递与认知活动。
用自然语言与计算机进行通信,这是人们长期以用自然语言与计算机进行通信,这是人们长期以
来所追求的。来所追求的。
自然语言理解
一个中文文本从形式上看是由汉字(包括标点符号等)组一个中文文本从形式上看是由汉字(包括标点符号等)组
成的一个字符串。由字可组成词,由词可组成词组,由词成的一个字符串。由字可组成词,由词可组成词组,由词
组可组成句子,进而由一些句子组成段、节、章、篇。组可组成句子,进而由一些句子组成段、节、章、篇。
无论在上述的各种层次:字(符)、词、词组、句子、段,无论在上述的各种层次:字(符)、词、词组、句子、段,
…………还是在下一层次向上一层次转变中都存在着歧义和多还是在下一层次向上一层次转变中都存在着歧义和多
义现象,即形式上一样的一段字符串,在不同的场景或不义现象,即形式上一样的一段字符串,在不同的场景或不
同的语境下,可以理解成不同的词串、词组串等,并有不同的语境下,可以理解成不同的词串、词组串等,并有不
同的意义。同的意义。
自然语言处理的核心技术是语言分析技术,即将句子(数自然语言处理的核心技术是语言分析技术,即将句子(数
量无限)变换成由词语(数量可控)及其抽象形式(数量量无限)变换成由词语(数量可控)及其抽象形式(数量
有限)构成的用某种数据结构(句法树、复杂特征集或语有限)构成的用某种数据结构(句法树、复杂特征集或语
义网络)表示的内部形式(数量有限)。义网络)表示的内部形式(数量有限)。
自然语言理解
语言分析技术可以分为基于规则与基于统计数据语言分析技术可以分为基于规则与基于统计数据
两大类。两大类。
概率语法通过语料库统计给每条语言规则加上概概率语法通过语料库统计给每条语言规则加上概
率值,语言规则便有了率值,语言规则便有了““柔性柔性””,不再是,不再是““说一不二说一不二
””、、““非此即彼非此即彼””。。
概率语法是有机结合这两类技术的较好理论体系。概率语法是有机结合这两类技术的较好理论体系。
为了完成这种统计,事先必须按照人给出的语言为了完成这种统计,事先必须按照人给出的语言
规则加工语料库(至少要加工一部分训练语料),规则加工语料库(至少要加工一部分训练语料),
这说明统计方法也需要规则的指导。两者之间的这说明统计方法也需要规则的指导。两者之间的
结合和互相利用是必然的趋势。结合和互相利用是必然的趋势。
自然语言理解
语言分析可以划分为词法析、句法分析、语义分析、篇章语言分析可以划分为词法析、句法分析、语义分析、篇章
分析等步骤。现在,词法分析和句法分析相对成熟,语义分析等步骤。现在,词法分析和句法分析相对成熟,语义
分析逐渐成为研究重点。对象单元由小到大从句子向篇章分析逐渐成为研究重点。对象单元由小到大从句子向篇章
发展。实际上只有在篇章的范围内分析,省略、指代和句发展。实际上只有在篇章的范围内分析,省略、指代和句
子的固有歧义等问题才可能解决。子的固有歧义等问题才可能解决。
如果说自然语言处理技术尚未取得重大突破,其含义就是如果说自然语言处理技术尚未取得重大突破,其含义就是
完整语言分析技术尚未过关。完整语言分析技术尚未过关。
浅层分析技术或者只提取句子中的名词短语,或者只识别浅层分析技术或者只提取句子中的名词短语,或者只识别
句子的谓语中心词及其他组块同谓语中心词的依存关系。句子的谓语中心词及其他组块同谓语中心词的依存关系。
这样的技术就是适应当今大规模网上文本信息处理,例如,这样的技术就是适应当今大规模网上文本信息处理,例如,
文献检索、信息提取和文本分类等的需要,吸收传统的语文献检索、信息提取和文本分类等的需要,吸收传统的语
言分析中某些局部技术而发展起来的。言分析中某些局部技术而发展起来的。
第四讲 数字语音处理技术
数字音频压缩技术数字音频压缩技术
三维音效三维音效
语音识别语音识别
自然语言理解自然语言理解
语音合成语音合成
语音合成
语音合成是以言语产生模型为基础,分析抽
取激励源,声道的特征参数;再利用这些特
征参数重新综合出语音信号的过程。
语音合成是通过一个声学模块来具体实现
的。
语音合成
早期的语音合成技术的研究,往往集中在语音合早期的语音合成技术的研究,往往集中在语音合
成算法本身,其研究的方法和手段与语音编码有成算法本身,其研究的方法和手段与语音编码有
很多相似之处。很多相似之处。
进入进入2020世纪世纪9090年代以来,波形拼接年代以来,波形拼接(PSOLA(PSOLA,,Pitch Pitch
Synchronous OverLap Add)Synchronous OverLap Add)的算法,越来越被广泛的算法,越来越被广泛
地应用在语音合成系统中。地应用在语音合成系统中。PSOLAPSOLA较好地解决了较好地解决了
语音拼接中的问题,从而推动了波形编辑语音合语音拼接中的问题,从而推动了波形编辑语音合
成技术的发展与应用。成技术的发展与应用。
近年来,一些新的方法,如人工神经网络、决策近年来,一些新的方法,如人工神经网络、决策
树、隐马尔可夫模型等被广泛地应用于语音合成树、隐马尔可夫模型等被广泛地应用于语音合成
技术。技术。
TTS
TTSTTS即文本语音转换技术即文本语音转换技术(Text To Speech)(Text To Speech),它涉及声学、,它涉及声学、
语言学、数学信号处理技术、多媒体技术等多个学科技术,语言学、数学信号处理技术、多媒体技术等多个学科技术,
是中文信息处理领域的一项前沿技术,实现把计算机中任是中文信息处理领域的一项前沿技术,实现把计算机中任
意出现的文字转换成自然流畅的语音输出。意出现的文字转换成自然流畅的语音输出。
TSTS系统是一种以文字串为输入的规则合成系统。其输入的系统是一种以文字串为输入的规则合成系统。其输入的
文字串为通常的文本字符串。系统中的文本分析器首先根文字串为通常的文本字符串。系统中的文本分析器首先根
据发音字典,将输入的文字串分节为带有标记的词及其读据发音字典,将输入的文字串分节为带有标记的词及其读
音符号,再根据语义规则和语音规则,为每一个词、每一音符号,再根据语义规则和语音规则,为每一个词、每一
个音节确定声音等级和语调,以及各种停顿等。这样文字个音节确定声音等级和语调,以及各种停顿等。这样文字
串就转换为代码串。规则合成系统就可据此合成抑扬顿挫串就转换为代码串。规则合成系统就可据此合成抑扬顿挫
和不同语气的语句。和不同语气的语句。
视觉语音
视觉语音是指人们在用语言交流时所表达出的面视觉语音是指人们在用语言交流时所表达出的面
部表情和动作,它能在一定程度上传达人们想要部表情和动作,它能在一定程度上传达人们想要
表达的意思,并能帮助人们加深对语言的理解。表达的意思,并能帮助人们加深对语言的理解。
近年来出现了另一种多媒体研究热潮,即把声音近年来出现了另一种多媒体研究热潮,即把声音
和文字、图像集成在一起,形成直接由文本到可和文字、图像集成在一起,形成直接由文本到可
视语音的转换视语音的转换(text-to-visual speech(text-to-visual speech,,TTVS)TTVS),使人,使人
们在听计算机说话的同时能看到一个合成的人脸,们在听计算机说话的同时能看到一个合成的人脸,
使人机交互界面更为友好、和谐。使人机交互界面更为友好、和谐。
视觉语音
TTVSTTVS的实现方法可分为以下两类:的实现方法可分为以下两类:
基于参数控制的方法。首先对人脸建立一个网格模型,基于参数控制的方法。首先对人脸建立一个网格模型,
包括多个多边形包括多个多边形((一般是三角形一般是三角形))和顶点。由一组参数来和顶点。由一组参数来
控制每个顶点的运动,再通过图像变形技术实现人脸控制每个顶点的运动,再通过图像变形技术实现人脸
上各个像素点的运动,来生成人们说话时的各种面部上各个像素点的运动,来生成人们说话时的各种面部
表情。表情。
基于数据驱动的方法。基于数据驱动的方法。
类似于语音合成中的波形拼接合成法。通过对人们说类似于语音合成中的波形拼接合成法。通过对人们说
话时可能出现的各种表情进行录像,从中提取大量的话时可能出现的各种表情进行录像,从中提取大量的
原始数据,建立图像数据库。在合成时从库中选择合原始数据,建立图像数据库。在合成时从库中选择合
适的图像进行拼接,并进行一些消除图像边缘效应和适的图像进行拼接,并进行一些消除图像边缘效应和
抖动的处理,生成动态的连续的说话者的面部表情。抖动的处理,生成动态的连续的说话者的面部表情。