采用离散 HMM 的孤立词识别系统
摘 要 本文探讨了离散马尔可夫模型的基本原理及在孤立词识别中的 应用 ,并且实现了
一个文本有关的孤立词识别系统,其正确识别率达到 %。关键词 隐马尔可夫模型
Mel 频率倒谱系数 矢量量化 语音识别 1 引言 目前 ,隐马尔可夫模型技术是语音信号
处理中的主流技术,孤立词识别是语音识别的一个重要分支,可以有效地应用于电话查询
、电话银行业务等领域,有很高的实用价值。离散 HMM 在训练及识别时 计算 量小,对
输入矢量的分布不必作先验假设,因而在对实时性要求较高的场合得到了较多的应用。本
文实现的是一个基于离散的 HMM 的孤立词识别系统。2 HMM 对语音信号的描述及应用
语音信号是通过声源经声道处理产生的,是一种时变的随机信号。我们的语音发音是有限
的,所有可以认为声道的状态是有限的。我们将人的声道特性划分为有限个特性平稳的部
分或状态,每个状态对声音信号作用产生受该处的声道物理参量决定的短时信号[1]。这样
,声道特性的变化用 HMM 的状态转移概率来描述,某一声道特性产生短时语音信号观察
值的概率分布用 HMM 的状态生成概率表征,则 HMM 模型就有效地用于描述时变语音信
号。3 系统实现 特征矢量的形成语音信号的采样率为 8K,采样后的语音信号通过预
加重运算、分帧、最后将每帧语音转换成相应的特征矢量,本系统的特征矢量是采用 20
阶 MFCC(mel – frequency cepstral coefficient)系数,即 mel 倒谱系数,对应于一个短
时帧的 20 阶 MFCC 系数组成的 20 维矢量空间的一个特征矢量。 HMM 结构和状态数
的选择在小词汇表、孤立字词识别时,HMM 多采用自左向右无跳转或有跳转模型,本系
统采用的是无跳转的自左向右模型结构。在若干的汉字实验中表明,若状态数取 6~8 是
较为合理的选择[3],本系统状态数为 6。 离散 HMM 的 VQ 码本形成采用 DHMM ,则
需对输入特征矢量进行 VQ 处理,即用 LBG 算法对话者的训练,集中所有的训练矢量(帧
)训练出 VQ 码本。这里的关键是 VQ 码本容量的选值。实验结果表明,当码本容量小于
64 时,随着码本容量增加,正确识别率仍有提高,当容量大于 256 时,提高就不明现,
故目前常用的容量值取为 64、128、256。本系统取为 64[4]。 建立 HMM 训练由该
VQ 码本将训练集中的各个矢量序列量化为观察值符号序列,最后由 Baum-Welch 算法训
练出离散的 HMM。当系统中所有话者的 VQ 码本及离散 HMM(记为 )都训练完毕并存储
起来之后,该系统的训练任务就完成了。1)前向、后向概率前向概率的递推公式为:
图 1 基于 DHMM 的孤立词识别系