2011年 3月 15日
第 34卷第 6期
现代电子技术
M odern Electronics Technique
M ar.2Ol1
Vo1.34 No.6
智能教室中情境感知的多通道融合方法
王绍哲,罗全锋
(上海交通大学 计算机科学与工程系 ,上海 200240)
摘 要:现有的智能教室中多通道融合方法普遍缺乏情境信息的感知能力,融合策略固定、简单,不能很好解决多通道输入
的二义性 、非精确、冲突性和 时间偏序关 系。针对以上 问题 ,采用 EMMA标注语 言调整时序关 系,用层 次任务网络规划器 HTN
规划动作行为,用证据理论融合各个情感检测通道 的检测结果 ,提 出了一种通用可扩展的基 于情境感知的 多通道融合模 型及 方
法。实验结果表 明,该方法较好地解决了多通道学生情感检测的冲突性 、二义性 ,提 高了检测的精确性 与正确性。
关键词:智能教室;情境感知;多通道信息融合;情感识别
中图分类号 :TN9l9 34 文献标识码 :A 文章编号 :1004—373X(2011)06—0078—05
0 引 言
M ultichannel Fusion M odel of Context Aware in Intelligent Classroom
WANG Shao—zhe,I UO Quan—feng
(Department of Computer Science and Engineering,Shanghai Jiaotong University,Shanghai 200240.China)
“智能教室”是一个将智能空间概念运用到远程教
育 E—I earning上的一种新型交互空 间。在智能教室
中,装备了大量的高科技设备,如智能灯光、智能空调 、
智能跟踪摄像机、激光笔、电子 白板 、触摸屏 、大屏幕墙
面投影 、麦克风阵列 、人体生理检测设备以及各种环境
监测传感器等;另外 ,在物理空问之上,构建了各种软件
服务,如虚拟教室、人脸识别、语音识别、手势识别、运动
跟踪、语音定位、注意力检测、表情识别 、生理检测等。
在智能教室环境中,人的活动具有三维和直接操纵
的特点,交流方式往往基于听觉、视觉、触觉等感官和自
身经验来完成 ,客观地需要进行多通道的人机交互。然
而多通道输入 (如 鼠标、键盘 、激光笔、电子 白板 、触摸
屏 、语音 、视频 、生理等)往往呈现异步性 、非精确性、二
义性、冲突性等复杂现象,并且受诸如光照、温度、湿度 、
噪音、上下文事件等情境信息的影响。这客观需要进行
情境感知的多通道融合 ,通过整合来 自各个通道的精确
收稿 日期:2010—10—23
基金项 目:国家科技支撑计划课题(2007BAH09B05)
和非精确输入来准确捕捉和预测用户的交互意图,即人
机交互任务 ,并触发相应的外部事件 。现有的多通道融
合算法主要集 中在 以视频 、音频 和笔输入通道 的融合
上,出现了融合槽 、任务槽 、框架融合、基于合一化等可
参考的处理方法。多通道融合算法大多存在的不足有:
融合范围只局限于少数的具体通道(如鼠标 、键盘 、语音
和笔),缺乏通用性和扩展性 ;融合策略固定 、简单 ,不能
很好解决多通道输入的二义性、非精确、冲突性和时间
偏序关系 ;没有实现情境感知进行 自适应调整。情境感
知是提高计算智能性的重要途径 ,缺乏情境信息的融合
其语义往往难 以完整,交互意图理解的准确性难 以提
高。本文围绕智能教室中多通道信息和情境信息的语
义描述和形式化描述、情境感知多通道融合的交互模型
和融合算法进行 了详细的阐述 ,并通过实际的人机交互
任务 ,检验了模型和算法的正确性 。对各个情感通道不
进行展开讨论。
1 关键技术
1.1 多通道信息和情境信息的描述
多通道融合需要理解和处理各个通道的语义信息,
一一~一一~一一 一 一~一~一一一~ 一 ~~一~一一~一 一 一一一,一~~~一 一 一一~一一一~一 一 一~ , 一一一~一一一~一一 ~一.一~一 一~一~ 一~~一一一 一一一 一 一一_蚕 ~一~~ 一一一一一一一一一~ 一一.~~一一~一一一 ~一一一一一~一一一 ~.一一~一一~~一~
第6期 王绍哲等:智能教室中情境感知的多通道融合方法 79
本文借鉴 自然语言处理 中复杂特征集 (Complex Fea—
ture Set,CFS)的概念描述多通道信息和情境信息的语
义 ,并采用 向量 的方式 对语义进 行结构化 描述 ,所谓
CFS,简单描述如下 :
A(f)
f1一 W1
2 一 V 2
_,’ 一 ,
”≥ 1
式中:.厂,代表特征名; 代表特征值 ,记为 一A(-厂 )。
把所有A中的特征包括嵌套的特征记为 :dom(A)一f。
当72 为原子时,A表示原子特征集 ;当 为一特征组时,
A表示复杂特征集。
以通道信息为例(情境信息是一种特殊的多通道信
息),描述向量如下所示:
(rood ,id,,type,,ifea,,cont ,time ,prob ,cred )
式中:rood 表示通道 i的名称;id 表示通道 i的系统编
号;type 表示通道 i的人机交互用途分类 ;ifea 表示通道
i的中间特征 ,采用复杂特征集描述 ,通常属于词法级或
语法级;cont 表示通道 i的识别结果 ,采用复杂特征集描
述 ,通常属于语义级 ;time 表示通道 i信息生成 的时间
戳 ;prob 表 示 通 道 i相 应 识 别 结 果 cont 的 概 率;
cred (£)===H [P(£)]表示通道 i的采信度 ,其中 H 为情境
信息作用函数,P( )为情境信息向量,t为时间戳 time 。
1.2 可扩展的多通道注释标记语言
EMM A (Extensible M ultiM odal Annotation
markup language)是 W3C国际多通道组织定义的一套
基于XML的,为来 自不同通道的输入信息提供一种语
义的注释语言 ,它提供 了能够包含和注释用户输入解释
的 XMI 标记语言的细节 。EMMA的 目的就是用来描
述和注释从一个用户输入获得,通过解释组件 自动抽取
出来的信息 ,其中输入是指来 自平台所支持的任意通道
中获得的有意义的用户输入 】。
本文利用 EMMA语言提供的元素和属性的集合 ,
对通道输入解释进行注释 ,具体就是对多通道信息和情
境信息的语义结构化 向量进行注释。
1.3 世界 状 态集合
在智能教室中,语义结构化和 EMMA注释后 的多
通道信息和情境信息作为融合算法的输人 ,最终将被转
换成智能规划领域 中的世界状态集合。每个世界状 态
是一个逻辑原子,其 中逻辑原子概念和一阶逻辑语言 L
类似,由状态谓词和常量符号构成。一个状态谓词可以
看作是状态集的一个函数 ,一个状态集包含了若干个常
量符号。
1.4 层次任务网络及其规 划器
层 次 任 务 网 络 (Hierarchical Task Network,
HTN)是类似于经典规划的一种智能规划方法,它利用
一 个原子命题集合表示系统状态,动作对应于确定的状
态转换 。不同于经典规划 的是 ,在 HTN 中,规划的 目
的不是要达到某一 目标状态集合 ,而是要完成某一任务
的集合 。所谓方法就是以“处方”的形式告诉 系统如何
将某一类任务分解成更小的子任务集合。规划的过程
就是递归地将那些非原子任务分解成越来越小 的子任
务,直到出现那些可以直接执行规划动作就能完成的原
子任务为止 。同时,HTN规划器也是 以方法的形式执
行动作 。
如图 l所示 ,4个 方 法 (method)完 成 4个 任 务
(task),分别是运输一个参数名为 P的包 (package)、运
输 2个参 数名为 P和 q的包 、调遣卡车 (truck)、归还
卡车。
Ic)
图 1 HTN的 方法实例
2 传 统 SHOP2的工 作 流 程
本文改进了开源 HTN规划器 SHOP2(Simple Hi—
erarchical 0rdered Planner 2)。通过实时 的世 界状态
集合输入和规划问题列表输入,利用一次性编译好的规
划域文档进行实时的 HTN规划,并将规划结果通过外
部函数调用反馈到相应 的处理模块。单次 HTN规划
所需的 时间就是 整个规 划器 的延迟 时间。改 进后 的
SHOP2规划器避免 了图 2所示 的每次规划对规划域文
档的重编译工作 ,使得利用 SHOP2进行实时规划有了
80 现代电子技术 2011年第34卷
可能。对 于 规划 步数 小 于 300步 的问题 ,改 进后 的
SHOP2规划器延迟时间不超过 0.5 S。
2 情境感知的多通道交互模型
本文提出的情境感知多通道交互模型包含 6个子
模块,即:多通道信息采集中心(MICC)、情境信息采集
中心(CICC)、注册和信息管理中心(RIHC)、多级队列
管理中心(PMC)、融合服务 器(FS)、反馈 中心(FBC),
如图 3所示[3]。其中:
(1)MICC和 CICC负责采集多通道信息和情景信
息,Interpreter是将通道源端产生的语义结构化 向量进
行注释 ,生 成符 合 EMMA 规 范 的 XML文档 ,并 由
RIHC转发给 PMC。
(2)RIHC负责通道的注册与注销 、状态轮询、网
络消息的转发和冗余消息的过滤等工作。
(3)PMC负责多级信息的队列建立、队列时序管
理以及世界状态集合的转化。
ITS I
Profile I 司
斗
/
_A—udio1。,靥瓣 _;,. j Pipleline Managerment 龋妇妇卧●—_ ('enter
—
V
—
edio I, 嚣器嚣 ,. ; l M城 酾dal『 h 珏硒 铺嗣 Register
& —÷— In蠡 oIl l 舔 Information I 脚嘞i.o l
Handling
Center
Fusion C
ontext Infonnation
Server
.
,
—
Envi
—
orm e
—nt 竺
:
遁
~
, v/ Co n。 m — + MM In tema l
。
图 3 情 境 感 知 多通 道 交 互模 型
多级信息队列的建立是指利用开源的、跨平台的数
据绑定编译器 CodeSynthesis将通道信息 和情境信息
的 EMMA描述文档转 化成面 向对 象的类 ,称为信 息
元。建立数个信息元队列 ,按照先进先出原则将编译生
成的类放入 队列 ,将语 义相近的信 息源放入 同一个 队
列,如智能教室中手写板和触摸屏消息语义相近,属于
原始鼠标类别的交互设备。
队列时序管理是指基于时间接近性原则和通道信
息和情境信息的时效性特征,把通道信息和情境信息的
多级队列中元素按时间戳进行排序,对过时的元素进行
相应的更新或删除操作 。其队列管理算法如下 :
(1)对每一级队列 ,均按照通道信息或情境信息的
时间戳先后顺序进行 排序,遵 循先进先 出原则 ,即同
一 个通道输入是有序的,多通道输入流在时间上存在偏
序关系。
(2)对每一级队列,相同通道系统编号的信息遵循
覆盖原则。即如果存在 2条通道 i的系统编号为 id 的
通道信息 v和 ,且满足 type —type 和 time >
time ,那么 将被更新为 ⋯
(3)对每一级队列 ,按照每一类通道或情境信息的
时效特征以及相应的人机交互用途分类 ,设定时效衰减
因子 t,即如果通道 i系统编号为 的通道信息 m ,对
应的时 问戳为 time.,,当前 系统 时 间戳 为 time⋯ ,若
time⋯ 一time ,≥f,则把 m 从队列中删除。
世界状态集合的转化是指把 当前 多级 队列 中的所
有有效的多通道信息和情境信息转化成一序列的状态 ,
即世界状态集合 。具体遵循以下几个原则 :
(1)状态谓词能区别不 同的通道信息或人机交互
意图分类 。
(2)常量符号必须包含通道识别结果信息、相应的
识别结果概率以及通道的采信度。
(3)转化后 的世界状态集合作为 HTN规划器的
输入,经规划后 ,该集合失去时间有效性 。
(4)设置世界状态附加集合保存 HTN 智能规划
后保留和新增的世界状态 ,作为下一次规划的输入。
(5)FS利用改进后 的 HTN规划器对智能教室中
的人机交互任务集合进行实时的融合规划,并将结果传
递到 FBC_4 。具体融合算法在第 4部分详细论述。
3 基于证据理论的多通道情感信息融合算法
本系统采用 4个情感检测通道 ,注意力检测 、表
情识别 、语音情感检测 、生理信号检测[8_,对学生情
感进行检测 。单个通道 的检测效果较差 ,采用证据理
论 ,配合先验的检测率,对多通道情感信息进行融合 ,可
以获得更为准确、鲁棒性更强的情感检测结果。
3.1 D—S证据合 成理 论
证据理论的主要特点之一就是可以通过证据的积
累逐步缩小假设集 ,而证据积累的过程就需要一种方法
来计算多个证据对假设的综合影响,即多个证据作用
下假设成立的综合信任程度,这就是证据合成方法l_g 。
3.2 D-S合成 公式
设 m 和 是同一假设集 上的 2个 mass函数
(也称基本概率指派函数),如果:
K= ∑ 171 (E) (F)<1
EnF—O
第6期 王绍哲等:智能教室中情境感知的多通道融合方法 81
则合成的 mass函数记为 :
12(A)一 1(A)① r/l 2(A)
f (E) (F),A=/- 1/~12(A)一J 1一K f “ “
l 0. A — D
式中:K 为 2个 mass函数的冲突量 ;K > 0说 明存在
E N F= D,而 /T/ (E)> 0, 2 (F)> 0,即 2位专家分
别支持相互排斥 的 2个假设,说明他们意见冲突;K 一
0表示无冲突,即意见一致;0< K< 1表示有冲突,但
尚有一致之处 。
个 mass函数一次性合成的 D—S合成公式如下 :
m(A)一 (”2l① Dr/2④ ⋯ ④ Ⅲ )(A)=
∑ I
,
I Ini(
A
l
E 一 ^
式中:K一 ∑ IIIt/ (E)。
E
3.3 基 于 D S
t
理论的多通道情感融合
通过前期对各个情感检测通道进行的大规模测试,
可以得到每个通道先验置信度 。以表情检测通道为例,
表情积极状态下 的检测置信度分别为 Ⅲ(pos—pos)一
0.792,/T/(pos—nat)一0.144,/T/(pos—neg)一0.064,分
别代表正确检出率、误检为一般的概率和误检为消极的
概率。同理,可以获得各个情感检测通道在积极 、消极 、
一 般状态下的各个检测率 。当表情检测通道得到表情
积极的检测结果并发送给融合服务器时,服务器得到的
是上述经测试得到的在表情积极状态下的 3个先验概
率。服务器应用多部D—S合成公式 ,将多个情感通道的
先验概率进行融合,最后获得置信度更高的情感状态分
布概率。
4 实验结果
4.1 实验 原理
本文就智能教室中“基于情境感知多通道融合的远
程学生情感 的监测 与反馈”这一人机交互任务进行实
验。实验环境为上海交通大学 E—I earning Lab的智能
教室。图 4为远程学生的虚拟教室客户端,其 中包括了
注意力检测通道、表情识 别通道 、语音情感识别通道和
生理特征检测通道 ,每个通道检测的结果(为 0~1的浮
点数)代表学生的某种情感状态 ,另外远程教室 中的光
照度、噪音度等情境信息也将由独立的情境信息采集客
户端搜集 ,这些通道信息和情境信息将按照上文所述的
方法最终以世界状态集合的方法传递到融合服务器 。
融合服务器根据当前的光照度计算注意力检测、表
情识别两个通道的采信度 ;根据当前的噪音度计算语音
情感识别通道的采信度;根据当前的温度、湿度等计算
生理特征检测的采信度 ;最后根据以上 4个通道的采信
度和情感值对综合情感进行计算。其中,融合服务器的
“计算”是根 据方法 的形式 执行 的。图 5是改进 后 的
HTN规划器的工作界面。
图 4 虚拟教 室客户端
图 5 改进后 的 HTN规 划器
最后融合服务器把融合后的学生情感状态分别发
往虚拟教室客户端和服务器 ,既反馈给学生 ,又能供教
师教学参考。虚拟教室服务器端如图 6所示 ,其显示有
2位虚拟出席学生的视频和情感。
图 6 虚拟教室服 务器端
4.2 实验过 程
在实验开始前,除注意力检测通道无需训练外,对其
余各个识别通道进行训练样本采集并进行训练。人脸表
情识别子通道采集 110人次 ,共 6 600个训练样本 ;语音
82 现代电子技术 2011年第34卷
情感识别子通道采集 90人 ,共8 100个训练
样本 ;生理特征识别子通道采集 20人次,共
20 000个训练样本 。该实验具体内容为 在
不同的自然环境条件下,即在不同的光照强
度 、噪声分贝下,对单通道识别与情境感知
的多通道识别进行融合,并 比较其结果 。
实验结果如下 :
(1)在封闭式实验中,即实验对象为训
练样本采集对象 ,实验结果如图 7所示。
场景一 :光照 500~600 lx,噪声条件为
60~ 70 dB。
场景二 :光照 100~200 lx,噪声条件为
6O~ 70 dB。
场景三 :光照 5 000~5 200 lx,噪声条
件为 60~70 dB。
场景四:光照 500 600 lx,噪声条件为 30~40 dB。
场 景 五:光 照 500~ 600 Ix,噪 声 条 件 为 80~
100 dB。
场 辑
图 8 实验对 象开发式试验
图 7 买验 对 象封 闭 买验 结 果
(2)在 开放式实验 中,即实验对象样本未 经过训
练,实验结果如图 8所示。
实验 自然环境条件 同封闭实验。
4.3 实验 结论
相比较单一通道的情感识别 ,情境感知的多通道融
合技术能够有效地提高综合情感 的识别率。特别是在
自然环境较差 ,某个或多个单一通道识别效果较差时,
多通道融合技术可以根据实时的环境信息调整每个通
道的置信度,使得综合情感识别效果受环境影 响较少,
提高了情感识别的可靠性与准确度。
5 结 语
在智能教室中,多通道的人机交互普
遍存在 ,现有的多通道融合算法普遍缺乏
情境感知机制。本文提出 了一种普适 的
情境感知多通道融合方法,包括多通道信
息和情境信息的语义描述和形式化描述、
多级信息队列 的建立与管理以及利用层
次任务网络进行实时的智能规划 ,有效解
决 了多通道信息输入 的冗余性、冲突性、
二义性等问题 。通过实验 ,进一步验证了
n 情境感知多通道融合的精确性和可行性。
参 考 文 献
[1]LARSON J A,RAMAN T V,RAGGETT
j D. W 3C muhimodal interaction framework
[EB/()I ].[2003—05—06]. http://www.
w3.org/TR.
r2] RYU H,PARK I,HYUN S,et a1.A task decomposition
scheme for context aggregation in personal smart space Ec].
Proceedings of Symposium on Software Technologies for
Embedded and Ubiquitous Systems.Italy:Springer,2007:
11l—l21.
[3] QIN W ,SHI Y,SUO Y.Ontology based context aware
middleware for smart spaces[J].Tsinghua Science&-
Technology,2007,12 (6):707—713.
[4]潘巍,王阳生,杨宏戟.多模态信息融合的一般功能模型设
计 :基 于 融 合 功 能 和 信 息 层 次 [J].计 算 机 工 程 与应 用 ,
2006,42(29):27—29.
(下转第 87页)
第6期 李晓瑜等:多 Agent网络信息检索框架 87
识语言。XMI 弥补了 HTML文档中有用数据信息不
能被其他应 用 直接 理解 和重 复 使用 的缺 陷 ,它 使 用
DTD(文档类型定义 )规定一套关于标记符号的语法 、
语义规则 ,比较准确地描述文本数据 的内容 、含义、结
构、特征和关系等信息(称为元数据),而把数据的外观
表现形式交给样式表(如 CSS,XSL,DSSSL等)处理 ,
这样就把数据的内容和其表现形式合理地分隔开,从而
大大提高 XML数据的可理解性、可交换性和重用性 。
另外 ,XMI 的优势还在 于它 的简单性 、灵活性 和
可扩展性 。XMI 文 档是纯文本 ,独 立于平台和应用 。
公司和组织可 自由定义标签和文档结构 ,亦可增添或扩
展已有文档结构定义 ,以满足新 的挑战和应用需求 ,而
不致于破坏原来的应用 。一个结构 良好的 XMI 文档 ,
其生存期可以很长。
2 基于 XML的多 Agent网络信息检索框架
基于 XMI 的多 Agent信息检索框架有 3种类型
的 Agent组成如图 1所示。一种是管理 Agent用于提
取信息 的语义 和 合作 Agent处理 详情 ,一种 是 接 口
Agents为用 户 和 系 统 提 供 接 口,还 有 一 种 是 搜 寻
Agents用 于在 www上搜索信 息,多个 Agent问使用
xm!作为它们的通信语 言,相互沟通执行检索任务 。
信息层
操 纵屡
1 基 于 xml的多 Agent网络信 息检 索框 架
2.1 接 口 Agent
接口 Agent使得其他的 Agent对用户来说是透 明
的,接 I21 Agent作为用户的前端接 口,这类 Agent携带
用户的检索信息代表用户和其他 Agent进行交流。
用户提出一个 问题 ,然后等待答案/结果 。从接 口
Agent获取检索结果后,用户可以继续浏览和问题相关
的信息。接口 Agent允许用户完全忽视和它交互的其
他信息检索 Agent,也可以忽略搜索在多 Agent环境中
的物理实现。换句话说 ,用户是在和一个个性化的接口
在交互 ,它能有效的满足用户 的需求 ,并且不需要用户
了解查询规则 。
很显然 ,接 口 Agent实现了,大量且复杂任务 的查
询便利,而且对用户隐藏了查询细节 。
在模型中,接 口Agent完成以下任务:
(1)帮助用户执行检索请求,并将检索请求传送给
其他的 Agent。
(2)为用户营造一个透明的多 Agent系统环境 ,也
就是不用 明确描述在多 Agent模型中什么是可以利用
的,信息是如何构造和组织 的,以及如何定位知识库的。
(3)将用户请求的检索结果传递给用户 。
在整个查询过程 中,用户只需为信息检索指定查询
条件或关键词。接 口 Agent为用户收集所需 的信息 ,
然后将这些信息传递给分析 Agent继续其他信息的检
索过程 。最后 由接 口 Agent将 由分析 Agent加工和处
理后的检索结果传递给用户 。
2.2 分析 Agent
分析 Agent通过 接 口 Agent接受用 户 的检索任
务 。当分析 Agent接受检 索任务时,它会首先在知识
库 中查找,确定用户任务的基本 范畴。分析问题所属的
专业领域 。然后将检索要求转给检索 Agent。信息分
析 Agent必须具有推理、分析归纳、规划学 习的能力 ,
同时还要有相应动态更新的信息分类知识库提供支持 。
分析 Agent是这个多 Agent模型的核心 。它保存
了一个能够从中提取语意信息的中央知识库,来 回复用
户。同时它还是接口 Agent和查询 Agent的中介。用
户的检索信息通过接 口 Agent提交给分析 Agent.分
析Agent自主的将检索信息转发给检索 Agent.查找到
信息以后 ,检索 Agent将查找结果传送给分析 Agent,
分析 Agent基于 自己的知识库进行计算或推理 ,得 出
查询结果 ,并将 结果转换 成用 xml格式 表示 的文档。
分析 Agent有 3个组要的组成部分:
(1)信息检索引擎 ,用于获取源文件和检索结果 。
(2)XML封装/解析器 ,用来将 html格式的文档
封装成 XML格式的文档 。
(3)一个文档语意发生器,用来生成 xml格式文档
以外的语意路径。
2.3 检 索 Agent
检索 Agent可 以看成 一个 网页检 索工具 或 者是
一 个搜索引擎。通过简单的查询 和检索关键字相匹配
的文件清单,它能 自主(自动)的发现检索结果。然后将
查询结果传送给分析 Agent,查询 Agent是可以建构和
配置的所以我们可以选择一款适合我们应用范围的搜
索引擎,目前有许多搜索引擎也能完成检索代理的功
能 ,常用的搜索引擎有百度、雅虎、谷歌等 。