MBA智库文档综合研究报告智能教室中情境感知的多通道融合方法.pdf

智能教室中情境感知的多通道融合方法.pdf

下载

Subscriptions |

6页 | 444KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

2011年 3月 15日第 34卷第 6期现代电子技术 M odern Electronics Technique M ar．2Ol1 Vo1．34 No．6 智能教室中情境感知的多通道融合方法王绍哲，罗全锋 (上海交通大学计算机科学与工程系，上海 200240) 摘要：现有的智能教室中多通道融合方法普遍缺乏情境信息的感知能力，融合策略固定、简单，不能很好解决多通道输入的二义性、非精确、冲突性和时间偏序关系。针对以上问题，采用 EMMA标注语言调整时序关系，用层次任务网络规划器 HTN 规划动作行为，用证据理论融合各个情感检测通道的检测结果，提出了一种通用可扩展的基于情境感知的多通道融合模型及方法。实验结果表明，该方法较好地解决了多通道学生情感检测的冲突性、二义性，提高了检测的精确性与正确性。关键词：智能教室；情境感知；多通道信息融合；情感识别中图分类号：TN9l9 34 文献标识码：A 文章编号：1004—373X(2011)06—0078—05 0 引言 M ultichannel Fusion M odel of Context Aware in Intelligent Classroom WANG Shao—zhe，I UO Quan—feng (Department of Computer Science and Engineering，Shanghai Jiaotong University，Shanghai 200240．China) “智能教室”是一个将智能空间概念运用到远程教育 E—I earning上的一种新型交互空间。在智能教室中，装备了大量的高科技设备，如智能灯光、智能空调、智能跟踪摄像机、激光笔、电子白板、触摸屏、大屏幕墙面投影、麦克风阵列、人体生理检测设备以及各种环境监测传感器等；另外，在物理空问之上，构建了各种软件服务，如虚拟教室、人脸识别、语音识别、手势识别、运动跟踪、语音定位、注意力检测、表情识别、生理检测等。在智能教室环境中，人的活动具有三维和直接操纵的特点，交流方式往往基于听觉、视觉、触觉等感官和自身经验来完成，客观地需要进行多通道的人机交互。然而多通道输入 (如鼠标、键盘、激光笔、电子白板、触摸屏、语音、视频、生理等)往往呈现异步性、非精确性、二义性、冲突性等复杂现象，并且受诸如光照、温度、湿度、噪音、上下文事件等情境信息的影响。这客观需要进行情境感知的多通道融合，通过整合来自各个通道的精确收稿日期：2010—10—23 基金项目：国家科技支撑计划课题(2007BAH09B05) 和非精确输入来准确捕捉和预测用户的交互意图，即人机交互任务，并触发相应的外部事件。现有的多通道融合算法主要集中在以视频、音频和笔输入通道的融合上，出现了融合槽、任务槽、框架融合、基于合一化等可参考的处理方法。多通道融合算法大多存在的不足有：融合范围只局限于少数的具体通道(如鼠标、键盘、语音和笔)，缺乏通用性和扩展性；融合策略固定、简单，不能很好解决多通道输入的二义性、非精确、冲突性和时间偏序关系；没有实现情境感知进行自适应调整。情境感知是提高计算智能性的重要途径，缺乏情境信息的融合其语义往往难以完整，交互意图理解的准确性难以提高。本文围绕智能教室中多通道信息和情境信息的语义描述和形式化描述、情境感知多通道融合的交互模型和融合算法进行了详细的阐述，并通过实际的人机交互任务，检验了模型和算法的正确性。对各个情感通道不进行展开讨论。 1 关键技术 1．1 多通道信息和情境信息的描述多通道融合需要理解和处理各个通道的语义信息，一一～一一～一一一一～一～一一一～一～～一～一一～一一一一一，一～～～一一一一～一一一～一一一～，一一一～一一一～一一～一．一～一一～一～一～～一一一一一一一一一_蚕～一～～一一一一一一一一一～一一．～～一一～一一一～一一一一一～一一一～．一一～一一～～一～第6期王绍哲等：智能教室中情境感知的多通道融合方法 79 本文借鉴自然语言处理中复杂特征集 (Complex Fea— ture Set，CFS)的概念描述多通道信息和情境信息的语义，并采用向量的方式对语义进行结构化描述，所谓 CFS，简单描述如下： A(f) f1一 W1 2 一 V 2 _，’ 一， ”≥ 1 式中：．厂，代表特征名；代表特征值，记为一A(-厂 )。把所有A中的特征包括嵌套的特征记为：dom(A)一f。当72 为原子时，A表示原子特征集；当为一特征组时， A表示复杂特征集。以通道信息为例(情境信息是一种特殊的多通道信息)，描述向量如下所示： (rood ，id，，type，，ifea，，cont ，time ，prob ，cred ) 式中：rood 表示通道 i的名称；id 表示通道 i的系统编号；type 表示通道 i的人机交互用途分类；ifea 表示通道 i的中间特征，采用复杂特征集描述，通常属于词法级或语法级；cont 表示通道 i的识别结果，采用复杂特征集描述，通常属于语义级；time 表示通道 i信息生成的时间戳；prob 表示通道 i相应识别结果 cont 的概率； cred (￡)===H [P(￡)]表示通道 i的采信度，其中 H 为情境信息作用函数，P( )为情境信息向量，t为时间戳 time 。 1．2 可扩展的多通道注释标记语言 EMM A (Extensible M ultiM odal Annotation markup language)是 W3C国际多通道组织定义的一套基于XML的，为来自不同通道的输入信息提供一种语义的注释语言，它提供了能够包含和注释用户输入解释的 XMI 标记语言的细节。EMMA的目的就是用来描述和注释从一个用户输入获得，通过解释组件自动抽取出来的信息，其中输入是指来自平台所支持的任意通道中获得的有意义的用户输入】。本文利用 EMMA语言提供的元素和属性的集合，对通道输入解释进行注释，具体就是对多通道信息和情境信息的语义结构化向量进行注释。 1．3 世界状态集合在智能教室中，语义结构化和 EMMA注释后的多通道信息和情境信息作为融合算法的输人，最终将被转换成智能规划领域中的世界状态集合。每个世界状态是一个逻辑原子，其中逻辑原子概念和一阶逻辑语言 L 类似，由状态谓词和常量符号构成。一个状态谓词可以看作是状态集的一个函数，一个状态集包含了若干个常量符号。 1．4 层次任务网络及其规划器层次任务网络 (Hierarchical Task Network， HTN)是类似于经典规划的一种智能规划方法，它利用一个原子命题集合表示系统状态，动作对应于确定的状态转换。不同于经典规划的是，在 HTN 中，规划的目的不是要达到某一目标状态集合，而是要完成某一任务的集合。所谓方法就是以“处方”的形式告诉系统如何将某一类任务分解成更小的子任务集合。规划的过程就是递归地将那些非原子任务分解成越来越小的子任务，直到出现那些可以直接执行规划动作就能完成的原子任务为止。同时，HTN规划器也是以方法的形式执行动作。如图 l所示，4个方法 (method)完成 4个任务 (task)，分别是运输一个参数名为 P的包 (package)、运输 2个参数名为 P和 q的包、调遣卡车 (truck)、归还卡车。 Ic) 图 1 HTN的方法实例 2 传统 SHOP2的工作流程本文改进了开源 HTN规划器 SHOP2(Simple Hi— erarchical 0rdered Planner 2)。通过实时的世界状态集合输入和规划问题列表输入，利用一次性编译好的规划域文档进行实时的 HTN规划，并将规划结果通过外部函数调用反馈到相应的处理模块。单次 HTN规划所需的时间就是整个规划器的延迟时间。改进后的 SHOP2规划器避免了图 2所示的每次规划对规划域文档的重编译工作，使得利用 SHOP2进行实时规划有了 80 现代电子技术 2011年第34卷可能。对于规划步数小于 300步的问题，改进后的 SHOP2规划器延迟时间不超过 0．5 S。 2 情境感知的多通道交互模型本文提出的情境感知多通道交互模型包含 6个子模块，即：多通道信息采集中心(MICC)、情境信息采集中心(CICC)、注册和信息管理中心(RIHC)、多级队列管理中心(PMC)、融合服务器(FS)、反馈中心(FBC)，如图 3所示[3]。其中： (1)MICC和 CICC负责采集多通道信息和情景信息，Interpreter是将通道源端产生的语义结构化向量进行注释，生成符合 EMMA 规范的 XML文档，并由 RIHC转发给 PMC。 (2)RIHC负责通道的注册与注销、状态轮询、网络消息的转发和冗余消息的过滤等工作。 (3)PMC负责多级信息的队列建立、队列时序管理以及世界状态集合的转化。 ITS I Profile I 司斗／ _A—udio1。，靥瓣 _；，． j Pipleline Managerment 龋妇妇卧●—_ ('enter — V — edio I，嚣器嚣，．； l M城酾dal『 h 珏硒铺嗣 Register ＆ —÷— In蠡 oIl l 舔 Information I 脚嘞i．o l Handling Center Fusion C ontext Infonnation Server ．， — Envi — orm e —nt 竺：遁 ~ , v／ Co n。 m — + MM In tema l 。图 3 情境感知多通道交互模型多级信息队列的建立是指利用开源的、跨平台的数据绑定编译器 CodeSynthesis将通道信息和情境信息的 EMMA描述文档转化成面向对象的类，称为信息元。建立数个信息元队列，按照先进先出原则将编译生成的类放入队列，将语义相近的信息源放入同一个队列，如智能教室中手写板和触摸屏消息语义相近，属于原始鼠标类别的交互设备。队列时序管理是指基于时间接近性原则和通道信息和情境信息的时效性特征，把通道信息和情境信息的多级队列中元素按时间戳进行排序，对过时的元素进行相应的更新或删除操作。其队列管理算法如下： (1)对每一级队列，均按照通道信息或情境信息的时间戳先后顺序进行排序，遵循先进先出原则，即同一个通道输入是有序的，多通道输入流在时间上存在偏序关系。 (2)对每一级队列，相同通道系统编号的信息遵循覆盖原则。即如果存在 2条通道 i的系统编号为 id 的通道信息 v和，且满足 type —type 和 time > time ，那么将被更新为 ⋯ (3)对每一级队列，按照每一类通道或情境信息的时效特征以及相应的人机交互用途分类，设定时效衰减因子 t，即如果通道 i系统编号为的通道信息 m ，对应的时问戳为 time．，，当前系统时间戳为 time⋯ ，若 time⋯ 一time ，≥f，则把 m 从队列中删除。世界状态集合的转化是指把当前多级队列中的所有有效的多通道信息和情境信息转化成一序列的状态，即世界状态集合。具体遵循以下几个原则： (1)状态谓词能区别不同的通道信息或人机交互意图分类。 (2)常量符号必须包含通道识别结果信息、相应的识别结果概率以及通道的采信度。 (3)转化后的世界状态集合作为 HTN规划器的输入，经规划后，该集合失去时间有效性。 (4)设置世界状态附加集合保存 HTN 智能规划后保留和新增的世界状态，作为下一次规划的输入。 (5)FS利用改进后的 HTN规划器对智能教室中的人机交互任务集合进行实时的融合规划，并将结果传递到 FBC_4 。具体融合算法在第 4部分详细论述。 3 基于证据理论的多通道情感信息融合算法本系统采用 4个情感检测通道，注意力检测、表情识别、语音情感检测、生理信号检测[8_，对学生情感进行检测。单个通道的检测效果较差，采用证据理论，配合先验的检测率，对多通道情感信息进行融合，可以获得更为准确、鲁棒性更强的情感检测结果。 3．1 D—S证据合成理论证据理论的主要特点之一就是可以通过证据的积累逐步缩小假设集，而证据积累的过程就需要一种方法来计算多个证据对假设的综合影响，即多个证据作用下假设成立的综合信任程度，这就是证据合成方法l_g 。 3．2 D-S合成公式设 m 和是同一假设集上的 2个 mass函数 (也称基本概率指派函数)，如果： K= ∑ 171 (E) (F)<1 EnF—O 第6期王绍哲等：智能教室中情境感知的多通道融合方法 81 则合成的 mass函数记为： 12(A)一 1(A)① r／l 2(A) f (E) (F)，A=／- 1／~12(A)一J 1一K f “ “ l 0． A — D 式中：K 为 2个 mass函数的冲突量；K > 0说明存在 E N F= D，而／T／ (E)> 0， 2 (F)> 0，即 2位专家分别支持相互排斥的 2个假设，说明他们意见冲突；K 一 0表示无冲突，即意见一致；0< K< 1表示有冲突，但尚有一致之处。个 mass函数一次性合成的 D—S合成公式如下： m(A)一 (”2l① Dr／2④ ⋯ ④ Ⅲ )(A)= ∑ I ， I Ini( A l E 一 ^ 式中：K一 ∑ IIIt／ (E)。 E 3．3 基于 D S t 理论的多通道情感融合通过前期对各个情感检测通道进行的大规模测试，可以得到每个通道先验置信度。以表情检测通道为例，表情积极状态下的检测置信度分别为 Ⅲ(pos—pos)一 0．792，／T／(pos—nat)一0．144，／T／(pos—neg)一0．064，分别代表正确检出率、误检为一般的概率和误检为消极的概率。同理，可以获得各个情感检测通道在积极、消极、一般状态下的各个检测率。当表情检测通道得到表情积极的检测结果并发送给融合服务器时，服务器得到的是上述经测试得到的在表情积极状态下的 3个先验概率。服务器应用多部D—S合成公式，将多个情感通道的先验概率进行融合，最后获得置信度更高的情感状态分布概率。 4 实验结果 4．1 实验原理本文就智能教室中“基于情境感知多通道融合的远程学生情感的监测与反馈”这一人机交互任务进行实验。实验环境为上海交通大学 E—I earning Lab的智能教室。图 4为远程学生的虚拟教室客户端，其中包括了注意力检测通道、表情识别通道、语音情感识别通道和生理特征检测通道，每个通道检测的结果(为 0～1的浮点数)代表学生的某种情感状态，另外远程教室中的光照度、噪音度等情境信息也将由独立的情境信息采集客户端搜集，这些通道信息和情境信息将按照上文所述的方法最终以世界状态集合的方法传递到融合服务器。融合服务器根据当前的光照度计算注意力检测、表情识别两个通道的采信度；根据当前的噪音度计算语音情感识别通道的采信度；根据当前的温度、湿度等计算生理特征检测的采信度；最后根据以上 4个通道的采信度和情感值对综合情感进行计算。其中，融合服务器的 “计算”是根据方法的形式执行的。图 5是改进后的 HTN规划器的工作界面。图 4 虚拟教室客户端图 5 改进后的 HTN规划器最后融合服务器把融合后的学生情感状态分别发往虚拟教室客户端和服务器，既反馈给学生，又能供教师教学参考。虚拟教室服务器端如图 6所示，其显示有 2位虚拟出席学生的视频和情感。图 6 虚拟教室服务器端 4．2 实验过程在实验开始前，除注意力检测通道无需训练外，对其余各个识别通道进行训练样本采集并进行训练。人脸表情识别子通道采集 110人次，共 6 600个训练样本；语音 82 现代电子技术 2011年第34卷情感识别子通道采集 90人，共8 100个训练样本；生理特征识别子通道采集 20人次，共 20 000个训练样本。该实验具体内容为在不同的自然环境条件下，即在不同的光照强度、噪声分贝下，对单通道识别与情境感知的多通道识别进行融合，并比较其结果。实验结果如下： (1)在封闭式实验中，即实验对象为训练样本采集对象，实验结果如图 7所示。场景一：光照 500~600 lx，噪声条件为 60~ 70 dB。场景二：光照 100~200 lx，噪声条件为 6O～ 70 dB。场景三：光照 5 000～5 200 lx，噪声条件为 60～70 dB。场景四：光照 500 600 lx，噪声条件为 30~40 dB。场景五：光照 500～ 600 Ix，噪声条件为 80～ 100 dB。场辑图 8 实验对象开发式试验图 7 买验对象封闭买验结果 (2)在开放式实验中，即实验对象样本未经过训练，实验结果如图 8所示。实验自然环境条件同封闭实验。 4．3 实验结论相比较单一通道的情感识别，情境感知的多通道融合技术能够有效地提高综合情感的识别率。特别是在自然环境较差，某个或多个单一通道识别效果较差时，多通道融合技术可以根据实时的环境信息调整每个通道的置信度，使得综合情感识别效果受环境影响较少，提高了情感识别的可靠性与准确度。 5 结语在智能教室中，多通道的人机交互普遍存在，现有的多通道融合算法普遍缺乏情境感知机制。本文提出了一种普适的情境感知多通道融合方法，包括多通道信息和情境信息的语义描述和形式化描述、多级信息队列的建立与管理以及利用层次任务网络进行实时的智能规划，有效解决了多通道信息输入的冗余性、冲突性、二义性等问题。通过实验，进一步验证了 n 情境感知多通道融合的精确性和可行性。参考文献 [1]LARSON J A，RAMAN T V，RAGGETT j D． W 3C muhimodal interaction framework [EB／()I ]．[2003—05—06]． http：／／www． w3．org／TR． r2] RYU H，PARK I，HYUN S，et a1．A task decomposition scheme for context aggregation in personal smart space Ec]． Proceedings of Symposium on Software Technologies for Embedded and Ubiquitous Systems．Italy：Springer，2007： 11l—l21． [3] QIN W ，SHI Y，SUO Y．Ontology based context aware middleware for smart spaces[J]．Tsinghua Science＆- Technology，2007，12 (6)：707—713． [4]潘巍，王阳生，杨宏戟．多模态信息融合的一般功能模型设计：基于融合功能和信息层次 [J]．计算机工程与应用， 2006，42(29)：27—29． (下转第 87页) 第6期李晓瑜等：多 Agent网络信息检索框架 87 识语言。XMI 弥补了 HTML文档中有用数据信息不能被其他应用直接理解和重复使用的缺陷，它使用 DTD(文档类型定义 )规定一套关于标记符号的语法、语义规则，比较准确地描述文本数据的内容、含义、结构、特征和关系等信息(称为元数据)，而把数据的外观表现形式交给样式表(如 CSS，XSL，DSSSL等)处理，这样就把数据的内容和其表现形式合理地分隔开，从而大大提高 XML数据的可理解性、可交换性和重用性。另外，XMI 的优势还在于它的简单性、灵活性和可扩展性。XMI 文档是纯文本，独立于平台和应用。公司和组织可自由定义标签和文档结构，亦可增添或扩展已有文档结构定义，以满足新的挑战和应用需求，而不致于破坏原来的应用。一个结构良好的 XMI 文档，其生存期可以很长。 2 基于 XML的多 Agent网络信息检索框架基于 XMI 的多 Agent信息检索框架有 3种类型的 Agent组成如图 1所示。一种是管理 Agent用于提取信息的语义和合作 Agent处理详情，一种是接口 Agents为用户和系统提供接口，还有一种是搜寻 Agents用于在 www上搜索信息，多个 Agent问使用 xm!作为它们的通信语言，相互沟通执行检索任务。信息层操纵屡 1 基于 xml的多 Agent网络信息检索框架 2．1 接口 Agent 接口 Agent使得其他的 Agent对用户来说是透明的，接 I21 Agent作为用户的前端接口，这类 Agent携带用户的检索信息代表用户和其他 Agent进行交流。用户提出一个问题，然后等待答案／结果。从接口 Agent获取检索结果后，用户可以继续浏览和问题相关的信息。接口 Agent允许用户完全忽视和它交互的其他信息检索 Agent，也可以忽略搜索在多 Agent环境中的物理实现。换句话说，用户是在和一个个性化的接口在交互，它能有效的满足用户的需求，并且不需要用户了解查询规则。很显然，接口 Agent实现了，大量且复杂任务的查询便利，而且对用户隐藏了查询细节。在模型中，接口Agent完成以下任务： (1)帮助用户执行检索请求，并将检索请求传送给其他的 Agent。 (2)为用户营造一个透明的多 Agent系统环境，也就是不用明确描述在多 Agent模型中什么是可以利用的，信息是如何构造和组织的，以及如何定位知识库的。 (3)将用户请求的检索结果传递给用户。在整个查询过程中，用户只需为信息检索指定查询条件或关键词。接口 Agent为用户收集所需的信息，然后将这些信息传递给分析 Agent继续其他信息的检索过程。最后由接口 Agent将由分析 Agent加工和处理后的检索结果传递给用户。 2．2 分析 Agent 分析 Agent通过接口 Agent接受用户的检索任务。当分析 Agent接受检索任务时，它会首先在知识库中查找，确定用户任务的基本范畴。分析问题所属的专业领域。然后将检索要求转给检索 Agent。信息分析 Agent必须具有推理、分析归纳、规划学习的能力，同时还要有相应动态更新的信息分类知识库提供支持。分析 Agent是这个多 Agent模型的核心。它保存了一个能够从中提取语意信息的中央知识库，来回复用户。同时它还是接口 Agent和查询 Agent的中介。用户的检索信息通过接口 Agent提交给分析 Agent．分析Agent自主的将检索信息转发给检索 Agent．查找到信息以后，检索 Agent将查找结果传送给分析 Agent，分析 Agent基于自己的知识库进行计算或推理，得出查询结果，并将结果转换成用 xml格式表示的文档。分析 Agent有 3个组要的组成部分： (1)信息检索引擎，用于获取源文件和检索结果。 (2)XML封装／解析器，用来将 html格式的文档封装成 XML格式的文档。 (3)一个文档语意发生器，用来生成 xml格式文档以外的语意路径。 2．3 检索 Agent 检索 Agent可以看成一个网页检索工具或者是一个搜索引擎。通过简单的查询和检索关键字相匹配的文件清单，它能自主(自动)的发现检索结果。然后将查询结果传送给分析 Agent，查询 Agent是可以建构和配置的所以我们可以选择一款适合我们应用范围的搜索引擎，目前有许多搜索引擎也能完成检索代理的功能，常用的搜索引擎有百度、雅虎、谷歌等。

联系我们

智库文档公众号

客服微信

智能教室中情境感知的多通道融合方法.pdf

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多