Special Application应用专栏智能搜索业务之手机邮箱搜索姜 萌上海洲信信息技术有限公司 杭州 310012摘 要 搜索业务一直是互联网的核心基础业务,随着技术的发展和用户需求的不断深化,针对性的智能搜索也有迅速的发展,手机邮箱搜索业务便是其一。本文从移动化、全面化、简单化三个方面分析手机邮箱搜索业务的技术难点及发展趋势。关键词 搜索;手机邮箱;移动化;云计算将越来越普及,通过手机搜索邮件是邮件智能搜索的发1 概述展趋势,即使电脑不在身边也能通过手机完成对邮件的“搜索技术”在互联网中是杀手级的应用,搜索的智能搜索和查看。智能化也备受行业关注。搜索技术早已广泛的运用于邮对手机邮箱的智能搜索实现原理,如图1。箱领域,如谷歌G-mail邮箱的搜索技术,已经能搜索到邮件收件人、发件人、标题、正文,甚至邮件附件等相关内容也已覆盖,极大的减少了用户在邮箱中查找到所需邮件的时间,这就是其中一种智能搜索在邮箱中的应用。同时,可以观察到邮箱内智能搜索技术的应用成为邮箱厂商之间竞争的重要手段之一。3G的到来,将用户带入真正意义上的移动互联网时代。手机邮箱业务作为3G通信的核心业务之一,其搜索技术面临着更大的挑战,要求手机邮箱搜索不仅局限于互联网搜索,还要求通过手机也能实现邮件智能搜索,同时对检索速度和检索范围也提出了更高的要求。图1 智能搜索实现原理手机邮箱智能搜索技术将朝着移动化、简单化、全面化三个方向发展。手机邮箱智能搜索建立在运营商网络基础之上实2 手机邮箱搜索发展趋势现。手机、搜索系统、邮箱、网络通过无线和有线的连接传输数据信息、请求等。运营商网络主要起到有效传 移动化目前移动139邮箱、联通如意邮箱、电信189邮输信息的作用,整个手机邮箱搜索业务通过接口实现连箱都只支持web页面搜索邮件,不支持通过wap、接与通信;智能搜索系统和邮件系统完成复杂的搜索过pushmail、mms、sms等方式进行邮件智能搜索,没有程,彼此之间相互交叉、相互调用,而又相互独立;同很好的解决用户通过手机随时随地搜索查看邮件的难时对整个手机邮箱智能搜索系统的控制主要由搜索系统题。随着3G网络的建设,覆盖范围的扩大,手机上网的各模块实现。2009 0579Special Application
简单化表1 各大邮箱运营商及市面上主流邮箱的邮件搜索范围越简单的使用方法往往越容易被用户所接受。邮箱搜索范围pushmail需要安装客户端、对手机终端要求高,操作复如意邮箱发件人、收件人、主题、正文、附件标题及内容(TXT、Word、Excel和PowerPoint文件以及Adobe系统公司的PDF杂,普及率不高。通过语音、短信、彩信、wap等方式文件等)、压缩附件应用专栏来实现邮件搜索无需安装客户端,降低了搜索门槛,比189邮箱发件人、主题139邮箱发件人、主题起pushmail等JAVA客户端方式搜索邮件更简单。G-mail邮箱发件人、收件人、主题、正文、附件标题及内容、压缩附件对技术实现可行性方面进行分析,语音方式搜索邮雅虎邮箱主题、发件人栏和邮件正文、附件内容QQ邮箱收件人、发件人、主题、内容、附件标题件比较困难,通过短信、彩信、wap三种方式实现手机163邮箱收件人、发件人、主题、内容、附件标题邮件搜索的可行性比较高。从相关调查显示,目前手机用户最常使用的手机应3 手机邮箱邮件智能搜索的实现原理用是语音、短信、彩信,对wap、pushmail等JAVA客手机邮箱的智能搜索不同于其他简单的搜索系统,户端的了解和使用相对较少。短信、彩信、wap三种方它不仅需要search邮箱内全部信息的能力(包括最难的式中短信的使用率和普及率最高,因此通过短信方式是附件搜索),需要解决邮箱内所有信息都是经过工程师实现手机邮件搜索最简单的解决方案(如图2)。图2 通过手机搜索邮件的解决办法复杂加密的难题,同时还需要解决手机与邮件系统良好 全面化的结合,所以对如何保障手机智能搜索的全面性、及时“没有搜不到的,只有想不到的”,用户对邮件搜性和准确性提出非常高的要求。索范围提出了更高的要求。上到收、发件人,正文,标实现邮件智能搜索可以分两部分进行描述:分词系题,下到各种格式的附件、压缩文件。不仅要求搜索范统的建设与智能搜索实现过程。围无孔不入,同时要求检索的速度足够快。目前市面上分词系统的建设是复杂繁琐的,分词系统的形成是邮件全文检索技术做得比较成功的有谷歌、上海洲信等对搜索系统的特定素材和邮箱系统内内容的抓取、并对公司,将云计算应用到G-mail邮件搜索领域。云计算这些抓取信息利用洲信检索程序进行训练,同时通过智将并行计算、分布式计算、网格计算等技术结合起来,能搜索系统专属的词典生成工具来生成搜索词典,搜索将搜索任务分布在大量计算机构成的资源池上,从而更词典内装有各种分词系统所需的词语,词典用于产生特快捷、更有效的实现邮件全文检索,如表1所示。信息通信技术80
定查询的分词系统;当然随着社会的发展,习惯用语、疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配网络名词等的改变和增加,将定期对搜索分词系统进行法在大型搜索系统中的使用频率。最大匹配法的问题有更新。以下几点:智能搜索的实现过程由数据中心网关统一调用、控1) 切分精度不高,长短无法控制,并且分词存在制、处理完成整个智能搜索过程,分词系统中装载着无歧义。数的关键字组成和组成规则,分词系统对提交的关键字2) 运行速度慢,导致效率低。输入后形成专用于搜索系统名词,利用数据中心的搜索3) 未登录词识别率低,不能识别各种命名实体和控制和处理能力对倒排搜引数据库进行搜索过程,最终新词。将搜索结果定位和反馈。 排序技术各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。 建立索引数据库由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。图3 邮件智能搜索实现原理5 结语手机邮箱搜索技术在3G时代必将掀起一场技术革命,基于云计算平台的全文检索技术与移动互联网结4 邮件智能搜索技术难点合,颠覆了传统的web页面邮件搜索方式,将搜索领域实现邮件系统包括附件在内的智能搜索门槛较高,扩充到随身携带的手机上。目前国内上海洲信公司正在邮件智能搜索技术存在很多难点,其中主要集中在中文开发基于云计算平台的基础上的一种通过短信搜索查询分词、排序技术、建立索引数据库等方面。邮件的新产品,该产品将在近期问世。手机邮箱搜索技术将朝着移动化、简单化、全面化三个方向发展,给用 中文分词众所周知,英文是以词为单位的,词和词之间是靠户带来即时邮件通讯的全新体验,提升手机邮箱在行业空格隔开,而中文是以字为单位,句子中所有的字连起竞争中的战斗力。来才能描述一个意思。参考文献目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,由于[1]欧振猛.中文分词算法在搜索引擎应用中的研究[J].抛弃了一些繁琐的语言处理,所以切分精度都不高。计算机工程与应用.2009,36(8) 尽管最大匹配法分词是常用的解决的方案,但是无[2]陈淑珍,卢昌荆,林克明.WEB文本挖掘的中文分词2009 0581Special Application
系统的设计与实现[J].三明学院学报.[4]饶弋宁,刘强,杜晓黎,等.智能搜索的自扩展知识库[3]郑健平,林智,封令隽,等.信息搜索系统及搜索方模型的研究和设计[J].计算机应用研究.法.中国知网专利数据库.应用专栏作者简历姜 萌浙江大学计算机应用专业硕士,现任上海洲信信息技术有限公司执行总裁。长期从事电子邮箱领域技术研发工作,带领公司团队成功研发出电子邮件服务系统、pushmail手机邮箱系统等产品,多次获得国家、省市级奖项。邮箱技术获得国家发明专利三项。Intelligent Search Business for Phone-mail SearchJiang MengShanghai Trasin Information Technology Co., Ltd., Hangzhou 310012, ChinaAbstract Search business is always a basic and core business of Internet. With the development of the search technology and increasing demands of the users, the intelligent search with certain pertinency has developed rapidly as well. The phone-mail search is the one of the this kind of this paper, the technical diffi culties and development trend of the phone-mail search business are analyzed from three respects of mobilization,comprehensive and simplifi Search; Phone-mail; Mobilization; Cloud Computing信息通信技术82