ֻ28ज ֻ11௹౦ Б ᄖ ᆽ ୍11ᄅ JOURNALO FINTELLIGENCENov. 2009ࠎႿيၲ෬၂ุ߄֥ॴეྐ༏෬࣮*TheResearchofCross-LanguageInformationRetrievalBasedonTranslation-RetrievalIntegration张金柱 蒋勇青(ᇏݓ॓࿐ඌྐ༏࣮෮ Кࣘ 100038) (КࣘຣٚඔऌܢٺႵཋ܄ඳ Кࣘ 100038)ᅋ ေ 从检索方法a结果展现和评估方法三方面分析跨语言信息检索的现状,引出翻译检索一体化的跨语言信息检索方法,把翻译a检索结合在同一检索模型中b一体化将翻译和检索中的不确定性组合在一起,从而做出更全局的优化,减少跨语言信息检索与单语检索之间的差距,从而充分利用单语检索中的有用方法;并针对万方数据现有资源,构建出面向科技文献的跨语言信息检索系统框架bܱՍ 跨语言信息检索 一体化 查询翻译 科技文献资源ᇏٳোݼ TP311TP18 ໓ངѓ് A ໓ᅣщݼ 1002-1965(2009)11-0167-05 ॴეྐ༏෬(CrossLanguageInformationRe CLIRԢਔֆე෬ݖӱຓ,ߎླေ၂۱يၲݖӱbᆞtrieval,CLIR)൞၂ᇕห൹֥ྐ༏෬(InformationRe ၹೂՎ,ޓ؟ሱಖეԩٚ૫ฐ෬֥ඌФႋႨtrieval,IR):ႨႨଖᇕე֥෬ՍҰ࿘ਸ਼၂ᇕე֞CLIR༢ᇏ,ཞՍׅaეਘބࠏఖيၲ༢ॖି૭ඍ֥໓֖bܱႿԮCLIR֥࣮ॖၛሔි֞20߶ФႨটࣉྛҰ࿘ࠇᆀ໓֖֥يၲbطགྷࣂࠏఖيၲൗࡀ60୍ս,ഈൗࡀ70୍սൈ,Salton[1]Ⴈ൭۽ᇅඌഉ҂Ӯඃ,֝ᇁCLIRི֥ݔીႵֆე෬ིݔቔ֥චეՍׅࣉྛҰ࿘يၲ,CLIRི֥ݔമᇀॖݺb࣍ট֥ൌဒ္іૼ,CLIRҰ࿘֥ሙಒੱᆺႵֆეၛაֆეྐ༏෬ཌྷឡૅb֞ਔ90୍ս,۲ᇕე֥෬֥50%~75%[2],ᆃ္ࠗৣૌࣉྛ۷ࡆധೆֹࠏఖॖ໓ЧඔਈᄹӉ,ఃᇏޓ؟൞টሱ৳ຩ࣮ބฐ෬b֥ଽಸ,൞ᆃུ໓Чն҆ٳᆺ൞ၛֆეࣉྛ૭ඍ,طݓଽն؟ඔॴე෬࣮Ⴈሱಖეԩ֥ᄯӮޓ؟Ⴈم֤֞ބᄇᆃུྐ༏bၹՎ,ྍ֥ٚൔࣉྛҰ࿘يၲ,ಖުϜيၲࣉྛֆე෬,ϜॴეႨླԛགྷਔ:Ⴈླေॴᄀეᅰθࠆ౼aᅧྐྐ༏෬ٳູҰ࿘يၲބֆე෬ਆ҆ٳ,طીႵ༏bCLIR֥మᄝႨЇও:ିܔᄇຓ໓໓ང,҂Ϝૌ٢ᄝ၂ఏࣉྛ၂ุ߄ԩ[3]bЧ໓ࡼႨيၲିሙಒيၲҰ࿘ܱՍ֥Ⴈ;Ұ࿘aᄇຓ໓໓ངन෬၂ุ߄֥ٚمؓఃࣉྛඪૼbႵ֥Ⴈ,๙ݖؓCLIR၂קඔਈ֥෬ࢲݔࠢ(ط٤ಆ҆ࢲݔࠢ)ࣉྛࠏఖيၲ,ॖၛϺᇹႨնۀ1 CLIR࣮ࣉᅚਔࢳ෬ࢲݔ,ൈࢠഒ֥ݻ༢ྟି;ၘࣜᅧਔ ෬ٚمં 1ၛ෬ٚൔؓଢభCLIRຓ໓ܱՍࠇ؋ე,ླေၛଛეᄇაՎཌྷܱ֥໓֖ٚمࣉྛٳো,۱նোაЧࢫ֥ཬࢫٳљؓႋ,ѩ֥Ⴈbབྷ༥ඪૼbൌ࠽ഈ,CLIR࣍টၘࣜӮູྐ༏෬aሱಖე1 1 1 Ұ࿘يၲbՎٚمᄝ෬ᆭభ,Ⴈචეԩބದ۽ᇆି֩ਵთ֥ಣ߅ีbCLIRѩ҂ᆺཋՍׅࠇეਘ९ϜҰ࿘ܱՍيၲӮ໓֖іൕ֥ე,Ⴟਆᇕე,࣐ܵᄝЧ໓ᇏ၂ᆰษંݱႇCLIR,൞ط෬ݖӱაֆე෬ჰഈ൞၂ဢ֥,يၲଆॶିCLIRൌ࠽ഈॖၛঔᅚ֞؟ᇕეbܔޓಸၞֹᆱೆ֞གྷႵ֥IR༢ᇏbՎٚمॖၛ༥CLIR֥Ұ࿘ބ໓֖Ⴈ҂֥ეіൕ,ၹՎ,ٳູၛ༯ᇕ:൬۠ರ௹:2009-07-06 ྩ߭ರ௹:2009-08-12ࠎࣁཛଢ:॓҆ݓࡅᆦӪ࠹߃ཛଢ ؟ეྐ༏ڛༀߌܱඌ࣮აႋႨ (щݼ:2006BAH03B02)ބ ॓໓ངྐ༏ڛༀ༢ႋႨൕٓ (щݼ:2006BAH03B06)ज़ีӮݔᆭ၂bቔᆀࡥࢺ:ᅦࣁᇸ(1983-),ଳ,౦Б࿐ණൖ,࣮ٚཟູሱಖეԩބॴეྐ༏෬;ࢀႧౝ(1963-),ଳ,ۚࠩ۽ӱഽ,ຣٚඔऌڛༀܢٺႵཋ܄ඳሹࣜa֔ሹᆦ࠺,࣮ٚཟູᆩ്߄ྐ༏Ӂࡹഡބ൧ӆܼࠣڛༀุ༢ࡹഡb
! 16 8 ! ౦ Б ᄖ ᆽ ֻ28जࠎႿՍׅٚمჷეބଢѓეҰ࿘ᄝؓႋ֥ჷეބଢѓეეҰ࿘يၲࠎႿეਘ९ٚمචეؓఊეਘਘ९ഈ෬;ቋުбࢠ෬ࢲݔ,აჷე෬ࢲݔؓֆეეਘఊඔቋ؟֥يၲީ࿊ཛູࠧቋᇔيၲbՎᇕٚمაၛࠁކٚمഈ෮ඍٚمႵཁᇷљ:Ϝيၲބ෬ቔູ၂۱ᆜุ,໓֖يၲ໓֖ಆ໓يၲ෬ႄՍيၲط҂൞Ϝૌ৫ԩbChen֩[10]ิԛ:ϴෛჷე֥يၲఆၬ໙ี,ଢࠎႿᇶีՍіٚم൭۽ᇅቔ֥ᇶีეіѓეᇏ္Ⴕ၂Ս؟ၬ֥ఆၬ໙ี,หљ൞֒ჷეᇏݓეіൕمࠎႿეਘ९ᇶีՍіཟਈॢࡗଆ๙ႨཟਈॢࡗଆܱՍؓႋਔࢠ؟֥يၲ,ൈ,ఃᇏ֥ଖུيၲႻაమᄝეၬ෬ႄ؟ᇕՍၬؓႋ,ଢѓე֥Սၬཨఆॖିбيၲཨఆ1 ၛ෬ٚൔؓଢభCLIRٚمࣉྛٳো۷ܱbࢳथᆃ۱໙ีླေࡼҰ࿘ܱՍ๙ݖ܋གྷࣉֻ၂ᇕູࠎႿՍׅ֥ٚم[4],HullބGrefenstetteྛཌྷႋঔᅚটཋᇅଢѓეᇏيၲ֥၂Ս؟ၬ౦ঃbႨචეՍׅ֤֞Ұ࿘ܱՍ֥يၲ,ᆃུيၲॖି္Ⴕ࣮ᆀิԛࠎႿႨཌྷّܱঌ֥ٚمࣉྛҰູ؟۱ѩ߶ФႨটࣉྛ෬bՎٚمෙಖၞႿൌ࿘ఆၬ֥ཨԢѩؓҰ࿘Սࣉྛঔᅚ,ᆃᇕٚمؓҰ࿘གྷ,߶ْ߭ޓ؟҂ཌྷܱ໓֖ࢆ֮ਔ෬ྟିbູࢲݔ֥ሙಒิۚಒൌႵ၂קིݔ,൞ૼཁ߶ࡆᇗႨਔࢳथᆃ۱໙ี,္Ⴕ࣮Ⴈ OR ҠቔژϜيၲީ֥ڵք,ೂޅႨࠏఖ֥ཌྷّܱঌٚمࣉྛҰ࿘֥࿊ཛ৵ࢤఏট,ѩؓૄ۱ީ࿊ཛڮჍ၂۱ಃᆴࣉྛঔᅚބཨఆҌ൞ࣂުؿᅚ֥ٚཟbఃᇏيၲభҰ࿘ঔ෬bဢ,Ⴈ҃غ෬֥ٚم,ॖၛϜૄ۱ީ࿊ཛᆭᅚaيၲުҰ࿘ঔᅚބ໓֖ཌྷܱྟקླေႨࣉࡗၛ҂֥Ҡቔژ৵ࢤbBallesterosބC[5]roftႨਔྛҕაbअ҆ഈ༯໓ٳ༅ބࠎႿ؋ე֥يၲٚمڿࣉਔࠎႿՍ1 1 2 ໓֖يၲbՎٚمᄝࣉྛ෬భ༵Ϝ໓ׅ֥يၲٚمbDorrބOard[6]ࡎਔეၬٚൔؓҰ֖ࠢيၲູҰ࿘ე,ᄝն؟ඔ౦ঃ༯,ՎٚمႨࠏ࿘يၲ֥ቔႨ,ఃൌဒࢲݔіૼ,ࠎႿეၬ֥ٚمѩીఖيၲ༢Ϝࠢᇏ֥໓֖ࣉྛಆ໓يၲ,Ⴕൈ္߶ႨႵࠏఖيၲࠇࠎႿՍׅ֥Ұ࿘يၲႵིbࠎႿՍׅ֥ٚمؓ໓֖֥෬ႄՍࣉྛيၲ[11]bཌྷֻؓؽᇕٚم൞ࠎႿეਘ९֥ٚم,ՎٚمႨՖႿ؋Ұ࿘ط,يၲު֥໓֖Їݣ۷؟a۷ᇗေ֥ྐචეؓఊეਘᇏิ౼֥يၲࣉྛҰ࿘يၲ[7]bЧ໓෮༏,൞ൈࡗིੱބྟି҂ିЌᆣbၘႵ࣮іૼඍචეؓఊეਘ๙ӈіൕਆᇕე֥ეਘᄝᅣa؍Ⴈࠏఖيၲ༢ࣉྛ໓֖يၲ֥ٚمႪႿࠫᇕࠎႿઋaओሰބՍഈ૫֥ؓఊbႵਔᆃུეਘሧჷ,ࠎႿეՍׅ֥Ұ࿘يၲٚمb࣐ܵೂՎ,္Ⴕ၂ུ࣮ᆀಪਘ९֥ٚمࣼିՖᇏԎ౼གྷႵՍׅᇏીႵ֥ህြਵთູҰ࿘يၲބ໓֖يၲٚم֥ཌྷؓႪ൝౼थႿჷეՍ߸bൌဒіૼ,ࠎႿეਘ९֥Ұ࿘يၲႪႿࠎႿՍބଢѓეؓ,طնܿଆ֥໓֖ࠢيၲ๙ӈ൞҂ॖׅ֥Ұ࿘يၲ,ൈૌ֥ؓбൌဒ္іૼՎٚمႪྛ֥bႿࠎႿGVSM/LSI֥ٚم[7]b֒ಖ,ࠎႿეਘ९֥Ұ1 1 3 ᇏࡗეіൕمbᆃ۱ٚم֥ނྏ൞Ϝ࿘يၲٚم߶Ⴈ֞ޓ؟ሱಖეԩ࣮ᇏ֥يၲิҰ࿘ބ໓֖ࠢކᄝეܱ֥ॢࡗᇏіൕ,Salton[12]౼ඌbಪູ,ᇏࡗეіൕم֥ࠎԤ൞ֆე෬ᇏ֥Ұ࿘ঔֻᇕٚم൞၂ᇕࠁކٚم,൮༵ႨՍׅࣉྛᅚඌbᆃᇕٚمॖၛФ༥ٳູࠎႿၬՍׅ֥ٚمҰ࿘يၲ,ಖުႨეਘ९টࢳथҰ࿘يၲᇏ֥ఆၬބࠎႿཟਈॢࡗଆ(VectorSpaceModel)эਈٚمb໙ีbაഈඍֻؽᇕٚم֥චეეਘ९҂,Balles Salton[12]Ϝ൭۽ᇅቔ֥ႇمބႇ֣ՍׅႋႨ֞terosބCro[8]tfႨଢѓე֥ֆეეਘ९টࢳथఆSMART༢ᇏ,ѩൈᆣૼCLIR༢෬ིݔॖၛၬ໙ี,ᆃဢ၂টॖၛࢫസޓ؟ᇅቔචეეਘ֥ӮЧbაֆე෬ཌྷឡૅbՎٚم࿊ᄴᄝଢѓეეਘ९ᇏགྷੱ֥ۚҰ࿘يၲIRRD(InternationalRoadResearchDocumentation)ީ࿊ཛ֥ቆކbဢ,චეეਘ९္ॖၛФႨᄝࠁކႨႇ֣مᇕე֥Սіb္Ⴕ࣮ᆀႨEu ٚمᇏ,္Ⴕ࣮Ⴈਔཌྷර֥ఆၬཨԢٚم,ѩႨroWordNet؟ეᇶีՍі)b҂ཞഈඍٚمႨದਔՖචეྛეਘ९ᇏ֤֥ܱ֞ՍՍྐ༏b۽щᇅ֥ᇶีՍі,ޓ؟࣮ᆀႨਔՖؓఊეਘᇏဢ,ॖၛՖ৳ຩഈሱሂ౼ႇეބمეྛეਘѩሱิ౼֥؟ეᇶีՍіb֤֞ۀੱҰ࿘يၲଆѩൡႨႿCLIRb๙Ⴈཟਈॢࡗଆ(GeneralizedVSM)ބమᄝეၬDaisބOgden[9]Ⴈචეؓఊეਘቔູ໓֖ࠢކ෬ႄ(LatentSemanticIndexing,LSI),ቋष൞ቔູֆট෬ଆb൮༵ՖՍׅᇏ֤֞෮Ⴕॖି֥يၲე෬ᇏཟਈॢࡗଆ֥эਈ,ϜҰ࿘ބ໓֖٢ೆ၂ީ࿊ཛ;ಖުᄝචეეਘ९ഈࣉྛҩ൫,ٳљႨ۱ეܱ֥ཟਈॢࡗbၹՎ,ᆃུٚمॖФႨ
ֻ11௹ ᅦࣁᇸ,֩:ࠎႿيၲ෬၂ุ߄֥ॴეྐ༏෬࣮!169!֞CLIRᇏb࣮ᆀฐ෬ਔLSIႋႨႿCLIR,ൌဒіيၲ෬֤֥֞໓֖ቔູՎҰ࿘֥ཌྷܱ໓֖bߐओ߅ૼGVSMᄝCLIRᇏႪႿLSIbაࠎႿՍі֥ٚم၂ඪ,ᆃᇕܙٚم౼थႿCLIR֥Ұ࿘൞ڎႵֆეҰဢ,ࠎႿGVSM/LSI֥ٚم္ླေචეეਘ९b࿘ི֥ݔބି৯b ෬ࢲݔᅚൕ ᄝCLIRᇏ,෬ْ֥߭໓֖ᅚൕٚم֥ܙ๙ӈႮҩ൫ᆀࣉྛܙ,ಖطҩѩ҂൞ၛႨ֥ଛეіൕ֥,ၹՎ,CLIRᇏ෬ࢲݔ൫ᆀ๙ӈေູ҂֥༢ࣉྛҩ൫ބܙ,ᆃॖି߶֥іൕࣼཁ֤бֆე෬ᇗေ֤؟bCLIR༢༐ຬႄఏொ,֝ᇁࢲݔ֥҂܄ᆞbՖਸ਼၂ٚ૫টඪ,ೂݔᅚൕ۷ഒᄮၻa۷ཬ֥ࢲݔࠢ,ߐओ߅ඪ,ሙಒੱбᅺ؟۱ҩ൫ᆀᆺҩ൫၂۱༢,ପહ҂֥ҩ൫ᆀ္߶߭ੱཁ֤۷ູᇗေbႵི֥ᅚൕဢᇗေ,бೂ,ᄝཌྷ႕ཙࢲݔ֥܄ᆞྟbູਔቋཬ߄ᆃᇕொ,ၛҩ൫ᆀّܱঌᇏႨླေބ༢ࣉྛ؟Ցཌྷܱ෬ࢲݔ֥ࢌᄝଢѓე֥໓߄ࣉྛٳো,Фٳູ၂ো֥ҩ൫ᆀ๙bӈФಪູ൞၂۱ҩ൫ᆀb࣐ܵೂՎ,ᆃߎ൞၂۱ष࣐ܵೂՎ,ݖಀᆺႵޓഒ࣮ิ֞ਔೂޅࢳथᆃ٢໙ี,ѩླေ۷ധೆ֥ฐ෬b۱໙ีbႵ֥ᆺ൞οඨཁൕ෬໓֖֥ܱՍ, ૌܱᇿ֥ਵთࠣٚم ๙ݖၛഈཬ҆ٳط҂൞ᆜ໓֖bၹູն؟ඔCLIR༢Ⴈ࠹ྐ֥ษંބ૭ඍ,ᇶေႵၛ༯ࠫ۱ٚ૫֥໙ี߶ᄝЧ໓༏ࣉྛ෬,ཞՍa໓֖ੱ,ࡥֆֹοඨཁൕᇏࣉྛษંބ࣮bؓႿيၲٚمটඪ,Ұ࿘يၲ֥໓ᅣ֥ܱՍ҂߶حຓᄹࡆྍ֥࠹ෘڵքbൌဒіૼൌགྷӮЧ۷֮,ၹູᆃᇕٚمॖၛࢠࡥֆֹაགྷႵIRࣇࣇ၂۱ࡥֆ֥ܱՍيၲ(ೂࠎႿՍׅ֥ٚمิ܂༢ࢲކbطਸ਼ຓ֥ٚمбࢠگᄖ,ၹ໓֖يၲٚ෮Ⴕॖି֥يၲ)္ିܔϺᇹႨ۷ݺֹᄝ෬ࢲݔمླေؓᆜ۱໓֖ࠢࣉྛಆيၲ,طᇏࡗіൕمඌᇏᅳ֞ཌྷܱຓ໓໓֖bSuzuki֩[13]๙ݖбࢠ۲ᇕ҂҂ӮඃႿൌགྷb֥෬ࢲݔᅚགྷٚمᅳ֞Ⴈቋડၩ֥ٚൔ,ᇶေૌܱᇿ֥ᇶေٚ૫൞ؓҰ࿘ᇏ֥ܱეࣉྛيЇওၛ༯ࠫᇕٚൔ৫ᅚགྷ෬ࢲݔ:ၲ,ط҂൞ᆜ۱໓֖ࠢކbᄝ҂֥Ұ࿘يၲ֥ٚمa.ᆺཁൕ෬ࢲݔ֥ܱՍ(ໃيၲ);b.ၛՍׅᇏ,ૌ֥ٚمაMark֩[9]ิԛ֥ٚمཌྷර,Ϝيၲᇏקၬֻ֥၂۱ೆ१Սْ߭෬ࢲݔᇏܱՍ֥يބ෬ݖӱ٢ᄝ၂ఏࣉྛԩ,Ֆྐ༏෬֥࢘؇࿊ၲ;c.Ⴈࠁކٚمؓ෬ࢲݔᇏܱՍࣉྛيၲ;d.ᄴҰ࿘يၲ,ط҂൞Ֆ၂Ϯيၲ֥࢘؇b໓֖ሱᅋေ(ႨགྷႵ֥ሱᅋေೈࡱ)ѩؓఃࣉྛؓႿᅚགྷٚم,ૌႨࠏఖيၲ֥ٚم(၂ཛದ۽يၲbଢิ܂֥ࠏఖيၲ༢)ؓҰ࿘ࢲݔ֥ีaᅋေaܱૌ֥ؓбൌဒіૼֻᇕٚم෬ིݔބིੱՍࣉྛيၲᅚൕ۳Ⴈ,֒Ⴈյषᆜ۱໓֖ൈิ֥ሸކٳඔ൞ቋ֥ۚb܂ᆜ۱်૫֥يၲbؓႿֆე෬টඪ,ࠎႿႨ֥Ұ࿘ࠇᆀܱᇿਵቋު,ؓႿCLIR֥ܙ,ၹູགྷྛ༢ߎԩᄝൌთ֥ሱᅋေٚم္ᆞᄝฐ෬ބ࣮bૌ္ॖၛဒࢨ؍,ѩીႵؓ෬ࢲݔࣉྛཌྷႋ֥ܙ,෬يႨࠏఖ࿐༝ඌՖႨܱᇿਵთࠇҰ࿘Ӂള֥໓֖ᇏၲ၂ุ߄֥ٚمၘӮູॴეྐ༏෬֥ಣׄbሱӁളᅋေܿᄵbൌဒіૼ๙ݖᅚགྷ෬໓֖ᇏЇݣҰ࿘ܱՍ֥໓֖ோ؍ିܔϺᇹႨ۷ݺֹࢳ໓2 يၲ෬၂ุ߄֥Ұ࿘يၲᅣնၩbϜᆃུٚمႋႨႿCLIRߎླေ࿃ฐ෬ބ ॴე෬აֆე෬֥ཌྷරྟ ૌ൮༵࣮bٳ༅ֆეྐ༏෬,ಖުᄜुაॴეྐ༏෬֥ ܙٚم ၛ॓࿐֥ٚمܙCLIRི֥ݔཌྷරྟbᄝֆეྐ༏෬ᇏ,ૌ߶მ֞Ұ࿘҂ປᆜ൞٤ӈᇗေ֥bն؟ඔ౦ঃ༯,CLIR֥ܙაֆე֥໙ี,ࠧҰ࿘ᇏᆺЇݣ҆ٳط҂൞෮ႵႵႨ֥ܱ෬൞၂ဢ֥,ૌ൞۴ऌყ༵קၬҰ࿘ބ໓֖֥ҩՍbູਔࢳथᆃ۱໙ี,ದૌ๙ӈᄎႨҰ࿘ঔᅚࡼਸ਼൫֤ࠢ֞෬ࢲݔ֥࠹ඔऌ,ಖު۴ऌሙಒੱބᅺ၂ུཌྷܱ֥ܱՍࡆೆҰ࿘ᇏbطಒקཌྷܱ֥ܱՍ߭ੱࣉྛ༢ܙb္Ⴕ၂ུൌဒࡼҰ࿘ބ໓֖ᄝ֥ݖӱൌ࠽ഈॖၛुӮ൞၂ᇕࢠູࡥֆ֥ݖӱ:ܙభࣉྛيၲ,ಖު০Ⴈᆃུيၲቔູֆე෬ҩ൫ૌ൫ᄎႨ۲ᇕၘႵ֥ᆩ്ࠣྐ༏؎ԛଧུܱࠢࣉྛҩ൫b࣐ܵೂՎ,Sakai֩[14]ൌဒіૼCLIRིՍ൞ཌྷܱ֥bбೂႨՍ९(Wordnet,Hownet֩)ᇏݔ߶၇ঠႿҩ൫֥ࠢيၲᇉਈ,෮ၛCLIR֥ҩ൫ࠢՍ֥܋གྷੱࠇເཌྷّܱঌ֩bೂݔ၂۱ྍՍބჰҰႋھ൞ሙಒيၲ֥bҩ൫֥ളӮЇও൬ࠢ໓֖,Ӂള࿘ᇏ֥ଖུՍႵૡ్ܱ༢,ପહૌࣼॖၛϜࡆೆҰ࿘ѩӁളؓႋႿૄ۱Ұ࿘֥ཌྷܱྟࡎ,طཌྷܱྟ֞Ұ࿘ᇏbᄝॴეྐ༏෬ᇏҰ࿘يၲൌ࠽ഈ൞၂ࡎཌྷ֒ݻٮሧჷ,หљ൞ؓႿնܿଆ֥໓֖ࠢ,Ⴕ۱ཌྷර֥ݖӱ:ૌ൫ಒקაჰҰ࿘ૡ్ཌྷܱ֥ਸ਼࣮ᆀ༵Ϝ෮ႵҰ࿘يၲູ໓֖іൕ֥ე,ႨҰ࿘၂ე֥ܱՍbԢਔე֥҂ၛຓ,ᆜ۱يၲݖ
! 17 0 ! ౦ Б ᄖ ᆽ ֻ28जӱॖၛФुӮ൞၂۱Ұ࿘ ঔᅚ ݖӱbᆺ҂ݖ൞෮ಒLafferty[17]֥۽ቔᇏ,ѩીႵࡼᆃ၂ଆႨႿॴეק֥ྍՍѩ҂൞ႨটҀԉჰႵ֥Սط൞Ⴈট౼ս෬طᆺ൞ႨႿֆე෬bૌb҂མའࡼ܄ൔ(1)ބ(2)ႨႿॴეྐ༏෬ֆე֥Ұ࿘ঔᅚࠇཌྷර֥ݖӱ๙ӈФࢲކ൞၂۱ᆰࢤ֥ႋႨ:ૌॖၛࡌקtބtٳљູଢѓij֞၂۱෬ଆ,ೂᄝ֥ં໓[8],ᆜეބჷე֥Սbᆃဢs(t,t)ބt(t|t)ࣼॖၛᆇijij۱෬ଆФіղӮ၂۱Нွථຩ,ՍაՍᆭࡗ֥ᆞุགྷti֞tjᆭࡗ֥يၲܱ༢bႨ܄ൔ(1)ބ(2)(ࠇܱ༢Фࢲކ֞ᆃ۱ຩᇏb၂۱໓ࡱა၂۱Ұ࿘ᆭࡗ֥োර֥ٚم)ࣉྛॴე෬ିࡼيၲݖӱࢲކ֞ᆜܱ༢൞๙ݖၛ༯҄ᇧ֝ԛ֥:໓ࡱა෬ႄՍ֥ܱ༢;۱෬ଆᇏbKraaijބ[18]ᆞ൞Ⴈᆃᇕٚ෬ႄՍაྍՍ֥ܱ༢;ྍՍაҰ࿘֥ܱ༢bᄝᆃ၂ଆمࣉྛॴეྐ༏෬֥bૌ֥ൌဒ္іૼᆃᇕٚᇏՍᆭࡗ֥ܱ༢֥ᄎႨၘࣜэӮਔଆ֥၂҆ٳbمбࡼيၲुቔ൞၂ᇕຓ҆ݖӱ۷ູކ,മᇀॴეᄝބ֥ં໓[15]ᇏૌॖၛ۷ౢ෬ི֥ݔॖၛӑᄀֆՍ෬bԣֹु֞Ұ࿘ঔᅚ൞ڎФࢲކ֞ଆᇏؓ෬ིݔ֥࣐ܵKraaij֩[18]ࡼيၲܱ༢ࢲކ֞෬ଆᇏ,႕ཙބ[15]reiбࢠਔਆᇕҰ࿘ঔᅚ֥ૌ္ᇿၩ֞,ᄝૌ֥۽ቔᇏ,يၲܱ༢t(t|t)ٚمij:၂ᇕ൞༵۴ऌҰ࿘֥ՍٳљಒקঔᅚՍ,ಖުࡼૌࡆೆ֞Ұ࿘ᇏbૌॖၛϜᆃ၂ٚمुቔ൞၂ᇕ൞۴ऌ၂۱৫֥ྛეਘ९টಒק֥b෮Ⴈ֥ྛຓ҆ঔᅚ֥ٚمࠧ෬ଆᆺ൞ϜঔᅚࢲݔႨႿეਘ९൞ᄝWebഈሱडԛট֥bᆃဢࣼ߶ടࠣ෬֞ਸ਼၂۱໙ี:يၲଆ෮ࡩ֥يၲՍ൞ڎൡႨႿ,طঔᅚݖӱ൞ཌྷؓ৫֥bਸ਼၂ᇕٚم൞ࡼঔᅚݖӱࢲކ֞෬ଆᇏbᆃ၂ଆЇݣਔՍაҰ࿘ބૌ෮ေҰ࿘֥໓ࡱࠢ,ᄝଖུ౦ঃ༯ᆃ၂ׄѩ҂ିՍაՍ֥ܱ༢bૌ֥ൌဒࢲݔіૼު၂ᇕٚمбభЌᆣbбೂيၲଆ൞၂۱๙ႨଆطҰ࿘֥໓ࡱࠢ၂ᇕٚمݺbႨඔ࿐ٚൔіղᆜ۱෬ݖӱॖၛФ૭൞၂۱ህြ໓ࡱࠢ,ࠇᆀيၲଆ൞۴ऌଖ၂ֹ֥ඍູྛ໓ࡱࡹ৫֥,طҰ࿘໓ࡱࠢ൞ਸ਼၂ֹ֥໓ࡱb:෮ၛKraaij֥֩۽ቔѩીႵႵֹིࢳथᆃ၂໙ีbູsim(D,Q)=∀∀s(t,t)∃w(t,D)∃w(t,ijijt#Dt#Qjiਔࢳथᆃ၂໙ีૌ֒ಖॖၛႨ၂ህြࠇ၂ֹD)(1)֥ѩྛეਘيၲଆ,۴ऌيၲՍᄝҰ࿘໓ࡱఃᇏsim(D,Q)ູ໓ࡱDބҰ࿘Q֥ཌྷර؇;ࠢᇏ֥܋གྷটಒקଧ၂۱يၲՍ۷ൡႨႿҰ࿘໓ࡱs(t,t)ູਆ۱ܱՍtބtᆭࡗ֥ܱ༢;w(t,D)ބijijiࠢbw(t,D)w(t,D)ᄵٳљູ෬ႄՍtބtᄝQބDᇏjiij ࠎႿيၲ෬၂ุ߄֥ॴე෬༢ٚσ֥ಃᇗb Ч໓ၛ૫ཟ॓໓ངሧჷ֥يၲ෬၂ุ߄֥ݱႇᄝၛഈіղൔᇏॖၛु֞Սᆭࡗ֥ܱ༢,ࠧs(t,iॴეྐ༏෬༢ູ২ࣉྛඪૼ,طݖಀ֥CLIRt)ѩ҂ᆺ൞ֆֹФႨটಒקཌྷܱ֥ঔᅚՍ,္Фj༢࣮ն؟൞૫ཟྍ໔ሧჷ९֥bЧ໓֥࣮ሢငႵࠏֹࢲކ֞ᆜ۱෬ଆᇏbᄝᆃ۱ଆᇏ,ྍ֥ҰႿຣٚඔऌ؟୍ࠒ֥॓໓ངሧჷ,ൈႋႨ॓࿘Їݣਔt,ط֥ಃᇗ൞j∀s(t,t)∃w(t,D)bႮijjᆦӪ࠹߃ज़ี൬֥ࠢնਈݱႇචეეਘބᇏྐ෮ิ܂t#DjՎॖၛुԛ,ᄝֆეྐ༏෬ᇏࡼҰ࿘ঔᅚࢲކ֞ଆ֥ᇶีՍі,৯ิۚCLIRི֥ݔbбࡼঔᅚुӮ൞၂۱ຓ҆Ҡቔ۷ູކbఃჰၹ૫ཟ॓ሧჷ֥CLIRᄝޓնӱ؇ഈ၇ঠႿ॓ࣼ൞ૌॖၛ۷ݺֹࡼՍᆭࡗ֥ཌྷර؇ࢲކ֞෬ਵთܱՍ֥يၲᇉਈ,طޓ؟Վਵთ֥ܱՍॖିᇏ,ѩ႕ཙ໓ࡱ֥ቋᇔஆ[16]ބ.ѩીႵ൬ᄝචეՍіᇏbPirkola[19]ႨTREC֥F[15]rei֥ٚم൞Ұ࿘ঔᅚbૌ္ॖၛϜཌྷර֥ٚمܱႿࡲूᇶี֥၂۱ሰࠢࣉྛCLIR൫ဒ,ࢲݔіૼ,Ⴈᄝ໓ࡱഈൌགྷ໓ࡱঔᅚbᆃᆞ൞ބ.ཌྷؓႿᆺႨ๙ႨՍі֥CLIR,๙ႨՍіބਵთՍіLaffertyิԛ֥ྐ༏෬يၲଆ֥ჰ[17]b֥ࠎ֥ࢲކႨིݔ߶۷ݺbᆃ္іૼਔਵთՍіؓႿЧॿࡏ൞࠹ეଆ,၇ᅶ࠹ࠏఖيၲ֥ჰCLIRܱՍيၲ֥మᄝቔႨbൈૌ္ႋھᇿၩࡼ၂ე֥Սtބtᆭࡗ֥ཌྷරܱ༢іղӮ၂ᇕيij֞,࣐ܵࡆೆਔਵთՍі,ဢ҂ି౫࣐෮Ⴕ֥॓ၲܱ༢t(t|t)bᆜ۱෬ଆॖၛіൕӮၛ༯܄ൔijܱՍbྍ֥॓Ս߸ᇶေႵၛ༯ࠫᇕӁളٚൔ:(2):a.گކՍ:ॖି൞གྷႵՍ߸֥ࡥֆࢲކ,ೂ ඔP(Q|D)= ∀t(t|t)P(t|D)(2)ijjt#Qሳܶ ࣼ൞ ඔሳ ބ ֥ܶࢲކ;b.ຓটՍ;tijఃᇏP(Q|D)ФႨটಒקD֥ஆ,P(tj|D)c.ႇ໓෪ཿbᄵູtᄝDᇏ֥ۀੱbᄝބ.ᄝ॓ਵთᇏႇၲᇏ,ຓটՍ֥ඔਈѩ҂൞ޓ
ֻ11௹ ᅦࣁᇸ,֩:ࠎႿيၲ෬၂ุ߄֥ॴეྐ༏෬࣮!171!؟,طႇ໓෪ཿ֥໙ีၘࣜ๙ݖᄝՍׅᇏ൬෪ཿބಆӫ֥ٚمࢳथޓն၂҆ٳ,ၹՎЧ໓֥ᇗׄ൞ࢳथ3 ໃটؿᅚگކՍ֥Ұ࿘يၲఆၬ໙ีbఃࠎЧනམ൞:൮༵ᅳགྷႵ֥CLIRϜᆜ۱෬ݖӱٳ۩Ӯيၲބֆე֞ቆӮگކՍ֥ࠎЧՍ߸,ಖުϜᆃུࠎЧՍ߸ٳљ෬֥৫ݖӱbЧ໓๙ݖ၂ུཌྷܱ֥࣮ඪૼᆃ၂يၲӮଢѓე,ᄜؓࠎЧՍ֥يၲࣉྛ҂֥ቆކ,ٳ۩൞҂ކ֥,ѩิԛਔ૫ཟ॓໓ངሧჷ֥ॴეѩᄝଢѓეᇏ࠹ෘགྷੱ,࿊ᄴԛቋࡄيၲ,ൌགྷيྐ༏෬༢֥ॿࡏࢲܒb۷ູކ֥ٚم൞Ϝᆃၲ෬၂ุ߄bൈᇿၩ֞॓ਵთگކՍࣜӈ߶يၲa෬ࢲކᄝ၂෬ଆᇏՖطيၲ෬၂Їݣ๙ႨՍ߸,Ч໓ѩીႵؓ๙ႨՍ߸ࣉྛ۬קၬ,ุ߄[16]b၂ุ߄֥ႪׄᄝႿॖၛࡼيၲބ෬ᇏᄝ๙ႨՍׅᇏթᄝطᄝ॓ਵთህြՍׅᇏ҂թᄝ֥֥҂ಒקྟቆކᄝ၂ఏՖطቓԛ۷ಆअ֥Ⴊ߄b္Ս߸नӫູ๙ႨՍ߸bॖၛࡨഒॴეྐ༏෬აֆე෬ᆭࡗ֥ҵए,Ֆෙಖᆃུ໙ีᄝॴე෬ᇏࣜӈടࠣѩࣉྛਔطԉٳ০Ⴈֆე෬ᇏ֥ႵႨٚمb֒ಖᆃ၂ٚمߎധೆ࣮,ն؟ඔ࣮ֆႨሱಖეԩ֥ႵրႿᄝໃট֥࣮ᇏࣉ၂҄ฐ෬bٚൔࣉྛҰ࿘يၲ,Ϝॴეྐ༏෬ٳູҰ࿘يၲބֆე෬ਆ҆ٳ,طીႵϜૌ٢ᄝ၂ఏࣉྛ၂ุҕॉ໓ང߄ԩbЧ༢Ϝيၲބ෬ᆃਆ۱ݖӱ၂ఏটࣉ[1] :ExperimentsinAuto ྛيၲಀఆԩ,౼֤ਔࢠݺི֥ݔbmaticDocumentProcessing[J].PrenticeHall,1971[2] SchaubleP,-LanguageInformationRetrieval ༢ࢲܒ૭ඍ ೂ2,൮༵,يၲఖϜჷე֥Ұ࿘يၲູଢѓე֥Ұ࿘bᄝᆃ۱ݖӱᇏ,يTrackOverview[C].InThe6thTextRetrievalConference,1997[3] ઍ.ॴეྐ༏෬ٚمۀඍ[J].ඔሳܶંฆ,2006ၲఖ༵ႨՍׅ֤֞෮Ⴕॖି֥يၲީ࿊ཛ,ѩႨ(9):17-18Ֆຣٚඔऌ९ᇏԎ౼֥Սე܋གྷྐ༏ࢳथيၲఆၬ໙[4] DavidAHull, ีbႨॖၛႨ؟۱يၲީ࿊ཛࣉྛҰ࿘,ၹູؓguages:aDictionary-basedApproachtoMultilingualInforma Ⴟ၂۱Ұ࿘ܱՍॖିႵ؟۱აᆭؓႋ֥ཌྷ࣍يၲbtionRetrieval[C].Proceedingsofthe19thAnnualInternationalؓႿ܋གྷྐ༏९,ૌႨຣٚඔऌሧჷࣉྛNჭACMSIGIRConferenceonResearchandDevelopmentinInfor ࠹ଆbၹູૌ֥༢൞ᇏႇචཟ֥,ၹՎླmationRetrieval,1996:49-57ေࠎႿيၲٚཟؓ໓֖ࣉྛ҂֥ٳ۩bؓႿႇ[5] LisaBallesteros,-languageInformationRetrieval໓໓֖,ླေಀԢ๔ႨՍ(ೂ of ),ѩಀԢྙэ߄֤[C].Proceedingsofthe20thAnnualInternationalACMSIGIR֞ૌ֥ჰྙbطؓႿᇏ໓,൮༵ေࣉྛᇏ໓్ConferenceonResearchandDevelopmentinInformationRe ٳ,གྷႨᇏ॓ჽϱ֥ٳՍ༢bಖު,ႨགྷႵ֥ຣtrieval,1997:84-91ٚඔऌྐ༏෬༢ࣉྛ෬ѩْ֤֞߭ࢲݔbቋ[6] ,ުTranslationinCross-languageInformationRetrieval[C].In1st,Ϝْ߭ࢲݔ֥ѓีaቔᆀaᅋေྐ༏ࣉྛࠏఖيၲѩْ߭ࢲႨ,֒Ⴈླေׄࠌࣉྛ໓ᅣབྷ༥ྐ༏ൈInternationalConferenceonLanguageResourceEvaluationิ܂໓ᅣ֥ಆ໓يၲb(LREC),1998[7] JGCarbonell,YYang,REFrederking, mationRetrieval:aComparativeEvaluation[C].InProceedingsoftheInternationalJointConferenceonArtificialIntelligence(IJ CAl%97),1997:708-714[8] LisaBallesteros,-languageRetrieval[C].Proceedingsofthe21stAnnualInterna tionalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,1998:64-71[9] MarkWDavis,:ImplementingaLarge-scaleCross-languageTextRetrievalSystem[C].Proceedingsofthe20thAnnualInternationalACMSIGIRConferenceonRe searchandDevelopmentinInformationRetrieval,1997:92-98[10]Hsin-HsiChen,Guo-WeiBian,-languageInformationRetrieval[C].Proceedingsofthe37thAnnualMeet 2 ༢ุ༢ࢲܒ(༯ሇֻ35်)
ֻ11௹ ਾ ౪:ݓྐ༏܋ཚॢࡗ࣮໓ང࠹ਈ࿐ٳ༅!35!ტ;ICაܶa࿐ބIT֥ܱ҆༢;ICა֖σൕ[J].ն࿐ܶ࿐Б,2006(3):24-27ܶaѰܶaԛϱഠ֥֩ކቔࠄϴܱ༢[2] Ѿൗѯ.ܶ߄࡞Ӯל&&&ྐ༏܋ཚॢࡗა[J].;ICᇏ֥ܵܶ۽ቔა࣮,2008(7);࿐༝܋ཚॢࡗ(LC)֥ۀaקၬa໙ีބࢳथٚσ֥࣮֩֩[3] ڱࡄࡄ.ࠎႿܶܒࡹۚܶྐ༏܋ཚॢࡗ[J].གྷ[15]bս౦Б,2008(6):61-63*՜ࣉICൌ֥ؿᅚbݓଽܱႿIC,ંં[4] ઔᄉ.ర༅ྐ༏܋ཚॢࡗࡹഡ֥٤ඌၹ[J].౦Б۽࣮ߎ൞ൌ࠽ܒࡹٚ૫ߎԩႿྍྖࢨ؍,طᆩ്ഠቔ,2008,52(3):125-127߶֥ࡹഡބܶሱദؿᅚ֥ླᆞ་ႄᄀটᄀ؟֥[5] ӧঢ়,ࡅ౩.ྐ༏܋ཚॢࡗ֥ᆩ്ܵଽݤ[J].གྷս౦࿐ᆀ࣮ᆃ၂ਵთ,ѩ֤֞ݓࡅaᆟک֩۲֥ࠩ҆ᇗБ,2008(2):49-50൪აᆦӻbၹՎ,ݓଽ࿐ᆀߎླ࿃ܱᇿݓ࠽ཟ,ࠒ[6] Ӯम႖. ྐ༏܋ཚॢࡗ ࢳ&&&ܶނྏࣩᆚ৯ᆭุགྷࠞࢹݓຓ[J].ྍൗࡀܶ,2007(4):16-19IC֥࣮Ӯݔ,৳༢ݓଽൌ࠽,ᆜކሧჷa[7] պົ, ࣈ.ંྐ༏܋ཚॢࡗ[J].ᇏݓܶ࿐Б,2007ॢࡗaഡീၛࠣඌބڛༀটܒࡹICb(4):22-25ଢభ,ݓଽֹႭః൞ת҆ခݚؿղֹ֥ྸ؟[8] ഫתប,ࡾཫѯ.࿐॓߄ህีᄇফ൩ܒࡹაICᄎႨ&&&ۚܶၘࣜԚ҄ऎСਔܒࡹIC֥ೈ႗ࡱഡീ,Їၛᇏ॓ჽഈݚളଁ॓࿐ྐ༏ᇏྏູ২[J].གྷս౦Б,2007ওپڶ֥ሧჷaྐ༏ඌaࠎԤഡീބॢࡗ֩bೂ(10):8-12భ෮ඍ֥ࠫࡅۚၘषܒࡹIC,Ⴕ္֥ၘࣜೆ[9] ঢ়ဇ,ᅦ݉ᄉ,ᅦ .࣮၄ჽྐ༏܋ཚॢࡗ֥ࡹഡ[J].Ⴈࢳ٢फ၄ჽܵᄖᆽ,2007(02):104-105,ᆃུൌиࣨߎ҂؟bགྷսܶؿᅚ֥མଆൔ,ࠧ൞ܒࡹၛ[10] ႖.൫ંസࠩ֔ܶྐ༏܋ཚॢࡗ֥ܿ߃[J].౦БሧIC/LCڛༀଆൔູଽಸ֥گކਘ۽ቔ,2007(5):78-80ܶ,ၹՎݓܶࢸႋ֒ۚ؇ᇗ൪,ࠒࠞषᅚט[11]ᠱम.InformationCommons:ఒြ࿐༝֥ྍ [J].॓࢝,၇ກݓଽຓࣜဒ,ࢲކሱദ่ࡱ,ࡹഡൡކЧ֥ܶྐ༏(॓࿐࢝),2007(12)ICb[12]ᙛ.౦Б࿐ۀં[M].ݱ:ݱն࿐ԛϱഠ,2001ࣂު[13]ࡹᇏ.ष٢թ౼ߌ༯֥ྐ༏܋ཚॢࡗ[J].ݓࡅܶ࿐,IC࣮ਵთಯႵրധೆބঔᅚ,หљ൞ܶܶചॢࡗࣅᅦ่֥ࡱ༯,ೂޅԩܶҟሧჷބॢ़,2005(3):7-10ࡗ০Ⴈ֥ܱ༢,০Ⴈ[14]ชᄶޣ.ष٢թ౼ߌ༯ۚܶྐ༏܋ཚॢࡗหׄބթICটሇэބຉᅚܶቔູӆ෮ᄝ֥໙ี[J].ۚܶ۽ቔ,2007,27(6):44-46ิ܂؟ჭ߄ڛༀ֩ٚ૫֥࣮ऎႵٳᇗေ֥གྷൌၩ[15]ݹ ಕ,ᇫ ঢ়,Ӯम႖.ྐ༏܋ཚॢࡗݓଽຓ࣮ࣉᅚࠣཌྷၬb༐ຬݓଽICൌିܔயѱषᅚ,ݓICંܱൌ[J].ᇏݓܶ࿐Б,2008(3):82-88࣮აൌࢲކ֤۷ࣅૡ,ྙӮਅݺི֥ႋb(ᄳщ:फ)ҕॉ໓ང[1] ඎ߈,݉Խ.ྐ༏܋ཚॢࡗᄝૅݓն࿐֥ܶؿᅚაఓ(ഈࢤֻ171်)sion[C].Proceedingsofthe16thAnnualInternationalACMSI ingoftheAssociationforComputationalLinguisticsonComputa GIRConferenceonResearchandDevelopmentinInformationRe tionalLinguisticstrieval,1993:160-169,1999:215-222[11],ElkeLange,[16]ୗࡹᄉ.ൌགྷ၂ุ߄֥ॴეބ؟ეྐ༏෬[J].ඔሳBrowser:AnapplicationofMachineTranslationTechnologyinܶંฆ,2006(9):9-10Cross-languageInformationRetrieva[C].InACMSIGIR[17]AdamBerger,-LinguisticInformationRetrieval,1996Translation[C].Proceedingsofthe22ndAnnualInternational[12]Salton,:ExperimentsinACMSIGIRConferenceonResearchandDevelopmentinInfor Multi-LingualInformationRetrieval[M].CornellUniversity,mationRetrieval,1999:222-2291972[18]WesselKraaij,Jian-YunNie,-[13], BasedStatisticalTranslationModelsinCross-LanguageInforma mentSelectioninCross-languageInformationRetrieval[J].In tionRetrieval[J].ComputationalLinguistics,2003,29(3):160-formationProcessing&Management,1999:363-379169[14]SakaiTetsuya,KajiuraMasahiro,SumitaKazuo,[19] English-Japanese/Japanese-EnglishCross-languageInforma tupsinDictionary-basedCross-languageInformationRetrievaltionRetrievalUsingMachineTranslation[J].TransactionsofIn [C].Proceedingsofthe21stAnnualInternationalACMSIGIRformationProcessingSocietyofJapan,1999ConferenceonResearchandDevelopmentinInformationRe [15]YonggangQiu, trieval,1998:55-63(ᄳщ:ਾ႕઼)