解決跨語(yǔ)言信息檢索問題對(duì)于搜索引擎的價(jià)值

跨語(yǔ)言信息檢索，是信息檢索領(lǐng)域中的一個(gè)研究課題。近10幾年來，由于互聯(lián)網(wǎng)的飛速發(fā)展，這方面的研究受到了學(xué)術(shù)界的廣泛重視。將這項(xiàng)技術(shù)應(yīng)用于搜索，可以幫助我們查找到更多的有用信息，例如外語(yǔ)相關(guān)頁(yè)面、多語(yǔ)言頁(yè)面以及語(yǔ)言無關(guān)的資源（如圖片）等等。這些信息可以大大豐富搜索的結(jié)果，滿足用戶多樣的需求。在跨語(yǔ)言信息檢索的研究中，有一些研究成果已經(jīng)趨于成熟，達(dá)到可以應(yīng)用的狀態(tài)。事實(shí)上，Yahoo和Google在5，6年前就已經(jīng)開始提供多語(yǔ)言的搜索服務(wù)。毫無疑問，在這方面他們已經(jīng)走在了世界的前列。目前，百度的各項(xiàng)國(guó)際化業(yè)務(wù)正在如火如荼的開展，對(duì)跨語(yǔ)言技術(shù)來說，正是用武之地。相信不久的將來，它將會(huì)在搜索國(guó)際化進(jìn)程中扮演舉足輕重的角色。來，就讓我們一探究竟吧。

假如你搜索“中菲黃巖島對(duì)峙”，如果你是一個(gè)普通用戶，你想知道的可能是這個(gè)事件的歷史淵源和發(fā)展動(dòng)態(tài)；如果你是一個(gè)文藝用戶，你想知道的可能是中國(guó)憤青們的愛國(guó)言論。沒問題，現(xiàn)有的中文搜索完全可以滿足你的需求。

但是，如果你是一個(gè)XX用戶，你對(duì)中國(guó)網(wǎng)站的內(nèi)容不滿足，很想知道外國(guó)的媒體是怎么報(bào)道的，外國(guó)民眾是怎么談?wù)撨@個(gè)事件的。那么不好意思，中文搜索引擎就無能為力了。這是因?yàn)?，中文搜索引擎都是中文作為基礎(chǔ)來構(gòu)建的，它往往只收錄了中文數(shù)據(jù)，只考慮了中文的特性，只考慮了該中國(guó)網(wǎng)民的需求。但是，當(dāng)我們想要做跨語(yǔ)言搜索時(shí)，搜索就變得困難了。且不說我們沒有抓取那么多外文數(shù)據(jù)。即使我們有數(shù)據(jù)了，由于不同語(yǔ)言之間的巨大差異，以及各個(gè)國(guó)家各種各樣的網(wǎng)絡(luò)習(xí)慣，我們也很難精準(zhǔn)地搜索到相關(guān)的外文信息。也就是說，語(yǔ)言的不同給搜索帶來了一道鴻溝。

那么，這道鴻溝就不能跨越了么？當(dāng)然不是。事實(shí)上很多年前人們就已經(jīng)開始考慮這個(gè)問題了。在學(xué)術(shù)界，對(duì)這個(gè)問題有個(gè)專有名詞，叫跨語(yǔ)言信息檢索（Cross-Language Information Retrieval）。早在上個(gè)世紀(jì)60年代，現(xiàn)代信息檢索的奠基人，美國(guó)康奈爾大學(xué)的Salton教授發(fā)表了一篇《Automatic processing of foreign language documents》，首先打開了跨語(yǔ)言信息檢索的大門。但是由于那個(gè)時(shí)代還沒有互聯(lián)網(wǎng)，研究也只能停留在簡(jiǎn)單實(shí)驗(yàn)階段，甚至跨語(yǔ)言信息檢索的概念還沒有正式提出。到了上世紀(jì)90年代，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所（National Institute of Standards and Technology）和美國(guó)情報(bào)局前沿研發(fā)活動(dòng)中心（Advanced Research and Development Activity center of the U.S. Department of Defense）聯(lián)合舉辦了信息檢索領(lǐng)域最重要的會(huì)議——“TREC”會(huì)議（The Text REtrieval Conference）。到了1996年，在瑞士所舉辦的SIGIR-96會(huì)議中，首次出現(xiàn)了以跨語(yǔ)檢索為研究主題的研討會(huì)。而到了2000年，歐盟成立了“跨語(yǔ)言評(píng)估論壇”（Cross Language Evaluation Forum），每年定期舉辦跨語(yǔ)檢索研討會(huì)，并且推動(dòng)跨語(yǔ)檢索技術(shù)評(píng)比。從此，跨語(yǔ)言信息檢索變成了信息檢索領(lǐng)域的一個(gè)炙手可熱的研究課題，無數(shù)英雄豪杰參與其中。

閑話少說，我們?cè)撨M(jìn)入正題了：對(duì)于跨語(yǔ)言信息檢索問題該如何解決呢？接下來讓我們揭開它的面紗。

在說跨語(yǔ)言信息檢索之前，我們先回顧一下經(jīng)典信息檢索是怎樣做的，如圖1所示：首先，對(duì)于用戶的query，我們要對(duì)它進(jìn)行特征提取，使之變成一個(gè)特征向量，用于匹配文檔。其次，對(duì)于已經(jīng)抓取的文檔，我們也對(duì)它進(jìn)行特征提取，并給予這些特征一些權(quán)重，來表示它們的重要程度。再次，我們對(duì)query的特征和文檔的特征進(jìn)行相似度計(jì)算，來判斷哪些文檔跟query相關(guān)，哪些不相關(guān)。信息檢索最常用的相似度計(jì)算方法是求cosine，其它還可以從語(yǔ)義主題的角度去描述相似性，這個(gè)就不詳細(xì)介紹了。有了相似度，我們可以根據(jù)相似度對(duì)文檔進(jìn)行排序，并將最相關(guān)的一些作為檢索結(jié)果。對(duì)于檢索結(jié)果，用戶可能會(huì)提供一些反饋，比如用戶的點(diǎn)擊。這些反饋可以告訴我們，在搜索結(jié)果里面哪些是用戶需要的。這些信息可以用來衡量檢索的效果，來對(duì)檢索模型進(jìn)一步提升。

在信息檢索的流程中，我們可以看出跨語(yǔ)言檢索的難點(diǎn)：當(dāng)query的語(yǔ)言和文檔的語(yǔ)言不同時(shí)，query和文檔的特征空間是不同的。中文的特征集合（某個(gè)中文詞語(yǔ)出現(xiàn)與否）與英文的特征集合（某個(gè)英文詞語(yǔ)出現(xiàn)與否）的交集極少，這導(dǎo)致原有的相似度計(jì)算方式在跨語(yǔ)言時(shí)失效了。

那么這個(gè)問題怎么解決呢？

對(duì)于跨語(yǔ)言，我們自然而然想到的一種方式就是：翻譯。我們可以通過翻譯的方式把一個(gè)語(yǔ)言的詞語(yǔ)映射到另一語(yǔ)言上，從而讓query和文檔處于同一個(gè)特征空間中，然后再利用單語(yǔ)下的檢索模型進(jìn)行檢索和排序，這樣就可以實(shí)現(xiàn)跨語(yǔ)言檢索了。

Query翻譯——把query翻譯到文檔的語(yǔ)言下，然后用這些翻譯后的query在文檔中進(jìn)行檢索。對(duì)于query中的詞語(yǔ)，我們可以選擇若干可能的翻譯，用于擴(kuò)大召回。這可以看作是一種query擴(kuò)展。

文檔翻譯——把文檔翻譯到query的語(yǔ)言下，然后用原有query對(duì)翻譯的文檔進(jìn)行檢索。文檔的翻譯一般是在線下進(jìn)行的。一篇源語(yǔ)言的文檔通過自動(dòng)的翻譯（如機(jī)器翻譯）變換成一篇目標(biāo)語(yǔ)言下的文檔。

這兩種方式都是可以達(dá)到跨語(yǔ)言檢索目的的，我們?cè)趯?shí)踐中應(yīng)該采用哪種方式呢？下面我們分析一下這兩種方式的優(yōu)劣：

從上述優(yōu)劣比較中我們可以看出，文檔翻譯雖然可能提供更準(zhǔn)確的翻譯，但它需要更多的線下處理時(shí)間，需要更多的存儲(chǔ)空間，實(shí)用性較差。鑒于此，無論是學(xué)術(shù)界還是工業(yè)界，一般采用的都是Query翻譯的方式。

Query翻譯方式的最大缺點(diǎn)就是由于詞語(yǔ)翻譯的錯(cuò)誤導(dǎo)致檢索錯(cuò)誤。那么我們有沒有辦法客服這個(gè)問題呢？對(duì)于自動(dòng)而又精確的翻譯，我們很容易會(huì)想到機(jī)器翻譯。不過，如果直接使用機(jī)器翻譯的結(jié)果，效果并不能達(dá)到我們的預(yù)期。這是因?yàn)?，首先，機(jī)器翻譯和跨語(yǔ)言信息檢索的目標(biāo)是不一樣的。機(jī)器翻譯是為了讓翻譯出的文字更可讀，因而會(huì)在調(diào)整語(yǔ)序上下很多功夫，但是跨語(yǔ)言檢索不需要語(yǔ)序，它只需要正確翻譯的詞語(yǔ)出現(xiàn)即可。在機(jī)器翻譯中一些無意義的連接詞（比如“there is”）是重要的，但是在跨語(yǔ)言檢索中我們完全不需要它們。其次，機(jī)器翻譯的目標(biāo)是得到一個(gè)最可能的翻譯結(jié)果，而在跨語(yǔ)言檢索中，我們需要保留多種翻譯的結(jié)果，來提高召回。在這里，也許你會(huì)想到，我們也可以把機(jī)器翻譯的結(jié)果作為基礎(chǔ)進(jìn)行同義詞擴(kuò)展，這樣不是就可以了么？這樣做其實(shí)是有很大風(fēng)險(xiǎn)的：如果機(jī)器翻譯把某個(gè)詞翻錯(cuò)了，那么在此之上的所有擴(kuò)展都會(huì)對(duì)檢索結(jié)果造成惡劣的影響。

Query翻譯的一般做法是這樣的（如圖2所示）：對(duì)于一個(gè)query，首先我們對(duì)它進(jìn)行切分，得到一個(gè)個(gè)詞語(yǔ)。在切分的結(jié)果中，我們把其中的無意義詞語(yǔ)（如“的”、“嗎”等）都過濾掉。對(duì)于剩下的每一個(gè)有意義的詞語(yǔ)，我們得到若干翻譯候選詞。然后在這些候選詞語(yǔ)中，我們通過某種機(jī)制選擇其中的一部分來生成跨語(yǔ)言檢索的新query。舉個(gè)例子：

比如有個(gè)英文的query：

“building information super highway”

我們要用它來檢索中文的文檔。我們可以通過翻譯字典找到每個(gè)英文單詞的中文候選詞：

“building” -》 “建筑 / 建立”

“information” -》 “信息 / 消息 / 知識(shí)”

“super” -》 “上等的 / 超級(jí)的 / 特大的”

“highway” -》 “公路 / 大道 / 直接的途徑”

英文query的原意是希望了解高速公路附近的房屋信息。根據(jù)這個(gè)需求，我們可以發(fā)現(xiàn)，在這些候選詞里有些必須刪除，比如building的翻譯“建立”，因?yàn)樗黠@不符合query的原意；有些是可以保留的，比如highway的翻譯“公路”和“大道”。而我們的核心目標(biāo)就是通過一定的方法把不合理的翻譯刪除，然后將合理的翻譯用于檢索。

在這里我們介紹一種基于詞共現(xiàn)的方法。

比如“building”和“information”這兩個(gè)詞，我們首先把它們的翻譯組合寫出來，得到6種可能翻譯：

（建筑信息），（建筑消息），（建筑知識(shí)），（建立信息），（建立消息），（建立知識(shí)）

在這些組合中，有些我們一眼就可以看出它是符合檢索需求的，比如（建筑信息），有些則肯定不是，如（建立消息）。那么如何讓程序自動(dòng)判斷呢？其實(shí)很簡(jiǎn)單，我們只需要看看這些組合在中文文檔中共同出現(xiàn)的次數(shù)即可。正確的翻譯組合在文檔中出現(xiàn)的頻率往往較高，而錯(cuò)誤的翻譯組合則不常出現(xiàn)。這樣，我們通過中文文檔中詞語(yǔ)的自然分布，就可以為翻譯組合打分，把錯(cuò)誤的翻譯組合剔除掉。

基于共現(xiàn)的方法是最基本、最簡(jiǎn)單的一種方法。事實(shí)上近10多年來，學(xué)術(shù)界已經(jīng)提出了很多更為復(fù)雜的算法來解決這個(gè)問題。由于篇幅有限，這里就不詳細(xì)介紹了。有興趣的讀者可以讀讀加拿大蒙特利爾大學(xué)的聶建云教授的著作《Cross-Language Information Retrieval》，那里有更詳盡的論述。

以上著重介紹的都是跨語(yǔ)言信息檢索在技術(shù)上是怎么實(shí)現(xiàn)的。下面我想說下，我們?yōu)槭裁匆M(jìn)行跨語(yǔ)言檢索呢？它對(duì)于搜索引擎有多大的價(jià)值呢？我總結(jié)了以下幾點(diǎn)：

獲取其他語(yǔ)言的相關(guān)資源

有些資源在中文中不存在，而在其他語(yǔ)言的網(wǎng)頁(yè)中存在。比文章開頭描述的XX用戶，希望了解外國(guó)的輿論。在這種情況下，我們就需要通過跨語(yǔ)的搜索來滿足用戶的需求。

獲取多種語(yǔ)言?shī)A雜的資源

在互聯(lián)網(wǎng)上并不是每個(gè)網(wǎng)頁(yè)都只有一種語(yǔ)言。很多時(shí)候，一個(gè)網(wǎng)頁(yè)中有多種語(yǔ)言的文字出現(xiàn)。如果只用一種語(yǔ)言的query去檢索，可能無法召回這些頁(yè)面。如果我們將跨語(yǔ)言檢索的技術(shù)融入當(dāng)中，就可以提高搜索的召回。

獲取與文字語(yǔ)言無關(guān)的資源

有些資源是跟文字無關(guān)的，比如圖片、視頻、音頻。而對(duì)這些資源的搜索往往會(huì)借助于文字。有了跨語(yǔ)言檢索的技術(shù)，我們就可以將滿足用戶需求的、國(guó)外網(wǎng)站上的資源展現(xiàn)出來，來豐富搜索結(jié)果。

滿足“查全”的需求

在搜索中，我們有的時(shí)候需要“查全”所有的相關(guān)信息。比如要搜一個(gè)專利，我們會(huì)希望把各個(gè)國(guó)家的相關(guān)專利都搜出來。在這種情況下，我們就需要跨語(yǔ)的檢索，幫助我們達(dá)到這個(gè)目的。

當(dāng)前，跨語(yǔ)言信息檢索不僅在學(xué)術(shù)界正在熱火朝天地開展，事實(shí)上，它早已走入了工業(yè)界，真正被應(yīng)用到了實(shí)際搜索當(dāng)中。早在2006年，Yahoo首先推出了跨語(yǔ)言搜索服務(wù)。隨后在2007年，Google也相繼進(jìn)入了這一領(lǐng)域，展開了國(guó)際化的搜索。和百度相比，Yahoo和Google的確在國(guó)際化方面領(lǐng)先不少。其中一個(gè)重要原因是，他們都是從英文搜索起家的，而英文是世界上的最流行的通用語(yǔ)言，它到其它語(yǔ)言的翻譯資源比較豐富，利于國(guó)際化的擴(kuò)展。不過這沒關(guān)系，我們比的是誰(shuí)做的更好，而不是誰(shuí)做的更早。如今，百度的國(guó)際化業(yè)務(wù)正在如火如荼地開展，相信不久的將來，它將會(huì)在搜索國(guó)際化進(jìn)程中扮演舉足輕重的角色。

“雄關(guān)漫漫真如鐵，而今邁步從頭越”，未來如何，讓我們拭目以待吧！

作者：飛旋的世界

發(fā)布：2007-03-31 14:21 編輯：泛普軟件 · xiaona [打印此頁(yè)] [關(guān)閉]

相關(guān)欄目：

下一篇：網(wǎng)站日志分析:清楚網(wǎng)絡(luò)蜘蛛的爬行日志

解決跨語(yǔ)言信息檢索問題 對(duì)于搜索引擎的價(jià)值

泛普張家界網(wǎng)站建設(shè)公司其他應(yīng)用

解決跨語(yǔ)言信息檢索問題對(duì)于搜索引擎的價(jià)值