- 相關(guān)推薦
淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文
論文關(guān)鍵詞:信息集成 異構(gòu)數(shù)據(jù) odi nutch lucene
論文摘要:高校校園網(wǎng)信息資源數(shù)量巨大,各信息發(fā)布系統(tǒng)的相互獨(dú)立及多種異構(gòu)數(shù)據(jù)源的使用對(duì)在校園網(wǎng)范圍內(nèi)進(jìn)行統(tǒng)一的信息檢索設(shè)置了障礙,系統(tǒng)著重解決由非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)形成的多數(shù)據(jù)源的集成與整合問(wèn)題,在nutch搜索引擎基礎(chǔ)上利用lucene接口對(duì)多種源數(shù)據(jù)建立索引,構(gòu)建多數(shù)據(jù)源全文信息檢索平臺(tái),從而有效地實(shí)現(xiàn)全網(wǎng)信息檢索并提高檢索速度和精度。
一、引 言
隨著校園信息化進(jìn)程的不斷深入,校園網(wǎng)上信息資源的數(shù)量迅速膨脹,各種相互獨(dú)立的信息發(fā)布系統(tǒng)在提高效率的同時(shí),也為校園網(wǎng)范圍內(nèi)統(tǒng)一的信息檢索設(shè)置了障礙,校園網(wǎng)信息資源主要包括兩類(lèi)數(shù)據(jù):一類(lèi)是非結(jié)構(gòu)化文本數(shù)據(jù),以網(wǎng)頁(yè)文件、文本文件、電子郵件等形式存儲(chǔ)在多個(gè)信息系統(tǒng)當(dāng)中:另一類(lèi)是結(jié)構(gòu)化數(shù)據(jù),以數(shù)據(jù)記錄的形式存儲(chǔ)在不同的異構(gòu)數(shù)據(jù)庫(kù)之中。由于各獨(dú)立信息系統(tǒng)間沒(méi)有相互連接的渠道,快速檢索校園網(wǎng)內(nèi)部信息存在著較大困難。如何設(shè)計(jì)一個(gè)穩(wěn)定而高效的架構(gòu),能夠?qū)Χ喾N信息數(shù)據(jù)源進(jìn)行集成與整合,實(shí)現(xiàn)全網(wǎng)范圍內(nèi)全文信息檢索成為校園信息化過(guò)程中一個(gè)重要研究課題。
校園網(wǎng)信息檢索技術(shù)大體可分為三個(gè)發(fā)展階段:第一階段是基于數(shù)據(jù)庫(kù)查詢(xún)方式的結(jié)構(gòu)化數(shù)據(jù)檢索,應(yīng)用于信息發(fā)布系統(tǒng)內(nèi)部的檢索功能,通常是通過(guò)匹配標(biāo)題、作者和摘要等字段來(lái)實(shí)現(xiàn)信息檢索。由于受到數(shù)據(jù)庫(kù)性能、檢索效率等因素影響,不能實(shí)現(xiàn)基于匹配正文內(nèi)容的全文檢索,因此該階段檢索方式從檢索范圍到檢索性能及效果都并不能完全滿(mǎn)足現(xiàn)階段用戶(hù)的需要:第二階段是將基于互聯(lián)網(wǎng)的搜索引擎技術(shù)應(yīng)用于校園網(wǎng),構(gòu)建校園網(wǎng)信息檢索平臺(tái)。主要采用開(kāi)源lueene提供的全文檢索功能和基于lucene索引管理、存儲(chǔ)和檢索技術(shù)之上的nutch搜索引擎技術(shù)。這兩種方式能夠?qū)崿F(xiàn)對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)的檢索,應(yīng)用在網(wǎng)站站內(nèi)索引、企業(yè)內(nèi)部文檔管理及知識(shí)管理系統(tǒng)等多方面,對(duì)應(yīng)用系統(tǒng)內(nèi)部全文信息檢索取得了較好的效果,但要實(shí)現(xiàn)校園網(wǎng)全網(wǎng)范圍內(nèi)多系統(tǒng)綜合信息檢索還有待進(jìn)一步完善與改進(jìn):當(dāng)前校園網(wǎng)信息檢索技術(shù)已經(jīng)發(fā)展到多系統(tǒng)多數(shù)據(jù)源信息檢索階段,通過(guò)多種方式將各種數(shù)據(jù)源統(tǒng)一建立索引進(jìn)行檢索,對(duì)于非結(jié)構(gòu)化文本的web頁(yè)面信息采用網(wǎng)絡(luò)爬蟲(chóng)方式獲取數(shù)據(jù),對(duì)于結(jié)構(gòu)化文檔數(shù)據(jù)源可通過(guò)lucene接口和nutch插件機(jī)制與第三方類(lèi)庫(kù)相結(jié)合來(lái)進(jìn)行文檔分析處理,對(duì)于數(shù)據(jù)庫(kù)資源通過(guò)lucene數(shù)據(jù)庫(kù)訪問(wèn)接口來(lái)獲取數(shù)據(jù)記錄并建立索引。目前校園網(wǎng)信息檢索平臺(tái)大多是以檢索功能為核心通過(guò)上述方式與多數(shù)據(jù)源集成的輻射狀架構(gòu),該種架構(gòu)雖可實(shí)現(xiàn)全網(wǎng)多數(shù)據(jù)源檢索,但檢索平臺(tái)與各應(yīng)用系統(tǒng)耦合度高,系統(tǒng)整體穩(wěn)定性和可擴(kuò)展性較差,數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量較低。
針對(duì)上述問(wèn)題,本系統(tǒng)將數(shù)據(jù)采集和數(shù)據(jù)集成作為平臺(tái)整體架構(gòu)的基礎(chǔ),將oracle數(shù)據(jù)集成工具odi用于對(duì)多數(shù)據(jù)源結(jié)構(gòu)化數(shù)據(jù)的抽取、轉(zhuǎn)換和處理,從而提供一個(gè)統(tǒng)一的全局共享數(shù)據(jù)源,對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)提供對(duì)word、pdf、ppt及xml等多種格式化文檔解析的支持、以上述工作為基礎(chǔ),系統(tǒng)將分散分布、非結(jié)構(gòu)化、異構(gòu)的信息資源統(tǒng)一整合,提供給校園網(wǎng)用戶(hù)統(tǒng)一的全文信息檢索平臺(tái)。
二、系統(tǒng)體系結(jié)構(gòu)
多數(shù)據(jù)源校園網(wǎng)信息檢索系統(tǒng)分為數(shù)據(jù)采集層和信息檢索層兩層體系架構(gòu),數(shù)據(jù)采集層以oracle全局?jǐn)?shù)據(jù)庫(kù)為核心向下通過(guò)odi集成各異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù),并通過(guò)網(wǎng)絡(luò)爬蟲(chóng)和非結(jié)構(gòu)化文本數(shù)據(jù)解析來(lái)實(shí)現(xiàn)多數(shù)據(jù)源數(shù)據(jù)采集,向上通過(guò)數(shù)據(jù)庫(kù)接口為上層應(yīng)用提供數(shù)據(jù):信息檢索層采用以lueene為基礎(chǔ)的nutch搜索引擎實(shí)現(xiàn)信息索引和檢索。系統(tǒng)共包括異構(gòu)數(shù)據(jù)庫(kù)集成、異構(gòu)文檔解析、信息分類(lèi)模塊、信息索引模塊、信息檢索模塊和系統(tǒng)管理模塊六部分,系統(tǒng)體系結(jié)構(gòu)如圖1所示。
校園網(wǎng)信息檢索技術(shù)并不是簡(jiǎn)單地將開(kāi)源搜索引擎技術(shù)應(yīng)用于校園網(wǎng),而是針對(duì)校園網(wǎng)內(nèi)部數(shù)據(jù)特點(diǎn)設(shè)計(jì)相應(yīng)的解決方案。異構(gòu)數(shù)據(jù)庫(kù)集成模塊從系統(tǒng)底層做好結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)的高效獲取和有效組織。校園網(wǎng)內(nèi)信息發(fā)布以web網(wǎng)站為主要方式,對(duì)其進(jìn)行信息檢索一是采用網(wǎng)絡(luò)爬蟲(chóng)方式進(jìn)行數(shù)據(jù)采集:二是通過(guò)lucene數(shù)據(jù)庫(kù)接口與各異構(gòu)數(shù)據(jù)庫(kù)相連采集數(shù)據(jù),第一種方式雖然操作簡(jiǎn)單,但在數(shù)據(jù)采集質(zhì)量和深度上都有所不足,并沒(méi)有充分利用校園網(wǎng)信息數(shù)據(jù)存儲(chǔ)的特點(diǎn):第二種方式雖然在數(shù)據(jù)來(lái)源上有所改進(jìn),但在系統(tǒng)的穩(wěn)定性、耦合程度和可擴(kuò)展性上都存在不足,從各異構(gòu)數(shù)據(jù)庫(kù)中獲取的數(shù)據(jù)無(wú)法進(jìn)一步加工處理,從而導(dǎo)致對(duì)上層應(yīng)用的支持有限。校園網(wǎng)內(nèi)數(shù)據(jù)雖然表現(xiàn)為web網(wǎng)頁(yè)等非結(jié)構(gòu)化文本形式,但其數(shù)據(jù)來(lái)源大都存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中。通過(guò)獲取對(duì)各業(yè)務(wù)異構(gòu)數(shù)據(jù)庫(kù)的查詢(xún)管理權(quán)限,系統(tǒng)將oracle數(shù)據(jù)集成工具odi代替網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)庫(kù)訪問(wèn)接口,從底層實(shí)現(xiàn)對(duì)多個(gè)異構(gòu)數(shù)據(jù)庫(kù)的統(tǒng)一管理,使系統(tǒng)具有更加穩(wěn)定和高效的數(shù)據(jù)來(lái)源。異構(gòu)文檔解析模塊實(shí)現(xiàn)對(duì)pdf、office等文檔的解析功能,通過(guò)插件機(jī)制提取各種格式化文檔的文本信息進(jìn)行處理。信息分類(lèi)模塊按照信息來(lái)源的部門(mén)、發(fā)布時(shí)間等提供分類(lèi)信息檢索,實(shí)現(xiàn)信息的高級(jí)檢索功能。信息索引模塊對(duì)多種數(shù)據(jù)源數(shù)據(jù)建立索引,并進(jìn)行索引優(yōu)化以減少索引文件的數(shù)量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。信息檢索模塊為校園網(wǎng)用戶(hù)提供統(tǒng)一的信息檢索的平臺(tái),可以快速定位用戶(hù)所需資源,及時(shí)有效地獲取信息。系統(tǒng)管理模塊針對(duì)不同資源,設(shè)置不同的訪問(wèn)權(quán)限,按照用戶(hù)權(quán)限決定可以訪問(wèn)的資源。
三、系統(tǒng)主要功能模塊
1.oracle數(shù)據(jù)集成工具(odi)
odi(oracle data integrator)是oracle公司采用elt理念進(jìn)行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具,其最大特點(diǎn)是提出了知識(shí)模塊的概念。odi將一些場(chǎng)景(如文件加載到數(shù)據(jù)庫(kù),從mysql數(shù)據(jù)庫(kù)抓取數(shù)據(jù)到oracle數(shù)據(jù)庫(kù)等)的詳細(xì)實(shí)現(xiàn)步驟使用jvthon腳本語(yǔ)言結(jié)合數(shù)據(jù)庫(kù)sql語(yǔ)句錄制成詳細(xì)的步驟記錄下來(lái),形成知識(shí)模塊,odi中共有超過(guò)100種主流數(shù)據(jù)庫(kù)引擎和應(yīng)用系統(tǒng)的知識(shí)模塊,基本上包含了普通應(yīng)用所涉及的所有場(chǎng)景,因此odi可以實(shí)現(xiàn)對(duì)校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫(kù)的支持。在一個(gè)數(shù)據(jù)集成任務(wù)中,odi通過(guò)聲明設(shè)計(jì)運(yùn)用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識(shí)模塊描述和定義,系統(tǒng)只需要把重點(diǎn)放在集成任務(wù)規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個(gè)服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現(xiàn)類(lèi)似于數(shù)據(jù)增量定時(shí)更新的功能,異構(gòu)數(shù)據(jù)庫(kù)集成模塊示意如圖2所示。
系統(tǒng)以全局?jǐn)?shù)據(jù)庫(kù)為核心通過(guò)odi工具對(duì)校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載,集成后的數(shù)據(jù)質(zhì)量得到了提高,對(duì)異構(gòu)數(shù)據(jù)源的處理也得到了加強(qiáng)。在對(duì)數(shù)據(jù)處理的過(guò)程中提取了信息的標(biāo)題、作者、正文、發(fā)布時(shí)間、url地址等字段,可定時(shí)對(duì)各異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行增量更新操作,從而替代利用網(wǎng)絡(luò)爬蟲(chóng)獲取信息數(shù)據(jù)。oracle全局?jǐn)?shù)據(jù)庫(kù)可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息索引和檢索模塊。
2.lucene與nutch
lucelle不是一個(gè)完整的搜索引擎,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫(kù),采用java語(yǔ)言開(kāi)發(fā),提供了檢索內(nèi)核,其設(shè)計(jì)原理是索引檢索,任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。nutch是lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜索引擎系統(tǒng),內(nèi)部使用了lucene的索引檢索技術(shù),并進(jìn)一步封裝了網(wǎng)絡(luò)爬蟲(chóng)和分布式處理等模塊從而成為一個(gè)完整的應(yīng)用系統(tǒng)。本系統(tǒng)以nutch為基礎(chǔ),既應(yīng)用了nuteh系統(tǒng)的完整性,減少了不必要的開(kāi)發(fā),又可靈活使用lucene接口,豐富系統(tǒng)功能。
對(duì)于非結(jié)構(gòu)化文本信息,系統(tǒng)對(duì)office文檔采用了poi插件方式,用pdfbox插件來(lái)實(shí)現(xiàn)對(duì)pdf文檔的讀取,并將上述插件集成到nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴(lài)于分詞模塊對(duì)語(yǔ)言的處理。nutch自帶的cjk分詞模塊對(duì)中文分詞的效率和準(zhǔn)確度上不能滿(mǎn)足實(shí)際需要。為此。在對(duì)比了je分詞、paoding分詞和ictclas分詞等多款中文分詞模塊后,paoding分詞由于其開(kāi)源性和良好的分詞效果被本系統(tǒng)采用,并通過(guò)nuteh的插件機(jī)制集成到系統(tǒng)當(dāng)中。
3.信息索引與檢索
為滿(mǎn)足用戶(hù)全網(wǎng)檢索和分類(lèi)分部門(mén)檢索信息的需要,并提高檢索效率,信息索引模塊首先對(duì)每個(gè)數(shù)據(jù)源建立索引文件提供給分類(lèi)檢索用戶(hù),然后通過(guò)優(yōu)化索引提供給全網(wǎng)檢索用戶(hù)。優(yōu)化索引就是將多個(gè)索引文件合并成單個(gè)文件的過(guò)程,目的是為了減少索引文件的數(shù)量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。nutch中的indexwrite類(lèi)提供了optimize方法實(shí)現(xiàn)該優(yōu)化操作。利用nutch中的multisearcher類(lèi)可實(shí)現(xiàn)對(duì)優(yōu)化后索引的全網(wǎng)檢索功能,檢索結(jié)果會(huì)以一種指定的順序合并起來(lái)。
針對(duì)校園網(wǎng)用戶(hù)信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時(shí)效性和訪問(wèn)量等因素后,系統(tǒng)采用了自定義的排序機(jī)制,文檔文本相關(guān)度作為信息檢索的主要排序依據(jù),信息發(fā)布時(shí)間和訪問(wèn)次數(shù)作為重要的排序因子,系統(tǒng)通過(guò)lucene的激勵(lì)因子boost值來(lái)改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶(hù)提供了通用檢索和高級(jí)檢索功能,通用檢索在用戶(hù)輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級(jí)檢索功能為用戶(hù)提供了更為詳細(xì)的檢索條件,用戶(hù)可根據(jù)需要對(duì)信息進(jìn)行更加精細(xì)的檢索。系統(tǒng)管理功能除對(duì)用戶(hù)權(quán)限進(jìn)行管理外還對(duì)信息檢索結(jié)果進(jìn)行屏蔽和進(jìn)一步處理。
四、系統(tǒng)運(yùn)行環(huán)境
考慮到開(kāi)發(fā)調(diào)試和維護(hù)的方便性,系統(tǒng)在測(cè)試運(yùn)行期間采用了windows平臺(tái)。上層在開(kāi)源nutch搜索引擎的基礎(chǔ)上進(jìn)行開(kāi)發(fā),采用myeclipse作為開(kāi)發(fā)平臺(tái),用java語(yǔ)言實(shí)現(xiàn),因此具有跨平臺(tái)特性。但由于運(yùn)行nutch自帶的腳本命令需要linux環(huán)境,所以必須首先安裝cygwin來(lái)模擬這種環(huán)境。為了確保nutch1.0版本能夠正確運(yùn)行,java虛擬機(jī)需采用jdk1.6以上的版本,運(yùn)用websphere6.0作為檢索平臺(tái)的容器。系統(tǒng)底層采用oracle 10g作為全局?jǐn)?shù)據(jù)庫(kù)。數(shù)據(jù)集成工具odi版本為10.1.3,與數(shù)據(jù)庫(kù)安裝在同一臺(tái)服務(wù)器上。
五、結(jié)束語(yǔ)
校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)將oracle數(shù)據(jù)集成工具odi引入到數(shù)據(jù)采集模塊,實(shí)現(xiàn)了對(duì)校園網(wǎng)內(nèi)各信息發(fā)布系統(tǒng)后臺(tái)異構(gòu)數(shù)據(jù)庫(kù)的有效整合與集成,改變了以往主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)的方式,提高了數(shù)據(jù)來(lái)源的精度與質(zhì)量,又通過(guò)nutch插件機(jī)制實(shí)現(xiàn)了對(duì)非結(jié)構(gòu)化文本的解析。從而為信息索引與檢索打下了良好的基礎(chǔ)。信息檢索模塊基于nutch搜索引擎技術(shù)并充分利用lucene接口實(shí)現(xiàn)了靈活高效的全網(wǎng)信息檢索系統(tǒng)
該系統(tǒng)為校園網(wǎng)用戶(hù)提供了方便快捷的信息檢索平臺(tái),整合了校園網(wǎng)信息資源,實(shí)現(xiàn)了信息共享,對(duì)校園信息化建設(shè)起了很好的推進(jìn)作用。
經(jīng)過(guò)對(duì)系統(tǒng)測(cè)試運(yùn)行期間性能的測(cè)試,信息檢索時(shí)間和精度都得到了較大的提升,信息檢索的廣度和深度也有了很大提高,滿(mǎn)足了校園網(wǎng)用戶(hù)的需要、今后的工作是在信息檢索功能的基礎(chǔ)上進(jìn)一步研究校園網(wǎng)輿情監(jiān)測(cè)技術(shù),完善系統(tǒng)功能,在提高校園信息化程度的同時(shí)為建設(shè)積極向上的校園網(wǎng)絡(luò)文化起到較好的推動(dòng)作用。
參考文獻(xiàn):
[1]王雪松lucene+nutch搜索引擎[m]北京:人民郵電出版社,2008
[2]邱哲,符滔滔,王雪松,開(kāi)發(fā)自己的搜索引擎lucellc+heritrix,北京:人民郵電出版社,2010
[3]oracle,oracle data integrator技術(shù)白皮書(shū),北京:oracle公司2008
[4]王洋oracle data integrator使用手冊(cè),北京:神州數(shù)碼有限公司,2008
[5]劉期勇,基于lucene的多數(shù)據(jù)源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),重慶:重慶大學(xué),2008
[6]黃少林,王華,張玉紅,蔣一峰,基于lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),現(xiàn)代情報(bào),2009,29(7):169-171
【淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文】相關(guān)文章:
多波束通信設(shè)備設(shè)計(jì)與實(shí)現(xiàn)論文07-04
淺談自動(dòng)化出卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文07-03
淺談品牌與設(shè)計(jì)論文07-03
淺談多媒體設(shè)計(jì)的論文07-03
淺談多媒體教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)07-01
淺談如何實(shí)現(xiàn)班級(jí)的自主管理論文07-03
淺談基于ZigBee 嵌入式智能家居控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文07-03
淺談建筑設(shè)計(jì)欣賞論文07-03