監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關閉

文本驅(qū)動的商務智能應用框架與實現(xiàn)過程

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

1 文本驅(qū)動的商務智能應用框架

文本驅(qū)動的商務智能是文本挖掘技術在商務領域中的應用,嚴格的講,文本挖掘是數(shù)據(jù)挖掘領域的一個新分支,但與傳統(tǒng)數(shù)據(jù)挖掘相比,在技術上有很大的不同,并且其應用更廣,因此,筆者認為為了強調(diào)文本挖掘在商務智能中的重要性,并與傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)的商務智能相區(qū)別,美國clearforest公司提出“文本驅(qū)動的商務智能”這一概念是可取的。

現(xiàn)在企業(yè)內(nèi)外充斥著大量的文本信息,如技術報告,市場報告,各種文書,擔保材料,呼叫中心的客戶投訴記錄,交互式訪談或客戶發(fā)送的E-mail意見或建議,以及企業(yè)外部尤其是網(wǎng)上與行業(yè)發(fā)展有關的新聞報道,產(chǎn)品與技術報道以及競爭對手的動向等等。對這些非結(jié)構(gòu)化以及半結(jié)構(gòu)化的數(shù)據(jù)進行分析挖掘,可以發(fā)現(xiàn)產(chǎn)品存在的問題,客戶的需求以及忠誠度,競爭對手的動向以及行業(yè)的發(fā)展趨勢等。如圖1展示了文本分析在企業(yè)管理與決策支持中的應用框架。

圖1 文本驅(qū)動的商務智能應用框架

文本驅(qū)動的商務智能文本是建立在文本挖掘技術基礎上的,其不但要處理大量半結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔,而且還要處理其中復雜的語義關系,因此,現(xiàn)有的數(shù)據(jù)挖掘技術無法直接應用。對于非結(jié)構(gòu)化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結(jié)構(gòu)化數(shù)據(jù)進行挖掘,由于數(shù)據(jù)非常復雜,導致這種算法的復雜性很高;另一條途徑就是將非結(jié)構(gòu)化間題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術進行挖掘,目前的文本挖掘一般采用該途徑進行處理。對于語義關系,則需要集成計算語言學和自然語言處理等成果進行分析。

文本挖掘可以通過圖2有個大致理解。它由三部分組成:底層是文本挖掘的基礎領域,在此基礎上是文本挖掘的基本技術,最上層是應用,包括信息訪問和知識發(fā)現(xiàn),其中信息訪間包括信息檢索、信息瀏覽、信息過濾、信息報告等,知識發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預測等。

圖2 文本挖掘的技術構(gòu)成

其中,信息抽取技術是將非結(jié)構(gòu)問題轉(zhuǎn)化為結(jié)構(gòu)化問題的關鍵,同時,在商務智能中,商務信息的抽取又是發(fā)現(xiàn)商機的前提,因此,在文本驅(qū)動的商務智能中起著至關重要的作用。

2 文本驅(qū)動的商務智能案例——CLearForest Text Analysis Suite

ClearForest公司是將非結(jié)構(gòu)化的內(nèi)容轉(zhuǎn)變?yōu)橛袃r值的商業(yè)智能行業(yè)中的領導者,其創(chuàng)始人Ronen Feldman博士被稱為文本挖掘之父。文本驅(qū)動商務智能這一概念就是QearFon}t倡導的,并提供了解決方案——C.learFoiest Text Analysis Suite。

C1esrForest的解決方案應用了對自由文本中存在的關鍵實體(如人、公司、地點、事實或事件)進行智能標注并提取的技術,一旦信息提取并結(jié)構(gòu)化,這些信息就能夠用于獨立的分析應用或者載入公司既有的數(shù)據(jù)集市并與結(jié)構(gòu)化數(shù)據(jù)結(jié)合以提供更全面的商務智能。下面簡單分析一下其工作過程,如圖3所示。

圖3 CLearForest Text Analysis Suite的工作圖

Tagging就是對文本進行預處理,包括文本格式識別,句法分割(Sentence Splitting),詞性標注(P0S tagging),詞干提?。╯ternnting),停用詞剔除,同義詞處理,歧義消除(Sense Disambiguation)等。通過這些預處理將文本分解成為有一定語言意義的語言片段,并對這些語言片段進行標記,使文本能夠被轉(zhuǎn)換成為更易于被信息抽取系統(tǒng)處理的模式。

Extraction就是信息提取,指從文本中抽取用戶感興趣的實體、事件、關系等特定信息,除了一般的概念、術語外,更重要的是人名、地名、公司名、時間、地點等未登陸詞的提取,并通過句法分析與推理識別文本中的共指現(xiàn)象,發(fā)生的事件,最后還要合并描述同一事件或?qū)嶓w的信息片段,以形成實體或事件的完整描述。G1esrForeat采用統(tǒng)計分析與語義分析相結(jié)合的方法,對文本的內(nèi)容進行分析提取,提取的信息可用XML語言結(jié)構(gòu)化表示,或進一步導入關系數(shù)據(jù)庫中以進行分析挖掘。圖4為信息抽取的例子。

圖4 CLearForest Text Analysis Suite信息抽取的圖例

對于抽取的信息進行結(jié)構(gòu)化表示后,一部分如與客戶,產(chǎn)品有關的信息可以與傳統(tǒng)商務智能相結(jié)合,以追蹤業(yè)務數(shù)據(jù)中反映出的某些問題的來龍去脈。此外,還可以單獨的進行分析挖掘,如分類、聚類、文本總結(jié)以及關聯(lián)規(guī)則挖掘等處理,以供檢索利用以及新信息新知識的發(fā)現(xiàn)。分類聚類是大規(guī)模文本組織、開發(fā)和檢索的基礎,也是從大量文檔中發(fā)現(xiàn)規(guī)律與趨勢的基礎。例如,可以對來自不同客戶的E-mail進行聚類以發(fā)現(xiàn)某些具有共性的問題。文本總結(jié)是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋,幫助用戶快速瀏覽選擇。關聯(lián)規(guī)則分析就是找出兩個或多個變量的取值之間存在的某種規(guī)律性,在商務應用中,就是通過設定關聯(lián)的條件與規(guī)則,如實體(如技術、產(chǎn)品、人物或事件)在某些條件共同出現(xiàn)的頻次,來找出不同實體之間的關系,從而支持決策分析。對一些預先設定的信息監(jiān)測或預警目標,當分析挖掘的結(jié)果滿足某種條件時,則給出相應的報告與預警。

ClearForest Text Analysis Suite有個特色就是內(nèi)容衍生應用(Content Derivative Applications)。內(nèi)容衍生應用就是將現(xiàn)存的內(nèi)容重新調(diào)整以展示出其間包含的內(nèi)在價值,并集成到用戶的工作當中,幫助用戶解決問題,是啟發(fā)觀點的交互式應用。這種應用不是簡單的組織文檔以供檢索利用,而是直接深入文檔的內(nèi)容,在信息提取的基礎上,對文檔中的關鍵信息進行重新組合,為用戶提供直接的答案,省卻大量查閱之苦。如圖5為一個反映人物概況(People Profiles)的內(nèi)容衍生應用例子。

圖5 內(nèi)容衍生應用的例子:人物概況(People Profiles)

目前ClearForest彈產(chǎn)品已受到汽車、醫(yī)藥、金融等行業(yè)中的一些重要公司的青睞,并在質(zhì)量管理,客戶忠誠度管理,競爭情報等領域有著相應的解決方案與應用。

3 文本驅(qū)動的商務智能在中國發(fā)展的障礙與前景分析

3.1 中國發(fā)展文本驅(qū)動的商務智能的技術瓶頸——中文信息抽取

文本驅(qū)動已成為商務智能的熱點,尤其是在美國,IBM、SPSS、SAS以及其他一些著名的商務智能產(chǎn)品提供商都陸續(xù)提供文本挖掘產(chǎn)品,如IBM Intelligent Miner for Text,SPSS Predictive Text Analytics,SAS Text Miner等等。但是從全世界范圍內(nèi)來看,文本驅(qū)動的商務智能還沒形成氣候,尤其是在中國。除了中國的企業(yè)信息化建設滯后這一根植于社會的基本原因外,還有一個很關鍵的技術瓶頸——中文信息抽取。

信息抽取與信息檢索不同,信息抽取不是利用關鍵詞匹配技術從大量文檔集中找到與用戶需求相關的文檔,而是借助自然語言處理技術對文本中的句子以及篇章進行分析處理后直接獲得用戶感興趣的事實信息。根據(jù)消息理解會議(MUC)的定義,信息抽取的任務有5個層次。

(1)命名實體(NE)的識別。抽取文檔中的人名、地名、組織名、日期、時間和涉及的一些數(shù)額等信息內(nèi)容。命名實體的識別技術是信息抽取技術中最簡單,也是最可靠的技術。

(2)指代(CO)的解析。分析文檔內(nèi)以及文本間(跨文本)實體之間的指代關系,將不同的指代連接到同一實體上。

 

(3)模板元素(TE)的構(gòu)建。將描述性信息聯(lián)系到實體上,形成對實體的完整描述。

(4)模板關系(TR)的構(gòu)建。發(fā)現(xiàn)實體之間的相互關系,在模板元素的基礎上,尋找實體之間可能存在的關系。

(5)場景模板(ST)的產(chǎn)生。場景模板是信息抽取系統(tǒng)輸出的原型,場景模板的產(chǎn)生就是將各實體聯(lián)系到一起形成事件或關系的完整描述。

中文信息抽取的研究起步較晚,目前還集中在命名實體識別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。與英文信息抽取相比,中文信息抽取面臨著更多的困難,其中首要是自動分詞問題,因為漢語中詞的概念缺乏清晰的界定,詞與詞之間缺乏像英文一樣的空格切分符,更難的是歧義切分字段的處理,雖然經(jīng)過是十幾年的研究,在速度與精度上取得了令人矚目的成果,但還有待進一步的研究與提高。此外可供利用的語料庫、本體庫也較缺乏,目前中文信息抽取的一些實驗研究成果(主要在命名實體的識別方面)在開放的語料庫上測試的召回率與準確率都不太理想,系統(tǒng)可移植性的實施還存在困難。信息抽取技術是文本挖掘的重要基礎,這一點從圖2與圖3就可以看出來,因此中文信息抽取技術得不到突破,文本驅(qū)動的商務智能就難以在中國發(fā)展。

3.2前景分析

根據(jù)計世資訊(CCW Research)的分析,信息化建設像搭建一個金字塔,它可分為三個層次,BI位于這三個層次中的最頂層,它的建設需要其他系統(tǒng)的支持,如圖6顯示信息化建設層次圖。

圖6 信息化建設層次圖

商業(yè)智能(BI)系統(tǒng)已經(jīng)成為繼企業(yè)資源計劃(深圳OA)之后最重要的信息系統(tǒng)。在中國,商業(yè)智能也已經(jīng)被越來越多的企業(yè)管理者所認識,并且在電信、金融、零售、流通等行業(yè),商業(yè)智能已經(jīng)成為信息化建設的重點。根據(jù)計世資訊的相關數(shù)據(jù)顯示,2004年國內(nèi)BI的銷售額為4.2億,2005年則達到6.1億,增長率為45%,但計世資訊的調(diào)研結(jié)果也表明,我國企業(yè)的信息化水平普遍偏低,目前仍處于初級階段,其中,在大型企業(yè)中信息化水平處于業(yè)務整合的比例為17%,達到成熟階段水平的比例僅為1%,而在中小企業(yè)中,業(yè)務整合、系統(tǒng)整合和成熟階段三個階段之和占總體信息化水平的比例不足1%。因此如果不能快速提高國內(nèi)信息化水平,未來幾年BI系統(tǒng)在國內(nèi)市場將很難得到快速發(fā)展。

雖然商務智能是建立在企業(yè)系統(tǒng)集成階段之上的應用,但文本驅(qū)動的商務智能作為商務智能系統(tǒng)的一個子系統(tǒng)(如競爭情報的搜集與分析系統(tǒng)),可以不經(jīng)過業(yè)務與系統(tǒng)的集成而直接開發(fā)應用,發(fā)揮企業(yè)的決策支持作用。因此隨著企業(yè)對商務智能的認識的不斷深入,隨著中文信息抽取以及文本挖掘技術的發(fā)展,文本驅(qū)動的商務智能必將得到國內(nèi)IT以及企業(yè)界的重視并得到快速的發(fā)展與應用。

4 結(jié) 語

從大量的文本中尋找關聯(lián),發(fā)現(xiàn)新知已不是什么新鮮話題,但是采用先進的文本挖掘技術并應用在商業(yè)領域則是近幾年的一種新氣象。從目前國際商務智能技術與產(chǎn)品的發(fā)展走向看,文本驅(qū)動的商務智能是一種必然的趨勢。目前,雖然我國還存在著這樣那樣的困難與障礙,使得發(fā)展文本驅(qū)動的商務智能還為時過早,但隨著國內(nèi)商務智能發(fā)展熱潮的到來以及中文信息抽取及文本挖掘技術的發(fā)展,文本驅(qū)動的商務智能必將得到IT以及企業(yè)界的重視并得到快速的發(fā)展與應用,并且?guī)砭薮蟮纳虡I(yè)利益。(萬方數(shù)據(jù))

發(fā)布:2007-04-24 10:15    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
深圳OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普深圳OA快博其他應用

深圳OA軟件 深圳OA新聞動態(tài) 深圳OA信息化 深圳OA快博 深圳OA行業(yè)資訊 深圳軟件開發(fā)公司 深圳門禁系統(tǒng) 深圳物業(yè)管理軟件 深圳倉庫管理軟件 深圳餐飲管理軟件 深圳網(wǎng)站建設公司