監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

文本挖掘搶占商業(yè)智能掘金制高點(diǎn)

申請免費(fèi)試用、咨詢電話:400-8352-114

來源:泛普軟件 文本挖掘搶占商業(yè)智能掘金制高點(diǎn)

某業(yè)內(nèi)人士對商業(yè)智能在現(xiàn)代社會的重要性曾做過如下比喻,《世說新語》中講: “盲人騎瞎馬,夜半臨深池?!?這短短十個字隱藏了四個危險:由無知的經(jīng)理人來經(jīng)營企業(yè),就如同“盲人騎馬”,這是第一個危險;依賴無知的員工,就如同“騎瞎馬”,這是第二個危險;參與激烈的市場競爭,就如同“臨深池”,這是第三個危險;在全球經(jīng)濟(jì)不景氣的時候參與激烈的市場競爭,就如同“夜半臨深池”,這是第四個危險。所以“無知”,已成為企業(yè)最大的威脅。

互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)中充斥著海量信息,企業(yè)需要對它們進(jìn)行合理及有效地利用,從而幫助企業(yè)在業(yè)務(wù)管理及發(fā)展上做出及時、正確的判斷,然后采取明智的行動,做到在競爭中占據(jù)主動權(quán)。互聯(lián)網(wǎng)上流傳著這樣一個“尿布和啤酒”的經(jīng)典故事:美國一家大型超市利用數(shù)據(jù)挖掘技術(shù)來分析他們的銷售紀(jì)錄,發(fā)現(xiàn)尿布和啤酒的銷售量之間存在相當(dāng)大的關(guān)聯(lián)性。經(jīng)過進(jìn)一步的調(diào)查,找到了產(chǎn)生這個現(xiàn)象的原因,在美國負(fù)責(zé)為孩子購買尿布的年輕父親們,很多時候會順帶給自己買些啤酒,于是超市采取措施將尿布和啤酒放在一起,結(jié)果兩種產(chǎn)品的銷售量都得到了增長。由此可見,數(shù)據(jù)爆炸時代,“商業(yè)智能”(BI)能夠摒棄企業(yè)的無知,為企業(yè)發(fā)展創(chuàng)造出巨大的價值。

另外,我們也應(yīng)了解在信息社會,信息并不是單一的,而是分為兩大類:一類信息為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號;而另一類信息無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,我們稱之為非結(jié)構(gòu)化數(shù)據(jù)。目前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和Intranet技術(shù)的飛快發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。據(jù)統(tǒng)計,現(xiàn)今企業(yè)中80%的數(shù)據(jù)是以非結(jié)構(gòu)化的形式存在,如WEB頁面、技術(shù)文檔、電子郵件等。因此,商業(yè)智能除了要面對結(jié)構(gòu)化數(shù)據(jù)外,更多時候是需要處理無序的非結(jié)構(gòu)化數(shù)據(jù)。于是,一個從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或有用信息的技術(shù)——“文本挖掘技術(shù)”發(fā)展起來,人們常說的文本驅(qū)動的商業(yè)智能,就是指的文本挖掘技術(shù)。文本挖掘是數(shù)據(jù)挖掘技術(shù)的分支,它能夠使人們從大量冗余的信息中迅速發(fā)現(xiàn)對自己有用的信息,并在一定程度上揭示信息與信息之間的關(guān)聯(lián)。有人說文本挖掘是互聯(lián)網(wǎng)時代,繼門戶、搜索引擎和Web2.0之后最重要的技術(shù)之一,紐約時報甚至稱它為Web3.0。

文本挖掘作為人們挑戰(zhàn)信息爆炸式增長與信息有效利用之間矛盾的重要武器,受到世界的廣泛認(rèn)可,目前國際上許多企業(yè)都在進(jìn)行文本挖掘技術(shù)的研究,并取得一定成績。但在我國,文本挖掘技術(shù)發(fā)展歷史比較短。某一業(yè)內(nèi)人士說:“雖然我國文本挖掘技術(shù)的發(fā)展研究還處于初級階段,但想把國外的文本挖掘技術(shù)直接在我國進(jìn)行利用,可以說是一件比較困難的事情,因?yàn)橹形呐c西方文字是不同。如我要搜索‘可樂’一詞,國外的技術(shù)可能會把‘太可樂了’等眾多不相關(guān)詞語搜索出來?!?/P>

比較而言,國內(nèi)本土的軟件企業(yè)在發(fā)展文本挖掘技術(shù)上卻具有先天優(yōu)勢,如在中文分詞,習(xí)慣用語理解等方面。另外,做好中文文本挖掘技術(shù)還需要超越絕大多數(shù)現(xiàn)有搜索引擎所采用的單純基于特定關(guān)鍵字的查找匹配方式,而要在一定程度上去實(shí)現(xiàn)基于語義的搜索,即無論文中出現(xiàn)的是“筆記本”,“本本”,還是 “l(fā)aptop”,當(dāng)我們在查找“筆記本”時,這篇文章都應(yīng)該作為結(jié)果返回。但滿足以上要求并不是容易的事情,它需要在數(shù)據(jù)庫和信息檢索技術(shù)等方面具有長期的積累、也需要算法的高效,系統(tǒng)的穩(wěn)定和可擴(kuò)展性。

據(jù)了解,在數(shù)量眾多的擁有文本挖掘技術(shù)的廠商中,北京拓爾思(TRS)信息技術(shù)股份有限公司是國內(nèi)第一家擁有真正實(shí)用化文本挖掘產(chǎn)品的企業(yè)。TRS文本挖掘技術(shù)有效結(jié)合自然語言處理技術(shù)、統(tǒng)計分析和機(jī)器學(xué)習(xí)技術(shù)及語言知識庫,實(shí)現(xiàn)了中文文本挖掘技術(shù)的商業(yè)化應(yīng)用,并在外交部、新華社、寶鋼等多家政府、媒體和企業(yè)項目中經(jīng)受住了海量信息和復(fù)雜環(huán)境的考驗(yàn)。

根據(jù)2007-2008中國商業(yè)智能市場發(fā)展報告統(tǒng)計:從全球范圍來看,商業(yè)智能已經(jīng)成為最具有前景的信息化領(lǐng)域;從國內(nèi)來看,商業(yè)智能是企業(yè)信息化中最重要的組成部分。但在我國,文本挖掘畢竟是一門新興的前沿技術(shù),還有諸多問題等待研究、解決,同時也需要對人才進(jìn)行儲備。為了推動文本挖掘技術(shù)整體水平向前發(fā)展;尋找、發(fā)現(xiàn)、選拔更多的高知識型專業(yè)挖掘技術(shù)人才投入到文本挖掘事業(yè)中來,為文本挖掘技術(shù)的前進(jìn)提供有力的后續(xù)保障,“數(shù)據(jù)挖掘研究院”聯(lián)手 TRS公司共同舉辦了“2008 TRS杯中國首屆文本挖掘智能大賽”。

商業(yè)智能提升了企業(yè)對市場的洞察力,文本挖掘成就了商業(yè)智能在互聯(lián)時代的重要作用。不難想象,隨著社會經(jīng)濟(jì)的快速發(fā)展,文本挖掘技術(shù)的應(yīng)用將越來越廣泛,商業(yè)智能也必將成為企業(yè)在競爭中克敵制勝的有效武器之一。這里,筆者衷心祝愿大賽的舉辦取得圓滿成功,同時也希望此賽事能真正為致力于文本挖掘事業(yè)的人們搭起一座溝通的橋梁和相互學(xué)習(xí)的園地,讓中文文本挖掘技術(shù)取得更快的進(jìn)步。(AMT)

發(fā)布:2007-04-23 13:44    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
合肥OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普合肥OA快博其他應(yīng)用

合肥OA 合肥新聞動態(tài) 合肥OA信息化 合肥OA快博 合肥OA軟件行業(yè)資訊 合肥軟件開發(fā)公司 合肥門禁系統(tǒng) 合肥物業(yè)管理軟件 合肥倉庫管理軟件 合肥網(wǎng)站建設(shè)公司 合肥餐飲管理軟件