當前位置:工程項目OA系統(tǒng) > 泛普各地 > 黑龍江OA系統(tǒng) > 哈爾濱OA系統(tǒng) > 哈爾濱OA快博
XML與面向Web的數(shù)據(jù)挖掘技術(shù)
面向Web的數(shù)據(jù)挖掘
Web上有海量的數(shù)據(jù)信息,怎樣對這些數(shù)據(jù)進行復雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)庫技術(shù)的研究熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。相對于Web的數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)性很強,即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù),而Web上的數(shù)據(jù)最大特點就是半結(jié)構(gòu)化。所謂半結(jié)構(gòu)化是相對于完全結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)而言。顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。
1.異構(gòu)數(shù)據(jù)庫環(huán)境
數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個數(shù)據(jù)庫,一個更大、更復雜的數(shù)據(jù)庫。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點之間的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,必須要研究站點之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因為如果所需的數(shù)據(jù)不能很有效地得到,對這些數(shù)據(jù)進行分析、集成、處理就無從談起。
2.半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復雜,沒有特定的模型描述,每一站點的數(shù)據(jù)都各自獨立設(shè)計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而,Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點。
3.解決半結(jié)構(gòu)化的數(shù)據(jù)源問題
Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數(shù)據(jù)。針對Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點,尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除了要定義一個半結(jié)構(gòu)化數(shù)據(jù)模型外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。面向Web的數(shù)據(jù)挖掘必須以半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)為前提。
XML與Web數(shù)據(jù)挖掘技術(shù)
XML為基礎(chǔ)的新一代WWW環(huán)境是直接面對Web數(shù)據(jù)的,不僅可以很好地兼容原有的Web應(yīng)用,而且可以更好地實現(xiàn)Web中的信息共享與交換。XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一對應(yīng)起來,實施精確地查詢與模型抽取。
1.XML的產(chǎn)生與發(fā)展
XML(eXtensibleMarkupLanguage)是由萬維網(wǎng)協(xié)會(W3C)設(shè)計,特別為Web應(yīng)用服務(wù)的SGML(StandardGeneralMarkupLanguage)的一個重要分支??偟膩碚f,XML是一種中介標示語言(Meta-markupLanguage),可提供描述結(jié)構(gòu)化資料的格式,詳細來說,XML是一種類似于HTML,被設(shè)計用來描述數(shù)據(jù)的語言。XML提供了一種獨立的運行程序的方法來共享數(shù)據(jù),它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標記語言,并能用一種被稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言,正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創(chuàng)建了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結(jié)構(gòu)和語義信息,可使計算機和服務(wù)器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務(wù)器下載大量的信息,還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。
XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進行自解釋(SelfDescribing)的語言。XML使用DTD(DocumentTypeDefinition文檔類型定義)來顯示這些數(shù)據(jù),XSL(eXtensibleStyleSheetLanguage)是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表CascadingStyleSheets)還要悠久,XSL包括兩部分:一個用來轉(zhuǎn)換XML文檔的方法;一個用來格式化XML文檔的方法。XLL(eXtensibleLinkLanguage)是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象層級,而不僅僅是頁面層級。由于XML能夠標記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設(shè)計人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。
2.XML的主要特點
正是XML的特點決定了其卓越的性能表現(xiàn)。XML作為一種標記語言,有許多特點:
(1)簡單。XML經(jīng)過精心設(shè)計,整個規(guī)范簡單明了,它由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標記語言,并能用一種常常稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言。XML能創(chuàng)建一種任何人都能讀出和寫入的世界語,這種創(chuàng)建世界語的功能叫做統(tǒng)一性功能。如XML創(chuàng)建的標記總是成對出現(xiàn),以及依靠稱作統(tǒng)一代碼的新的編碼標準。
(2)開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標準XML的基礎(chǔ)是經(jīng)過驗證的標準技術(shù),并針對網(wǎng)絡(luò)做最佳化。眾多業(yè)界頂尖公司,與W3C的工作群組并肩合作,協(xié)助確保交互作業(yè)性,支持各式系統(tǒng)和瀏覽器上的開發(fā)人員、作者和使用者,以及改進XML標準。XML解釋器可以使用編程的方法來載入一個XML的文檔,當這個文檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息,加快了網(wǎng)絡(luò)運行速度。
(3)高效且可擴充。支持復用文檔片斷,使用者可以發(fā)明和使用自己的標簽,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標注。XML提供了一個標示結(jié)構(gòu)化資料的架構(gòu)。一個XML組件可以宣告與其相關(guān)的資料為零售價、營業(yè)稅、書名、數(shù)量或其它任何數(shù)據(jù)元素。隨著世界范圍內(nèi)的許多機構(gòu)逐漸采用XML標準,將會有更多的相關(guān)功能出現(xiàn):一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現(xiàn),或者轉(zhuǎn)交到其他應(yīng)用程序做進一步的處理。XML提供了一個獨立的運用程序的方法來共享數(shù)據(jù),使用DTD,不同的組中的人就能夠使用共同的DTD來交換數(shù)據(jù)。你的應(yīng)用程序可以使用這個標準的DTD來驗證你接受到的數(shù)據(jù)是否有效,你也可以使用一個DTD來驗證你自己的數(shù)據(jù)。
(4)國際化。標準國際化,且支持世界上大多數(shù)文字。這源于依靠它的統(tǒng)一代碼的新的編碼標準,這種編碼標準支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多數(shù)字處理而言,一個文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計算機系統(tǒng)之間交換信息,而且能跨國界和超越不同文化疆界交換信息。
3.XML在Web數(shù)據(jù)挖掘中的應(yīng)用
XML已經(jīng)成為正式的規(guī)范,開發(fā)人員能夠用XML的格式標記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的數(shù)據(jù)中產(chǎn)生出來,使用XML結(jié)構(gòu)化的數(shù)據(jù)可以從商業(yè)規(guī)范和表現(xiàn)形式中分離出來。數(shù)據(jù)的集成、發(fā)送、處理和顯示是下面過程中的每一個步驟:
促進XML應(yīng)用的是那些用標準的HTML無法完成的Web應(yīng)用。這些應(yīng)用從大的方面講可以被分成以下四類:需要Web客戶端在兩個或更多異質(zhì)數(shù)據(jù)庫之間進行通信的應(yīng)用;試圖將大部分處理負載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用;需要Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用;需要智能Web代理根據(jù)個人用戶的需要裁減信息內(nèi)容的應(yīng)用。顯而易見,這些應(yīng)用和Web的數(shù)據(jù)挖掘技術(shù)有著重要的聯(lián)系,基于Web的數(shù)據(jù)挖掘必須依靠它們來實現(xiàn)。
XML給基于Web的應(yīng)用軟件賦予了強大的功能和靈活性,因此它給開發(fā)者和用戶帶來了許多好處。比如進行更有意義的搜索,并且Web數(shù)據(jù)可被XML唯一地標識。沒有XML,搜索軟件必須了解每個數(shù)據(jù)庫是如何構(gòu)建的,但這實際上是不可能的,因為每個數(shù)據(jù)庫描述數(shù)據(jù)的格式幾乎都是不同的。由于不同來源數(shù)據(jù)的集成問題的存在,現(xiàn)在搜索多樣的不兼容的數(shù)據(jù)庫實際上是不可能的。XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起。軟件代理商可以在中間層的服務(wù)器上對從后端數(shù)據(jù)庫和其它應(yīng)用處來的數(shù)據(jù)進行集成。然后,數(shù)據(jù)就能被發(fā)送到客戶或其他服務(wù)器做進一步的集合、處理和分發(fā)。XML的擴展性和靈活性允許它描述不同種類應(yīng)用軟件中的數(shù)據(jù),從描述搜集的Web頁到數(shù)據(jù)記錄,從而通過多種應(yīng)用得到數(shù)據(jù)。同時,由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理,XML格式的數(shù)據(jù)發(fā)送給客戶后,客戶可以用應(yīng)用軟件解析數(shù)據(jù)并對數(shù)據(jù)進行編輯和處理。使用者可以用不同的方法處理數(shù)據(jù),而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數(shù)據(jù),數(shù)據(jù)計算不需要回到服務(wù)器就能進行。XML可以被利用來分離使用者觀看數(shù)據(jù)的界面,使用簡單靈活開放的格式,可以給Web創(chuàng)建功能強大的應(yīng)用軟件,而原來這些軟件只能建立在高端數(shù)據(jù)庫上。另外,數(shù)據(jù)發(fā)到桌面后,能夠用多種方式顯示。
XML還可以通過以簡單開放擴展的方式描述結(jié)構(gòu)化的數(shù)據(jù),XML補充了HTML,被廣泛地用來描述使用者界面。HTML描述數(shù)據(jù)的外觀,而XML描述數(shù)據(jù)本身。由于數(shù)據(jù)顯示與內(nèi)容分開,XML定義的數(shù)據(jù)允許指定不同的顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來。本地的數(shù)據(jù)能夠以客戶配置、使用者選擇或其他標準決定的方式動態(tài)地表現(xiàn)出來。CSS和XSL為數(shù)據(jù)的顯示提供了公布的機制。通過XML,數(shù)據(jù)可以粒狀地更新。每當一部分數(shù)據(jù)變化后,不需要重發(fā)整個結(jié)構(gòu)化的數(shù)據(jù)。變化的元素必須從服務(wù)器發(fā)送給客戶,變化的數(shù)據(jù)不需要刷新整個使用者的界面就能夠顯示出來。但在目前,只要一條數(shù)據(jù)變化了,整一頁都必須重建。這嚴重限制了服務(wù)器的升級性能。XML也允許加進其他數(shù)據(jù),比如預測的溫度。加入的信息能夠進入存在的頁面,不需要瀏覽器重新發(fā)一個新的頁面。XML應(yīng)用于客戶需要與不同的數(shù)據(jù)源進行交互時,數(shù)據(jù)可能來自不同的數(shù)據(jù)庫,它們都有各自不同的復雜格式。但客戶與這些數(shù)據(jù)庫間只通過一種標準語言進行交互,那就是XML。由于XML的自定義性及可擴展性,它足以表達各種類型的數(shù)據(jù)。客戶收到數(shù)據(jù)后可以進行處理,也可以在不同數(shù)據(jù)庫間進行傳遞??傊谶@類應(yīng)用中,XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標準不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是在數(shù)據(jù)中附加TAG來表達數(shù)據(jù)的邏輯結(jié)構(gòu)和含義。這使XML成為一種程序能自動理解的規(guī)范。
XML應(yīng)用于將大量運算負荷分布在客戶端,即客戶可根據(jù)自己的需求選擇和制作不同的應(yīng)用程序以處理數(shù)據(jù),而服務(wù)器只須發(fā)出同一個XML文件。如按傳統(tǒng)的“Client/Server”工作方式,客戶向服務(wù)器發(fā)出不同的請求,服務(wù)器分別予以響應(yīng),這不僅加重服務(wù)器本身的負荷,而且網(wǎng)絡(luò)管理者還須事先調(diào)查各種不同的用戶需求以做出相應(yīng)不同的程序,但假如用戶的需求繁雜而多變,則仍然將所有業(yè)務(wù)邏輯集中在服務(wù)器端是不合適的,因為服務(wù)器端的編程人員可能來不及滿足眾多的應(yīng)用需求,也來不及跟上需求的變化,雙方都很被動。應(yīng)用XML則將處理數(shù)據(jù)的主動權(quán)交給了客戶,服務(wù)器所作的只是盡可能完善、準確地將數(shù)據(jù)封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數(shù)據(jù)的同時也理解數(shù)據(jù)的邏輯結(jié)構(gòu)與含義,從而使廣泛、通用的分布式計算成為可能。
XML還被應(yīng)用于網(wǎng)絡(luò)代理,以便對所取得的信息進行編輯、增減以適應(yīng)個人用戶的需要。有些客戶取得數(shù)據(jù)并不是為了直接使用而是為了根據(jù)需要組織自己的數(shù)據(jù)庫。比方說,教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封裝進XML文件,接下來在各個學校讓其通過一個過濾器,濾掉所有的答案,再發(fā)送到各個考生面前,未經(jīng)過濾的內(nèi)容則可直接送到老師手中,當然考試過后還可以再傳送一份答案匯編。此外,XML文件中還可以包含進諸如難度系數(shù)、往年錯誤率等其他相關(guān)信息,這樣只需幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。
結(jié)束語
面向Web的數(shù)據(jù)挖掘是一項復雜的技術(shù),由于Web數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的挖掘要復雜的多,因而面向Web的數(shù)據(jù)挖掘成了一個難以解決的問題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來了機會。由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁中的數(shù)據(jù)記錄。同時,由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個工業(yè)標準,XML為組織、軟件開發(fā)者、Web站點和終端使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標準方式的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)兊梅浅]p松。
來源:編輯之家
- 12005年Linux發(fā)展趨勢
- 2中小企業(yè)UPS方案按需選
- 3銀行中間業(yè)務(wù)平臺分析及實現(xiàn)
- 4企業(yè)實行電子商務(wù)外包優(yōu)劣分析
- 5數(shù)字紙張技術(shù)及其應(yīng)用前景
- 6利用數(shù)據(jù)可視化工具降低導航風險
- 7實現(xiàn)安全Samba的六種簡單途徑
- 8誰為SOA理念埋單?
- 9日企的本地化的信息系統(tǒng)建設(shè)
- 10大型企業(yè)可以從小型企業(yè)學到什么?
- 11SAN孤島互聯(lián)四項缺陷需避免
- 12小型和中型IT公司管理案例分析
- 13IT揭開管理傷疤:波司登集團ERP實施經(jīng)驗
- 14“維客”世界中的隱性“把關(guān)人”
- 15構(gòu)成哈爾濱OA軟件的技術(shù)是什么?
- 16“無線”模式也可繞道快行
- 17中小企業(yè)VoIP部署指南
- 18加密技術(shù)的方方面面
- 19移動互聯(lián)網(wǎng)產(chǎn)業(yè)推動商業(yè)企業(yè)OA軟件大發(fā)展
- 20PDM開發(fā)與應(yīng)用層次分析
- 21入侵檢測:2004年出現(xiàn)的4種新后門技術(shù)
- 22萬邦藥業(yè)IT舊債是否真的難還
- 23企業(yè)信息門戶商業(yè)功能和服務(wù)的雙軌
- 24IT項目需要足夠重視操作階段
- 25協(xié)同OA更好的為公司業(yè)務(wù)發(fā)展提供支撐和服務(wù)
- 26管理信息系統(tǒng)應(yīng)對企業(yè)進行戰(zhàn)略管理
- 27如何做需求開發(fā)?
- 28企業(yè)級應(yīng)用軟件發(fā)展攻略
- 29怎樣衡量一個OA系統(tǒng)是否成功呢?
- 30下一代網(wǎng)絡(luò)分組話音接入的實現(xiàn)
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓