當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 建筑OA系統(tǒng) > 項(xiàng)目管理系統(tǒng)
淺論數(shù)據(jù)挖掘與水文現(xiàn)代化
1數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。
用數(shù)據(jù)庫來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)挖掘的產(chǎn)生[1]。數(shù)據(jù)挖掘是一門交叉性學(xué)科,涉及到人工智能、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、模糊數(shù)學(xué)等等多個(gè)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)包括算法和技術(shù),數(shù)據(jù)、建模能力3個(gè)主要部分[2]。
1.2 數(shù)據(jù)挖掘的演進(jìn)過程
數(shù)據(jù)挖掘其實(shí)是一個(gè)逐漸演變的過程。電子數(shù)據(jù)處理的初期,人們就試圖通過某些方法來實(shí)現(xiàn)自動決策支持,當(dāng)時(shí)機(jī)器學(xué)習(xí)成為人們關(guān)心的焦點(diǎn)。爾后,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和發(fā)展,人們的注意力轉(zhuǎn)向知識工程,專家系統(tǒng)就是這種方法所得到的成果。
20世紀(jì)80年代,人們在新的神經(jīng)網(wǎng)絡(luò)理論的指導(dǎo)下,重新回到機(jī)器學(xué)習(xí)的方法上,并將其成果應(yīng)用于處理大型商業(yè)數(shù)據(jù)庫,而且出現(xiàn)了一個(gè)新的術(shù)語——KDD(Knowledge discovery in database,泛指從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法)。人們用KDD來描述整個(gè)數(shù)據(jù)發(fā)掘的過程,包括最開始的制定業(yè)務(wù)目標(biāo)到最終的結(jié)果分析,而用數(shù)據(jù)挖掘(Data mining,簡稱DM)來描述使用挖掘算法進(jìn)行數(shù)據(jù)挖掘的子過程。DM側(cè)重?cái)?shù)據(jù)庫角度,KDD側(cè)重人工智能角度[1]。
數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)境中進(jìn)入了實(shí)用階段。
1.3數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘的定義為“從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、先前不知道的、潛在有用的信息”,是在數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計(jì)分析、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)的基礎(chǔ)上發(fā)展起來的新概念和新技術(shù),是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、未知的、潛在的、有用的信息和知識的過程。更廣義的說法是[2]:數(shù)據(jù)挖掘意味著在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。
數(shù)據(jù)挖掘與傳統(tǒng)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用3個(gè)特征。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價(jià)值[1]。
2 馬克威分析系統(tǒng)簡介
馬克威分析系統(tǒng)是中國第一套完全自主知識產(chǎn)權(quán),集統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和網(wǎng)絡(luò)挖掘于一體的數(shù)據(jù)分析系統(tǒng)。它可以與現(xiàn)有的信息管理系統(tǒng)(MIS)進(jìn)行集成,在保護(hù)現(xiàn)有設(shè)備的情況下,節(jié)約數(shù)據(jù)挖掘項(xiàng)目的開支。該系統(tǒng)由數(shù)據(jù)輸入、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、統(tǒng)計(jì)制圖和電子報(bào)表等六大功能模塊組成,各模塊特點(diǎn)為:
(1)靈活多變的數(shù)據(jù)輸入方式。輸入方式包括從界面直接輸入、直接打開數(shù)據(jù)文件、使用數(shù)據(jù)向?qū)?shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到分析平臺上等,并且與所有主流數(shù)據(jù)庫實(shí)現(xiàn)了無縫連接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。
(2)豐富的數(shù)據(jù)處理功能。包括數(shù)據(jù)合并、數(shù)據(jù)拆分、插入或刪除記錄、記錄處理、權(quán)重設(shè)置、多維查詢、分類匯總、數(shù)據(jù)抽樣、變量計(jì)算、缺失值填充、異常值刪除、記錄排序、變量類型轉(zhuǎn)換、行列轉(zhuǎn)換、隨機(jī)數(shù)生成等。
(3)統(tǒng)計(jì)分析是該系統(tǒng)的核心模塊之一,有基礎(chǔ)統(tǒng)計(jì)和高級統(tǒng)計(jì)可選?;A(chǔ)統(tǒng)計(jì)包括均值分析、交叉表、頻率分析、描述分析、一元方差分析、參數(shù)T檢驗(yàn)、單樣本T檢驗(yàn)、獨(dú)立樣本T檢驗(yàn)、配對樣本T檢驗(yàn)、相關(guān)分析、非參數(shù)檢驗(yàn)等;高級統(tǒng)計(jì)包括回歸分析、聚類分析、判別分析、因子分析、時(shí)間序列分析、多因素方差分析等。
(4)數(shù)據(jù)挖掘模塊提供了目前市場上較為完備的挖掘方法。包括神經(jīng)網(wǎng)絡(luò)、決策樹、關(guān)聯(lián)規(guī)則、模糊聚類、粗糙集、支持向量機(jī)、孤立點(diǎn)分析等。
(5)數(shù)據(jù)信息的可視化是信息應(yīng)用的發(fā)展趨勢。統(tǒng)計(jì)制圖模塊包括直線圖、條狀圖、柱狀圖、圓餅圖、面積圖、排列圖、誤差圖、序列圖、散點(diǎn)圖、自相關(guān)圖、互相關(guān)圖、控制圖等。
(6)統(tǒng)計(jì)報(bào)表模塊主要針對中國用戶。它將主要和常用的報(bào)表按照國家統(tǒng)計(jì)局的常規(guī)模式設(shè)定成格式,為用戶自動生成表格,包含內(nèi)設(shè)的系統(tǒng)模板以及用戶自設(shè)的用戶模塊兩類。
3 水文現(xiàn)代化與數(shù)據(jù)挖掘
針對我國存在的洪澇災(zāi)害、水資源短缺、水環(huán)境惡化、水土流失等有關(guān)水的問題,水利部提出了從傳統(tǒng)水利向現(xiàn)代水利、可持續(xù)發(fā)展水利轉(zhuǎn)變,以水資源的可持續(xù)利用支撐經(jīng)濟(jì)社會可持續(xù)發(fā)展的治水新思路,并對水利現(xiàn)代化提出了基本要求[5]。
3.1 水文現(xiàn)代化
水文現(xiàn)代化是水利信息化的基礎(chǔ)。數(shù)字水文系統(tǒng)就是利用數(shù)據(jù)庫技術(shù)建立完善的信息處理和存儲體系;利用海量數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)建立信息提取和分析體系;利用地理信息系統(tǒng)等工具建立氣象、水文、地形地貌、植被、土壤水分、人類活動影響措施等信息的空間分布數(shù)字體系;利用中尺度數(shù)值預(yù)報(bào)模式和分布式水文模型建立數(shù)字化的空間和時(shí)間分布預(yù)報(bào)體系;依托網(wǎng)絡(luò)、地理信息系統(tǒng)和數(shù)據(jù)庫等技術(shù),建立為防汛決策、專業(yè)應(yīng)用、電子政務(wù)等提供決策支持的信息應(yīng)用與服務(wù)體系。其核心在于如何形成數(shù)字化的、覆蓋整個(gè)指定地域空間的、多重時(shí)空尺度的、多種要素的、對水文分析有用的數(shù)據(jù)產(chǎn)品。
對于水文現(xiàn)代化而言,要形成與水利信息化相適應(yīng)的信息服務(wù)能力,必須大力建設(shè)水文信息數(shù)據(jù)庫,使之成為水利信息資源的重要組成部分,包括兩層含義:一是要豐富數(shù)據(jù)庫的內(nèi)容;二是要對水文部門內(nèi)部的各類信息資源進(jìn)行集成,形成有一定聚合度和服務(wù)目標(biāo)的水文信息資源。分散在一個(gè)個(gè)單獨(dú)部門的水文數(shù)據(jù)很難形成可以被開發(fā)利用的資源。
3.2 實(shí)施數(shù)據(jù)挖掘
實(shí)施數(shù)據(jù)挖掘一般的步驟是:提出和理解問題→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)整理→建立模型→評價(jià)和解釋[2]。
實(shí)施數(shù)據(jù)挖掘應(yīng)從以下3個(gè)方面加以考慮:一是用數(shù)據(jù)挖掘解決什么樣的行業(yè)問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。
數(shù)據(jù)挖掘的分析算法主要來自于統(tǒng)計(jì)分析和人工智能(機(jī)器學(xué)習(xí)、模式識別等)兩個(gè)方面。數(shù)據(jù)挖掘研究人員和數(shù)據(jù)挖掘軟件供應(yīng)商在這一方面所做的主要工作是優(yōu)化現(xiàn)有的一些算法,以適應(yīng)大數(shù)據(jù)量的要求[4]。
數(shù)據(jù)挖掘最后是否成功,是否有經(jīng)濟(jì)效益,數(shù)據(jù)準(zhǔn)備至關(guān)重要。數(shù)據(jù)準(zhǔn)備主要包含兩個(gè)方面:一是從多種數(shù)據(jù)源去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的時(shí)效性,這有可能要用到數(shù)據(jù)倉庫的思想和技術(shù);另一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。
3.3 數(shù)據(jù)挖掘中存在的問題
(1)數(shù)據(jù)挖掘的基本問題在于數(shù)據(jù)的數(shù)量及維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯得非常復(fù)雜,如何選擇分析變量,是首先要解決的問題。
(2)面對積累起來的大量數(shù)據(jù),現(xiàn)有的統(tǒng)計(jì)方法等都遇到了問題,人們直接的想法就是對數(shù)據(jù)進(jìn)行抽樣。怎么抽樣,抽取多大的樣本,又怎樣評價(jià)抽樣的效果,都是需要研究的問題。
(3)既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個(gè)趨勢作出應(yīng)有的考慮和評價(jià)。
(4)各種不同的模型如何應(yīng)用,其效果如何評價(jià)。不同的人對同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生差異很大的結(jié)果,這就存在可靠性的問題。
(5)數(shù)據(jù)挖掘涉及到數(shù)據(jù),也就涉及了數(shù)據(jù)的安全性問題。
(6)數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識相結(jié)合才能對其做出判斷[1]。
3.4 水文數(shù)據(jù)挖掘
水文綜合數(shù)據(jù)庫系統(tǒng)與服務(wù)平臺(水文數(shù)據(jù)中心)是以現(xiàn)代技術(shù)手段向用戶提供優(yōu)質(zhì)、高效水文信息共享服務(wù)的基本保障[5]。信息獲取與分析技術(shù)的快速發(fā)展,特別是遙測、遙感、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù)的應(yīng)用,有力地促進(jìn)了水文數(shù)據(jù)的采集和處理技術(shù)的發(fā)展,使之在時(shí)間和空間的尺度及要素類型上有了不同程度的擴(kuò)展。由于水在人類生存發(fā)展中的特殊作用,因此應(yīng)用各種新技術(shù)獲取水文數(shù)據(jù),挖掘蘊(yùn)藏于水文數(shù)據(jù)中的知識,已成為水文科學(xué)發(fā)展的新熱點(diǎn)。
水文數(shù)據(jù)挖掘可以應(yīng)用決策樹、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排斥反例、概念樹、遺傳算法、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析、模糊論等理論與技術(shù),并在可視化技術(shù)的支持下,構(gòu)造滿足不同目的的水文數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。
據(jù)統(tǒng)計(jì),我國水文整編資料數(shù)據(jù)累計(jì)量已超過7 GB,加上進(jìn)行水文預(yù)報(bào)所需的天氣、地理等數(shù)據(jù),進(jìn)行水文分析所需要處理的數(shù)據(jù)量很大。沿用傳統(tǒng)的技術(shù)工具和方法,從這些數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)中及時(shí)準(zhǔn)確地挖掘出所需要的知識,必然會因?yàn)橛?jì)算能力、存儲能力、算法的不足而無能為力,因此需要高效的水文數(shù)據(jù)挖掘技術(shù)。
4 結(jié) 語
數(shù)據(jù)倉庫能把整個(gè)部門的數(shù)據(jù),無論其地理位置、格式和通信要求,統(tǒng)統(tǒng)集成在一起,便于最終用戶訪問并能從歷史的角度進(jìn)行分析,最后做出戰(zhàn)略決策。數(shù)據(jù)挖掘技術(shù)可從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的及未知的關(guān)系、模式和趨勢,并以易被理解的方式表示出來[3]。
需要強(qiáng)調(diào)的是,要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個(gè)方面,數(shù)據(jù)挖掘的成功要求對期望解決問題的領(lǐng)域(如水文領(lǐng)域)有深刻的了解,理解該領(lǐng)域要素?cái)?shù)據(jù)的屬性,了解其采集的過程,同時(shí)還需要對該領(lǐng)域的業(yè)務(wù)有足夠的數(shù)據(jù)分析經(jīng)驗(yàn)。
水文現(xiàn)代化建設(shè)的主要任務(wù)體現(xiàn)在建設(shè)較高標(biāo)準(zhǔn)的水文水資源信息管理系統(tǒng)上,包括水文氣象信息采集、預(yù)報(bào)及監(jiān)測系統(tǒng)、信息傳輸系統(tǒng)、信息處理系統(tǒng)、決策支持系統(tǒng)等。目前水文工作中諸如泥沙預(yù)報(bào)等方面基本處于空白狀態(tài)。水文數(shù)據(jù)挖掘是精確水文預(yù)報(bào)和水文數(shù)據(jù)分析的重要基礎(chǔ),應(yīng)當(dāng)足夠重視,并積極開展工作。
致謝:本文承蒙黃委水文局寇懷忠博士后指導(dǎo),在此謹(jǐn)致謝意。
參考文獻(xiàn):
[1] 張?jiān)茲徚? 數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[2] Jiawei Han,Micheline Kamber. Data Mining:Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2001.
[3] 趙旭升,楊天行,王珊琳.數(shù)據(jù)挖掘技術(shù)在防洪決策支持系統(tǒng)中的應(yīng)用[J].人民黃河,2003,(5).
[4] Olivia Parr Rud. 數(shù)據(jù)挖掘?qū)嵺`[M].北京:機(jī)械工業(yè)出版社,2003.
[5]水利部.水文現(xiàn)代化建設(shè)指導(dǎo)意見[R].北京:水文〔2005〕70號,2005.
- 1[廣東]高層塔樓基坑施工組織設(shè)計(jì)
- 2甘肅省2015年監(jiān)理工程師考試報(bào)考條件
- 32015年咨詢工程師考試《組織與管理》課程講義(30)
- 4二級建造師復(fù)習(xí)資料:使用明火
- 5XX縣城鎮(zhèn)園林綠化工程工作總結(jié)
- 6中水回用質(zhì)量標(biāo)準(zhǔn)編制工作大綱
- 7人才流動的成本有多大
- 8公路、道路及機(jī)場工程專業(yè)本科學(xué)歷可以報(bào)考一級建造師嗎
- 9咨詢工程師考試輔導(dǎo)資料:矩陣式組織結(jié)構(gòu)的優(yōu)點(diǎn)
- 10四川省水利水電建筑工程預(yù)算定額(1997)
- 11招標(biāo)師考試法律法規(guī):訂立合同
- 122015建設(shè)工程項(xiàng)目管理:質(zhì)量監(jiān)督程序
- 13吊車梁制作工藝
- 142015年安全工程師《相關(guān)法律知識》考試資料:法的概念
- 1516層大樓臨時(shí)用電安全施工組織設(shè)計(jì)
- 16一級建造師復(fù)習(xí)資料:合同因抵銷而終止
- 17造價(jià)員基礎(chǔ)知識必備知識點(diǎn):制定施工方案主要應(yīng)考慮哪些內(nèi)容
- 18一級建造師復(fù)習(xí)資料:項(xiàng)目實(shí)施階段項(xiàng)目總進(jìn)度包括的內(nèi)容
- 19屋面柔性防水層設(shè)保護(hù)層 分格大小和縫寬
- 20一起超高模架垮塌引起的重大傷亡事故的剖析
- 21某工程施工測量及監(jiān)測施工方案
- 22[遼寧]鐵路工程路基試驗(yàn)段專項(xiàng)施工方案
- 232015年監(jiān)理工程師《基本理論與相關(guān)法規(guī)》練習(xí)(8)
- 24第十八屆中國國際投資貿(mào)易洽會推介會24日在北京召開
- 25【考友分享】施工總承包管理模式與施工總承包模式的比較
- 262015一級建造師《工程經(jīng)濟(jì)》知識點(diǎn):長期籌資的特點(diǎn)和方式
- 272015建設(shè)工程項(xiàng)目管理:項(xiàng)目質(zhì)量控制體系性質(zhì)
- 28浙江省造價(jià)工程師考試時(shí)間
- 29某公司環(huán)境因素識別與評價(jià)控制程序
- 30深圳某塔樓測量施工方案
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓