監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

從歸檔中尋求數(shù)據(jù)的潛在價值

申請免費試用、咨詢電話:400-8352-114

崔昊

     在我們經(jīng)歷了一個輝煌的計算年代之后,我們發(fā)現(xiàn),越來越多的數(shù)據(jù)已經(jīng)讓我們走進了一個更加關(guān)心存儲的年代。在這個年代里,數(shù)據(jù)的計算與數(shù)據(jù)的存儲相比,好像已經(jīng)顯得不那么重要,因為隨著數(shù)據(jù)的從KB、MB、GB再到TB與PB,如果不能解決存儲的問題,那么再大的計算量也只能成為服務(wù)器的FLOPS符號。同時,因為數(shù)據(jù)挖掘、知識管理日益為人所知,以及越來越多的針對存儲的法規(guī)需要遵從,數(shù)據(jù)的存儲成為了企業(yè)必須要面對的難題。

  當(dāng)存儲的需求從未像現(xiàn)在這樣旺盛的時候,我們只有簡單的儲存、備份和恢復(fù),因為那時候我們的數(shù)據(jù)僅僅是幾塊硬盤就可以應(yīng)付的小case,而現(xiàn)在我們的存儲越發(fā)復(fù)雜,變成了備份、恢復(fù)、歸檔、災(zāi)難備份、持續(xù)數(shù)據(jù)保護、重復(fù)數(shù)據(jù)刪除等一大堆復(fù)雜的名詞,存儲工作也隨著這些名詞越發(fā)的細致起來。在這些名詞中,歸檔這項曾經(jīng)大家認為只是簡單重復(fù)勞動的工作,逐步走到了存儲工作的臺前,我們看到,很多因素讓歸檔成為了企業(yè)必須要考慮的問題。

  法規(guī)遵從是歸檔的“源動力”?

  在談起歸檔的時候,很多人的第一反應(yīng),就是對法規(guī)遵從的要求,誠然,越來越多的國家對于企業(yè)數(shù)據(jù)的長久保存做出了嚴格規(guī)定,如美國就對其上市公司頒布了要求企業(yè)保存數(shù)據(jù)的薩班斯法案,而就在我寫這篇文章的前幾天,中國人民銀行正式頒布了《金融機構(gòu)客戶身份識別和客戶身份資料及交易記錄保存管理辦法》,據(jù)此辦法規(guī)定,我國的金融機構(gòu)應(yīng)當(dāng)自業(yè)務(wù)關(guān)系結(jié)束當(dāng)年或者一次性交易記賬當(dāng)年計起至少保存5年。交易記錄則自交易記賬當(dāng)年計起至少保存5年。

  無論是美國的薩班斯法案還是國內(nèi)針對金融機構(gòu)新出臺的此項規(guī)定,都對企業(yè)保存其數(shù)據(jù)有了嚴格的要求,正因為如此,企業(yè)必須要保存大量的重復(fù)、使用頻度低的過期數(shù)據(jù),這些數(shù)據(jù)也許是幾年甚至十幾年以前的數(shù)據(jù),雖然看似這些數(shù)年前的數(shù)據(jù)只有區(qū)區(qū)幾GB,但是當(dāng)現(xiàn)在成為過去,今天的TB、PB級的數(shù)據(jù)需要被永久保存的時候,企業(yè)就不得不面對如山一樣的數(shù)據(jù)災(zāi)難。

  因此,歸檔看似隨著法規(guī)遵從的要求,成為了數(shù)據(jù)存儲的新的熱點,實際上,這種對歸檔的需求在我們看來是企業(yè)在被動的接受,如果企業(yè)不保存數(shù)據(jù)就會收到懲罰或訴訟失敗等言論甚囂塵上。

  對此我們難免就有疑問,歸檔的出現(xiàn)要比這些所有的法律法規(guī)早的多,難道法規(guī)遵從真的是歸檔的“源動力”?難道企業(yè)沒有主動的歸檔需求么?

  歸檔的需求來源于信息的價值

  其實,當(dāng)我們翻看全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會(SNIA)如何解釋歸檔的時候,我們發(fā)現(xiàn),我們的看法與SNIA不謀而合。據(jù)SNIA的《網(wǎng)絡(luò)存儲雙語詞典》解釋,Archive(歸檔)是指數(shù)據(jù)集合的一致性拷貝,通常用以長期持久地保存事務(wù)或者應(yīng)用狀態(tài)記錄。一般情況下,歸檔通常用以審計和分析的目的,而不是用于應(yīng)用恢復(fù)的目的。

  我們認為,這才是歸檔的真正意義所在。

  事實上我們都知道,所有企業(yè)去存儲去歸檔的數(shù)據(jù),都來自于企業(yè)的生產(chǎn),這些數(shù)據(jù)都是企業(yè)在整個企業(yè)活動中所積累的,而不僅僅是0和1的堆疊。這些數(shù)據(jù)的出現(xiàn),不僅體現(xiàn)著企業(yè)發(fā)展的軌跡,更不是一些簡單的報表,在這個競爭的年代,它們是明鏡,可以了解企業(yè)的情況;它們是羅盤,可以指引企業(yè)的方向;它們更是翅膀,可以幫助企業(yè)騰飛。

  就像EMC公司客戶技術(shù)主管楊明軒先生所說,現(xiàn)在的電信行業(yè)提供了電話清單、計費詳單的查詢,但是只提供給我們五個之前月、一個當(dāng)前月的記錄,很多用戶對這種服務(wù)頗有怨言,但是實際上,電信公司也希望保存超過六個月的歷史數(shù)據(jù),這些數(shù)據(jù)其實就是它們的競爭資源。

  隨著在數(shù)據(jù)挖掘和知識管理在今天的日臻完善,包括Microsoft SQL Server Analysis、Cognos、Business Objects在內(nèi)的多種商務(wù)智能(BI)軟件開始為企業(yè)所熟知并應(yīng)用在其生產(chǎn)中,越來越多的企業(yè)正在這些BI軟件來從其數(shù)據(jù)中尋找價值,以我們剛才所說的電信行業(yè)為例,電信公司正在利用對用戶過往的花費組成,如主叫通話時長、被叫通話時長、短信、上網(wǎng)流量所占比例,有針對性的推出一些手機通話套餐和手機服務(wù),實際上我們看到的99套餐、199套餐,雖然被指與單向收費有悖,但是仍有許許多多的用戶選擇,就是因為用戶發(fā)現(xiàn)這些套餐,確實適合自己的通信要求,而這些套餐的時長、費率的組合都是與對過往數(shù)據(jù)的挖掘分不開的。

  因此我們看到對數(shù)據(jù)的所蘊藏的價值的渴望與企業(yè)競爭的需要,越來越多的企業(yè)會需要那些曾被稱作“過期”的數(shù)據(jù),雖然這些數(shù)據(jù)可能只是在進行BI的時候需要那么一兩次,但就是這一兩次所帶來的巨大價值,促進了企業(yè)主動歸檔的發(fā)展。我們看到,對于企業(yè)來說,被動的消極的應(yīng)付法規(guī)遵從的需求,只能夠保證其“生存”,而積極的存儲數(shù)據(jù)并從中挖掘價值,將保證企業(yè)的“發(fā)展”。

  實際上,在我們與很多企業(yè)的交流中,其中一個CIO提到,如果說到底是哪一點更吸引他們?nèi)w檔數(shù)據(jù),他會讓CFO明白,讓數(shù)據(jù)賺錢比讓數(shù)據(jù)省錢來的更加有價值。

  CAS 進行有效“歸檔” 而不僅僅是存儲

  就像我們所說的,歸檔在那些法律法規(guī)頒布之前就已經(jīng)存在了,一直以來,磁帶占據(jù)著歸檔市場的老大位置,很多企業(yè)用磁帶來進行備份已經(jīng)有十幾年了,但是磁帶有著其不可逾越的問題。

  首先,磁帶介質(zhì)的脆弱和容易丟失讓很多管理員頭痛不已,在談起磁帶的脆弱性時,曾經(jīng)有過8年磁帶銷售經(jīng)歷的EMC的技術(shù)顧問黃斌先生深有感觸,他表示,磁帶存儲的維護量太大,驅(qū)動器容易壞,磁帶更容易壞,他曾經(jīng)有一個客戶的公司在寫字樓,寫字樓沒有專用的機房,北方地區(qū)冬天有暖氣,機房里機器數(shù)量很多,溫度很高,45度多,在這么高的溫度下磁帶一個月就全壞了,因為磁帶是塑料介質(zhì)纏在一起,溫度高就連在一起,數(shù)據(jù)就讀不出來了,所以磁帶很怕高溫。除此以外,磁帶還不能摔不能受潮,更不能接觸任何的帶磁性的物質(zhì)。于是,很多客戶每天都在小心翼翼的維護著自己的磁帶。

  其次是讀取,因為磁帶的順序?qū)懭?,順序讀取特點,這就造成如果要讀磁帶最里面的數(shù)據(jù),將要把整盤磁帶讀取一遍,而且這還是在確定數(shù)據(jù)在哪一盤磁帶的前提下,否則在磁帶上搜索數(shù)據(jù)將會是漫長而又痛苦的。同時,磁帶讀取次數(shù)也有限,因為磁帶上磁粉很容易脫落,所以一盤磁帶在讀取了30次左右之后,就會因為磁粉脫落而不能完整的讀取出數(shù)據(jù)。

  據(jù)EMC大中國區(qū)副總裁曹暉介紹,銀行用磁帶已經(jīng)幾十年了,但是現(xiàn)在數(shù)據(jù)迅速增長。在現(xiàn)在商業(yè)社會,如果需要查詢的資料,比如會計制度要審核,根本不可能允許數(shù)據(jù)在很長時間之后才從磁帶中獲取。

  而這一切都被磁盤存儲所解決,其實在很多的用戶接觸了磁帶歸檔和磁盤歸檔之后,他們便被磁盤的高速讀取和穩(wěn)定性所吸引。但是我們知道,磁盤存儲門類繁多,那么到底什么樣的磁盤存儲最適合歸檔呢?

  實際上我們談了那么多關(guān)于磁盤存儲的優(yōu)點與歸檔的重要性,我們很難去避開一個名詞,CAS。大概在五年前,EMC以先行者的身份推出了Centera系統(tǒng),基于內(nèi)容尋址存儲(Content-addressable storage CAS)的歸檔產(chǎn)品。“內(nèi)容尋址存儲(Content-addressable storage,CAS)”是根據(jù)內(nèi)容(而不是位置)檢索存儲信息的,其具有面向?qū)ο蟠鎯μ卣?,基于磁記錄技術(shù),它按照所存儲數(shù)據(jù)內(nèi)容的數(shù)字指紋尋址,具有良好的可搜索性、安全性、可靠性和擴展性。于是,從2002年世界上第一個內(nèi)容尋址存儲 (CAS) 解決方案EMC Centera出現(xiàn)開始,CAS技術(shù)就被越來越多的業(yè)內(nèi)專家所稱道。

  毫無例外的,我們依舊會談到CAS對法規(guī)遵從的突出貢獻,在CAS設(shè)備中進行記錄管理與普通陣列是不同的。一旦記錄被存儲,就不能被改變,也不能被復(fù)寫。因此,記錄被存儲后,跟蹤記錄修改是沒有任何意義的?D?D也就是說,存儲后不支持任何形式的修改。我們一旦將對象(文件)存儲在CAS中,這個對象就會受到控制,不可更改。對于大多數(shù)用戶來說,一個對象就是一個文件,文件的不可更改意味著這個文件不能被復(fù)寫。這個性質(zhì)使它符合很多規(guī)章制度的管理需要。

  但是另一方面,我們?nèi)灾饕獜钠髽I(yè)的“主動歸檔”去看看CAS帶給了我們什么。黃斌先生表示,EMC Centera為代表的CAS在存儲上可以說帶來了第三次浪潮,CAS具有的簡單管理和高可用性,幫助它大幅度降低了企業(yè)的歸檔管理難度。從技術(shù)角度來說,CAS和SAN、NAS在技術(shù)層面有一個最大的區(qū)別。SAN、NAS在存儲文件的時候是按照地址存放文件,用戶找文件的時候一定要知道它放在哪個磁盤分區(qū)的哪個目錄里,否則就要搜索。而CAS沒有分區(qū)、沒有目錄,不需要記住文件路徑,只需要把數(shù)據(jù)交給CAS,CAS會生成一個數(shù)字指紋,相當(dāng)于公民身分證,靠一串?dāng)?shù)字和字母組合的數(shù)字指紋來識別某一段的數(shù)據(jù)。當(dāng)用戶需要找這個數(shù)據(jù)的時候,只要提交數(shù)字指紋來獲取數(shù)據(jù),所以它的技術(shù)和傳統(tǒng)的SAN、NAS是完全不同的。這樣的管理性能,成為了很多SAN或NAS系統(tǒng)管理員被無窮無盡的分區(qū)、卷和目錄所折磨時的渴望。

  當(dāng)企業(yè)擁有簡單的管理并能獲得安全且符合法規(guī)遵從要求時,企業(yè)對于歸檔的積極性遠遠比單純的被動遵從法律要高的多,據(jù)楊明軒先生介紹,從2002年EMC推出第一臺CAS產(chǎn)品Centera開始,現(xiàn)在在國外已經(jīng)有4000多個用戶購買了將近一萬臺的Centera產(chǎn)品,薩班斯法案的立法者,美國證券交易協(xié)會就采用了Centera進行電子郵件存儲管理。而在國內(nèi),青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院是EMC的第一個國內(nèi)CAS用戶,雖然此前默默無聞,但是實際上其已經(jīng)應(yīng)用Centera兩年多了。在青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院Centera主要針對醫(yī)療行業(yè)的PACS系統(tǒng),保存醫(yī)院的影像數(shù)據(jù)。他表示,這種數(shù)據(jù)要采用歸檔的方式保存,但是這種數(shù)據(jù)并不是一種死數(shù)據(jù),而是讓醫(yī)務(wù)人員能夠訪問的一種活躍數(shù)據(jù),我們看到這實際上正好印證了我們此前所說的“歸檔的需求來源于信息的價值”,在這里,醫(yī)院的價值就是可以幫助醫(yī)生更快的了解病人的病情,而CAS正幫助著醫(yī)院快速的訪問這些數(shù)據(jù)并從中獲得其價值。

  在現(xiàn)在的企業(yè)里,我們看到了越來越多的CAS歸檔系統(tǒng),但是這些歸檔系統(tǒng)的作用已經(jīng)離曾經(jīng)的歸檔越來越遠了,企業(yè)歸檔不再是為了歸檔而歸檔,他們正努力從歸檔中挖掘價值,CAS讓他們可以快速的歸檔并快速的讀取,用以支持企業(yè)的數(shù)據(jù)挖掘、知識管理和眾多在線業(yè)務(wù),數(shù)據(jù)從歸檔系統(tǒng)中被提取出來,通過敲敲打打,仔細剖析,成為了企業(yè)的競爭價值。在這種環(huán)境下,CAS煥發(fā)了青春,我們曾經(jīng)說過,存儲行業(yè)從來不缺少新聞和新技術(shù),某些技術(shù)也許沉睡了幾天幾個月甚至幾年,但是總會有一天突然出來宣告它的大旗仍然飄揚,而隨著用戶應(yīng)用的普及,這些技術(shù)也會慢慢的再次宣告它的存在,也許內(nèi)容尋址存儲(Content-addressable storage CAS)就是這樣一個技術(shù)。

 

發(fā)布:2007-03-25 10:58    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢