當前位置:工程項目OA系統(tǒng) > 泛普各地 > 吉林OA系統(tǒng) > 長春OA系統(tǒng) > 長春OA快博
別再讓數(shù)據(jù)中心“中暑”
前幾日,新浪“任你郵”的幾則公告拉響了數(shù)據(jù)中心的“中暑”警報。然而,我們發(fā)現(xiàn)在“中暑”的原因上,新浪與為其提供托管服務的中國網(wǎng)通北京通信數(shù)據(jù)中心的解釋卻不盡相同。首先,對機房“溫度”的描述并不一致。
因為數(shù)據(jù)中心機房溫度有著嚴格的設(shè)定,基本都在20~25攝氏度之間,如果是網(wǎng)通機房溫度達到41~43攝氏度,機柜內(nèi)的溫度就不堪想象了。而無論服務器還是存儲設(shè)備,一般都是進風口的溫度略高于20攝氏度,出風口的溫度則增加10余攝氏度,因為氣流攜帶出來了系統(tǒng)運行中產(chǎn)生的熱量。因此,網(wǎng)通所稱“高密度磁盤陣列組的出風口”似乎更為精確。
其次,導致“溫度”過高的原因解釋也不同。北京通信公司市場部唐柳明的解釋是“碼放有些問題”。通常一個機架上只能放100套設(shè)備,但是新浪放了260套。而新浪公關(guān)部高級經(jīng)理孟翔鵬的說明是:“整體環(huán)境溫度不是新浪能夠控制的,受國內(nèi)整體電力控制等各方面問題的影響,機房空調(diào)的制冷性能有待提高。目前,新浪正在積極配合網(wǎng)通改善和解決機房空調(diào)的制冷性。”為了推遲、縮短服務中斷時間,新浪稱“己在力所能及的范圍內(nèi)進行了各種努力,包括對設(shè)備進行人工降溫和物理降溫各種手段。
事實上,“高溫”導致服務中斷的現(xiàn)象并非僅此一家。6月30日,重慶電信服務器突然“癱瘓”,渝中區(qū)、沙坪壩區(qū)、江北區(qū)電信用戶無法打開任何網(wǎng)頁。該市一專業(yè)人士推測,由于天氣高溫,機房散熱容易出現(xiàn)問題,導致出現(xiàn)設(shè)備故障。那么,現(xiàn)在對于用戶來講,更重要的是如何從技術(shù)上避免此類事件的再次發(fā)生!
存儲散熱都說“和技術(shù)無關(guān)”
網(wǎng)通的解釋引發(fā)了一個新的話題,即存儲散熱。幾位存儲技術(shù)人員都表示不太了解散熱問題,可見這個話題有多新。不過幾位在細一琢磨后,陳述的觀點又非常一致:存儲散熱無關(guān)(存儲)技術(shù),但非常重要。
惠普存儲產(chǎn)品經(jīng)理張建軍表示,存儲設(shè)備大多采取標準散熱技術(shù),有專門的散熱工藝,一般的存儲技術(shù)人員并不了解。但他補充說,存儲設(shè)備對場地環(huán)境要求很高,用戶對散熱和通風問題應該非常重視。和很多存儲廠商做法一樣,惠普的工程師在設(shè)備安裝前,就會到機房現(xiàn)場去觀察是否有良好的散熱、通風條件,并在方案書中給出詳細建議;同時惠普還提供機房場地評估服務。
EMC的采訪回應則是在經(jīng)過“二傳”之后落到了售后工程師李俊身上,理由是“他經(jīng)常到用戶現(xiàn)場,對于存儲散熱有實際了解?!?/FONT>
李俊給了記者一些量化的概念:EMC低端存儲設(shè)備的功率通常是在200~300瓦;而高端存儲設(shè)備通常是一個機柜,在滿配的情況下整個機柜功率在1.5千瓦左右;而EMC最高端的存儲設(shè)備整個機柜的功率可達到6千瓦。功率越高,單位時間內(nèi)的散熱就越大。用戶在購買產(chǎn)品前也可以根據(jù)設(shè)備的功率核算出散熱量,看目前的制冷條件是否可以罩住它。
存儲散熱主要取決于場地溫度、擺放和機器配置三方面因素,但他的經(jīng)驗是:如果空調(diào)溫度合適的話,一般存儲設(shè)備不會出現(xiàn)散熱問題。 以EMC的存儲設(shè)備為例,可以承受的溫度范圍是10~32攝氏度,而理想的工作環(huán)境是24~26攝氏度。如果溫度過高,就會導致電源、風扇、磁盤故障率提高。廠商在安裝前后都會進行確認、巡檢,如果發(fā)現(xiàn)機柜內(nèi)的溫度不合適,就要求把機房空調(diào)調(diào)到一個理想值。
APC公司技術(shù)支持工程師金東提供的數(shù)字,印證了李俊的說法。在目前的機房環(huán)境下, 2 千瓦以下機柜在氣流通暢的情況下自然散熱可以得到基本保證。不過,為提高空間使用率、降低成本,磁盤陣列柜的體積越來越小、密度越來越高,在目前單向?qū)α魃岱绞降拇疟P陣列柜,如果一個機架中裝設(shè)太多磁盤陣列柜,散熱氣流不夠,就會出現(xiàn)散熱問題。有廠商推薦在磁盤陣列柜采用高效率的三相散熱(熱傳導、熱輻射、熱對流)系統(tǒng),只需要小量的氣流,就可以放心地在機架中高密度地裝置磁盤陣列柜,這對大型企業(yè)、ISP、IDC來說都有參考價值。
在一般存儲技術(shù)人員眼里,存儲散熱似乎無關(guān)技術(shù),但它在很大程度上影響著存儲設(shè)備可靠性以及業(yè)務連續(xù)性。已經(jīng)出現(xiàn)的故障事件,提醒用戶合理地節(jié)約空間,尤其是數(shù)據(jù)中心要嚴格遵守IT需求的環(huán)境標準嚴格管理和維護,從而保證系統(tǒng)的穩(wěn)定運行。從網(wǎng)通給出的解釋來看,此次就是因為物理空間內(nèi)碼放過多設(shè)備,而導致的局部散熱問題。
服務器散熱關(guān)于“刀片”之爭
服務器是數(shù)據(jù)中心的“發(fā)熱”大戶,當然也就是最容易中暑的成員。新浪的聲明也讓人的眼光不由自主地盯上它。在數(shù)據(jù)中心里,最常見的就是機架式服務器,在機架服務器中,服務器被做成1U、2U高塞進機箱內(nèi),在狹小的空間里有大量的硬件高速運行,且服務器一般要求24小時不間斷工作,散發(fā)的熱量非常大。那么,怎樣才能有效降低服務器內(nèi)部溫度呢?
中國惠普工業(yè)標準服務器產(chǎn)品部聯(lián)盟經(jīng)理王曉琳介紹說,服務器的熱量主要來自CPU等系統(tǒng)內(nèi)硬件和電源兩部分?,F(xiàn)在單顆服務器CPU的功率通常都在100多瓦以上,這意味著一個機架內(nèi)就有幾十顆滾熱的“心”在跳動。另外,服務器都要配備從交流電轉(zhuǎn)為直流電的電源,尤其是機架服務器每臺服務器上都要配交流電源,甚至配置冗余電源。而交流電轉(zhuǎn)化為直流電的效率一般為60%~65%(惠普ProLiant服務器為70%~75%),此外的能耗顯然直接就變成熱量散出去了。
她給出的建議是,大數(shù)據(jù)中心應該考慮采用刀片服務器。有兩大好處:一個是節(jié)省功耗,刀片服務器比傳統(tǒng)機架服務器的功耗可以省30%。她以惠普自己的產(chǎn)品為例:8臺DL360 2路機架式服務器,每臺功率是416瓦;而8臺BL20P刀片服務器,每臺功率是312瓦。一臺服務器就省了100多瓦。一個42U機柜里至少可以擺放30臺,一個機柜就至少節(jié)省3000多瓦。另外,刀片服務器把電源集中起來了,大大降低了電源散熱。她還強調(diào)了惠普刀片服務器的幾大電源優(yōu)勢:一個是惠普刀片服務器把電源拿出機架外,做成一個電源機箱,里面插5~6電源模塊,可以給5個刀片服務器機箱(40/80個刀片服務器)供電;一個是惠普刀片服務器電源把交流電轉(zhuǎn)化為直流電的效率高達90%;一個是如果機房里有48伏直流供電,惠普可以把交流電源都省掉。
但是,刀片服務器密度更高,帶來的單位面積內(nèi)的散熱壓力更大。王曉琳也提到:如果要采用刀片服務器,一定要先解決功耗、散熱等問題。就實際應用來看,目前用戶對刀片服務器散熱的顧慮要大于信心。7月4日本報刊登了一篇《讓服務器降溫》的文章。文章中提到,關(guān)注減少數(shù)據(jù)中心停機時間的企業(yè)協(xié)會Uptime Institute執(zhí)行總監(jiān)Kenneth Brill評價說:“過去幾年里,數(shù)據(jù)中心的平均熱密度輸出不斷增加,今天這一數(shù)字為每平方英尺28瓦左右。但當你采用刀片服務器,而且數(shù)量比較龐大的話,也許每平方英尺的熱密度輸出將達到400瓦?!?他還引用一些刀片服務器用戶所報告的數(shù)字,每機架的熱量輸出最多達到14千瓦,這與2臺家用微波爐發(fā)出的熱量相同。咨詢與外包公司Capgemini基礎(chǔ)設(shè)施總經(jīng)理Cees de Kuijer也在接受采訪時稱:“刀片服務器帶來一些問題:其中之一是發(fā)熱,另一個問題是供電。我們目前在采購上基本上不考慮選擇刀片服務器?!?/FONT>
那么,該如何解決刀片服務器的散熱矛盾?Gartner去年底發(fā)表的研究報告中給出的建議是:企業(yè)用戶要謹慎考慮部署刀片服務器和密度不斷增加的機架式系統(tǒng)?!安唤?jīng)過仔細的規(guī)劃以及缺少數(shù)據(jù)中心設(shè)備人員與服務器采購人員之間的協(xié)調(diào),數(shù)據(jù)中心將不能增加電功率或冷卻能力來適應服務器部署的增加。我們認為,一直到2008年底,服務器對散熱和冷卻的需要將阻礙90%的企業(yè)數(shù)據(jù)中心取得最大理論服務器密度?!比绻麖倪@個角度出發(fā),我們就容易理解為何很多數(shù)據(jù)中心的服務器機架上方往往都是空著的了。
事實上,服務器的散熱壓力已經(jīng)帶來了新的市場機遇。比如Liebert公司推出了精確冷卻系統(tǒng),APC推出了基于機柜的制冷解決方案。有了它們,數(shù)據(jù)中心等用戶可以盡情享受機架服務器、刀片服務器帶來的管理方便、節(jié)省空間、降低整體功耗,而不用再擔心功率密度越來越高的機架內(nèi)部安裝了熱彈,隨時威脅著系統(tǒng)的整體可靠性、可用性。
數(shù)據(jù)中心的“空調(diào)病”
從新浪兩次公告的內(nèi)容來看,都提到了機房溫度過高的問題。在新浪給記者的回復郵件中,也提到:新浪在己所能及的范圍內(nèi),進行了各種努力,包括對設(shè)備進行人工降溫和物理降溫各種手段。但是整體環(huán)境溫度不是新浪能夠控制的,還需要網(wǎng)通采取有效的手段,從根本上解決這個問題。
記者曾經(jīng)參觀過網(wǎng)通在北京亦莊的數(shù)據(jù)中心,其方方面面的嚴格管理給記者留下了深刻印象,本報在做業(yè)務連續(xù)性專題時,也對此進行了詳細的報道。當然,任何一個數(shù)據(jù)中心都會出現(xiàn)這樣或者那樣的問題,像網(wǎng)通這樣國內(nèi)頂級數(shù)據(jù)中心也不能例外,但在溫度這個小節(jié)上失控還是令人不解。
一位同樣做數(shù)據(jù)中心的人士分析說,可能是相對于該數(shù)據(jù)中心現(xiàn)有的電力和空調(diào)條件下,覆載的設(shè)備量太大了,這樣一旦外界出現(xiàn)“高溫”等狀況,就會讓散熱問題浮上水面。新浪的答復也印證了這一點:受國內(nèi)整體電力控制等各方面問題的影響,機房空調(diào)的制冷性能有待提高,目前,新浪正在積極配合網(wǎng)通改善和解決機房空調(diào)的制冷性。APC公司的技術(shù)工程師金東還介紹說,由于現(xiàn)在很多企業(yè)數(shù)據(jù)中心都是建立在寫字樓中,本身就要受到客觀條件的制約,比如無法安裝室外機,無法提供24小時不間斷的冷卻水,只能使用中央空調(diào)等,這樣就更需要提前規(guī)劃出科學合理的散熱和通風方案。
如果我們撇開空調(diào)問題不談的話,關(guān)鍵就在于:在現(xiàn)有空調(diào)條件下,如何更有效地降低系統(tǒng)自身的溫度。對此,APC提出的解決方法是:以機架為單元,控制IT微環(huán)境的溫度。通過合理設(shè)置冷、熱通道、引導冷風均勻地送到每個IT設(shè)備的進風處,并將熱風有效送到回風處,保證將機架內(nèi)的溫度控制到適宜服務器工作的溫度。APC公司的技術(shù)工程師金東介紹說,傳統(tǒng)熱量控制方法是降低整個機房溫度從而期望達到“冷卻”服務器的作用,但事實證明這種方法只能是對整個房間的溫度有一個控制,并不能保證機架中服務器的溫度。在采用APC的解決方案后,機架的散熱能力從過去2千瓦提升到8千瓦。
此外,APC還提出了“熱通道”(Hot Aisle)和“冷通道”(Cold Aisle)的概念,改變了以往數(shù)據(jù)中心機柜面朝同一方向擺放的做法,采用“面對面、背靠背”的機柜擺放方式,這樣就符合了服務器等IT設(shè)備從正面進風、從后面排風的設(shè)計,從而有效地將冷、熱空氣分區(qū),大大地提高了制冷效率。
同樣,Liebert公司的精確冷卻系統(tǒng)也值得注意。美國Blacksburg市維吉尼亞綜合州立大學最近部署了大約1100臺基于Apple G5的系統(tǒng)組成的超級計算集群,系統(tǒng)花費了大約200萬美元,但卻使數(shù)據(jù)中心能夠做到在3000平方英尺而不是原來10000平方英尺的空間布置系統(tǒng),并保證有效冷卻系統(tǒng)和未來幾年內(nèi)的需求。這種冷卻系統(tǒng)的特點之一是能夠從服務器機架吸出熱空氣,然后再與空調(diào)設(shè)備進行熱量調(diào)節(jié)。
金東到過不少數(shù)據(jù)中心,還發(fā)現(xiàn)一些影響散熱效果的不良細節(jié),比如:高架地板有效高度不足30厘米;過度使用打孔地板,使寶貴的風力分散;線纜沒有有效歸置,阻礙氣流的流動等。他的建議是:在規(guī)劃新部署前,對冷卻能力和電源可用性進行現(xiàn)實的分析;確保機架背部相對,使冷熱氣流分開;確保機架后面或下面的線纜孔不阻塞氣流;不要過度使用打孔地板,把它們集中用在冷卻通道中;采取一些精確降溫技術(shù)等。
記者寫到這兒,由衷感嘆:細節(jié)決定成敗,點滴都是學問。而且,用戶在機房規(guī)劃之初,就要充分考慮和規(guī)劃配電、布線、散熱等細節(jié)。一旦在初期沒有足夠重視,總有一天它可能就會影響到整體可用性,并成為棘手難題。
數(shù)據(jù)中心機房里偶爾可以看到空調(diào)和電扇合力降溫。
事件回放:
新浪任你郵6月23日發(fā)出預警:“由于近日北京地區(qū)持續(xù)高溫,網(wǎng)通機房的溫度目前已經(jīng)到達41度,我們正在配合機房進行降溫行動。如果機房溫度持續(xù)升高,為了保證數(shù)據(jù)的安全,我們將在溫度到達43 度的時候暫時停止用戶的服務?!?/FONT>
新浪任你郵7月5日公告:由于網(wǎng)通機房溫度過高,為保護用戶的數(shù)據(jù)安全,今晨6:40至7:10我們被迫將部分任你郵服務器暫停30分鐘,進行降溫維護,造成部分用戶不能登陸和收發(fā)郵件,此問題已于今晨7:10解決,全面恢復服務。目前我們正在與網(wǎng)通方面協(xié)商采取更多的降溫辦法,保證服務器安全穩(wěn)定的運行。
北京通信公司市場部回復:7月5日,新浪“任你郵”服務的確中斷半小時。但并非機房溫度達到了41或者43攝氏度,而是高密度磁盤陣列組的出風口達到了這一數(shù)值。主要原因是新浪在機架上碼放了過多的磁盤。
來源:CCW
- 1微軟副總裁McDowell:IT投資應重視變革的力量
- 2IT服務戰(zhàn)術(shù)管理:建立服務目錄
- 3IT如何支撐中小企業(yè)業(yè)務創(chuàng)新
- 4如何控制軟件項目外包中的風險
- 5用CMS確保你的投資收益
- 6長春泛普OA辦公軟件的項目周期:
- 7對軟件工程項目的一些思考
- 8小資料:Excel在財務預測中的應用
- 9王志東:協(xié)同軟件的緣起和勃興
- 10引進核心系統(tǒng)六步實施法
- 11企業(yè)MPLS啟動創(chuàng)造價值
- 12新興企業(yè)看好開源數(shù)據(jù)庫
- 13網(wǎng)絡(luò)營銷為傳統(tǒng)零售企業(yè)增效
- 14管理協(xié)同應用揭密之二: 過程管理對企業(yè)的重要
- 15小資料:CMS的生命周期和工具箱
- 16泛普OA軟件讓企業(yè)都可以找到最適合自己的OA
- 17管理軟件的道與術(shù)
- 18管理軟件廠商生存力的承諾
- 19外包是另一種精易管理
- 20知識地圖在協(xié)同管理平臺上應用
- 21企業(yè)有必要請第三方提供業(yè)務流程系統(tǒng)嗎?
- 22長春OA系統(tǒng)多少錢?長春OA系統(tǒng)最好的公司是哪家?
- 23IT投資往往會削弱企業(yè)的盈利能力
- 24全面的、可伸縮的SOA vs.簡單可行的SOA建設(shè)模式
- 25實施高效的IT治理
- 26在SOA時代如何發(fā)展你的SOA技能
- 27ERP技術(shù)的發(fā)展現(xiàn)狀與展望
- 28大型電信公司實施知識驅(qū)動型客戶關(guān)系管理案例研究
- 29上海通用模塊級JIT的應用
- 30模式重組的目標與方法
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓