電子發燒友網報道(文/吳子鵬)11月12日下午,就在雙十一大促的后一天,阿里云疑似發生大規模、大范圍故障,導致包括淘寶、閑魚、阿里云盤、釘釘在內的阿里系產品全線崩潰。一時間,“阿里云盤崩了”“淘寶又崩了”“釘釘崩了”和“閑魚崩了”等多條相關詞條進入微博熱搜榜。
12日晚8點,阿里方面發布官方消息稱,19:20左右,經工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等APP已全面恢復。
根據群公告和官方信息,此次阿里云系統宕機的時間線為:
·17時44分起,阿里云產品控制臺訪問及API調用出現使用異常,阿里云工程師開始緊急介入排查;
·17時50分,阿里云已確認故障原因與某個底層服務組件有關,工程師緊急處理中;
·18時54分,經過阿里工程師處理,杭州、北京等地域控制臺已恢復,其他地域控制臺服務逐步恢復中;
·19時20分,阿里工程師通過分批重啟組件服務,絕大部分地域控制臺服務已恢復訪問;
·19時43分,異常管控服務組件均已完成重啟,除個別云產品(如消息隊列MQ、消息服務MNS)仍需處理,其余云產品控制臺及API服務已恢復;
·20時12分,北京、杭州等地域消息隊列MQ已完成重啟,其余地域逐步恢復中;
·21時11分,受影響云產品均已恢復,因故障影響部分云產品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。
此次宕機波及甚廣
上面的詞條可能有細心的網友已經發現,“淘寶又崩了”這個詞條多了一個又字。近兩年,幾乎每年都有“淘寶崩了”進入微博熱搜榜。
2021年10月20日晚間,由于雙十一改成了“八點檔”而不再是零點開售,所以很多人開始在此時蹲守,準備“褥羊毛”,或者趁著便宜買自己需要的東西。然而,預售剛開始就有網友反饋給客服發消息發不出去。原因就是服務器系統受不了如此巨大的訪問量,崩潰了。隨后,淘寶官方賬號在當天20時43分的時候回復稱,原來不熬夜的你們這么猛嗎?
2022年7月12日晚間,“淘寶崩了”再次上熱搜,據多名網友反映,他們在購買商品時突然遇到了卡頓的情況。針對這一次的情況,淘寶官方賬號表示:平臺正常。
當然,阿里云也不是第一次發生規模性故障了。2022年12月,阿里云香港地域發生長時間持續性故障,服務中斷一度超過12小時,這是阿里云運營十多年來持續時間最長的一次大規模故障。2022年12月25日,阿里云在官方微信發布《關于阿里云香港Region可用區C服務中斷事件的說明 》。其中提到,12月18日,由于香港Region可用區C機房冷卻系統失效,包間溫度逐漸升高,導致一機房包間溫度達到臨界值觸發消防系統噴淋,電源柜和多列機柜進水,部分機器硬件損壞。整個處置過程超過10小時。
雖然這一次阿里云的故障處置沒有香港那么久,不過從上面的時間線也能夠看出,基本上也是花費了一個半小時才做到絕大部分地域的正常訪問。并且,此次系統宕機的影響范圍遠超上一次阿里云香港地域故障。
阿里云公告顯示,國內包括華北2 (北京)、華北6 (烏蘭察布)、華南1(深圳)、中國香港、華東1(杭州)等節點受到影響;國際市場包括英國(倫敦)、韓國(首爾)、日本(東京)、阿聯酋(迪拜)、美國 (弗吉尼亞)、菲律賓 (馬尼拉)、新加坡等節點受到影響。
阿里云公告顯示,受影響的主要產品包括OSS、OTS、SLS、MNS等產品,大部分產品如ECS、RDS、網絡等運營正常。這些受影響的產品包括企業級分布式應用服務、云原生大數據計算服務MaxCompute、云存儲網關、塊存儲、混合云備份服務、云原生內存數據庫Tair、運維安全中心(堡壘機)、數據庫備份、物聯網平臺、超級計算集群、彈性裸金屬服務器、云服務器ECS、云呼叫中心、交通云控平臺、客服工作臺、視覺智能開放平臺、運維事件中心和新零售智能助理等。
2022年12月,當阿里云香港地域節點發生故障時,有消息人士稱,阿里云將此次故障定義為“p0級事故”。隨后不久,時任阿里巴巴集團董事會主席兼CEO張勇發出全員郵件稱,自己將兼任阿里云智能總裁,取代原總裁張建鋒。
如今,最新的故障雖然時間沒有那么長,但是波及面實在是太大了,不知道阿里云是否會繼續自己的鐵血管理風格。
機房運轉的四大挑戰
我們都知道,云計算是互聯網的核心支撐技術之一。根據Gartner相關統計數據,2022年以IaaS、PaaS、SaaS 為代表的全球云計算市場規模為 4910億美元,同比增長19%,雖然增速有所降低,不過市場需求依然強勁。這表明,雖然有經濟下行和通脹的壓力存在,云計算依然是未來的重要發展趨勢和實現新科技的重要手段,預計全球云計算市場規模會在2026年突破萬億美元級別。
在市場份額方面,IDC的數據顯示,在公有云IaaS市場,2022年全球前四名云廠商依次為亞馬遜、微軟、谷歌和阿里云,其中阿里云的市場份額為5.2%。當然,如果僅統計中國企業或MNC使用國內公有云資源的業務,阿里云是當之無愧的市場第一,2022年上半年的占比高達37.2%。
這些大的云計算企業基本每年都會規模性故障,比如2022年7月,因遭遇極端高溫天氣,甲骨文和谷歌在倫敦的數據中心也曾因冷卻系統出現問題而發生運行故障,導致部分網站癱瘓。
綜合而言,作為云計算的硬件底層,機房主要會遇到四大方面的挑戰,分別來自環境、電力、硬件和軟件。
機房會遇到的環境挑戰非常多,首當其沖就是高溫,上述甲骨文和谷歌的機房故障就是因為高溫,一旦溫度負荷超過降溫系統的極限,宕機是不可避免的。除了高溫之外,濕度過高、震動、灰塵和自然災害等,都會對機房的運行造成很大的干擾。
機房的電力問題有時來自外部,有時則是內部。外部原因主要是供電系統突發故障,非預期性斷電是最常見的故障;內部原因則主要是初期規劃問題,有時候可能是對于服務器更新換代帶來的用電增長估計不足,有時候可能是成本壓力沒有備用設備。
第三個挑戰是硬件本身的問題,機房的主要硬件設備包括服務器、交換機、路由器、硬件網關、硬件防火墻、交/直流電源、冷卻系統和監控系統。這是一套配合非常緊密的硬件系統,某一類設備故障和設備老化都有可能造成機架大面積癱瘓。
最后一個挑戰則來自軟件。在服務領域,軟件負責整個系統的監管、調度,同時軟件還能夠提升服務器集群的性能、安全性和可擴展性,當然服務器上的軟件本身也是一種服務。軟件端造成沖擊最常見的兩種方式是數據訪問量短時間劇增,以及軟件升級和更新。
此次阿里云的故障來自產品控制臺訪問及API調用,實際上就是軟件系統出了問題。對于這類問題,系統重啟是最直接有效的方式,不過過程中需要對數據進行留存和保護。
小結
大數據時代一個重要的特征是越來越多的數據及相關服務匯集在科技巨頭的設備上,一旦發生故障就會產生很大的波及范圍,也就會引起廣泛的關注。雖然大家都知道故障來自哪些方面,不過由于設備更新換代和系統升級的節奏太快,很多問題是很難具體化的,在爆發之前它們都是未知的。
-
阿里云
+關注
關注
3文章
974瀏覽量
43228
發布評論請先 登錄
相關推薦
評論