電視劇《寧安如夢》正在熱播中,該劇講述了主人公在經歷人生的重大風險后,重獲新生再活一遍,以確定性的方式抵御和化解原有的重大風險。然而,在現實的生活中,卻沒有這樣的重來機會。
2023 年 11 月 13 日,Gartner 發布了 2024 全球最終用戶公有云支出預測,預計 2024 年將增長 20.4%達 6788 億美元。“云已經必不可少”,Gartner 分析師認為。但同時,公有云的安全高可用,卻成為企業數字化轉型的高風險事件。
2023 年,一方面是大模型和生成式 AI 加速了上云進程,另一方面是公有云宕機事件頻出而凸顯基礎質量問題。2023 年是公有云第 17 個年頭,公有云也已經渡過了市場炒作高峰期而進入了主流,Gartner 曾預計到 2025 年全球 50%的企業應用將遷移到主流公有云上,但也將帶來“云集中”風險——一旦單個云服務商出現故障,將導致業務發生嚴重中斷。
從 2023 年來看,單個云服務商出現重大故障事件,已經影響了市場對公有云可靠性和安全性的信心。例如,2023 年 11 月 8 日,澳大利亞電信運營商 Optus 的一次故障事件導致澳大利亞 40%的人口超過 12 個小時無法正常上網,11 月 12 日阿里云發生嚴重故障,導致阿里巴巴大量產品無法連接,除了阿里系幾乎全線產品出現故障外,整數云、理工小蜜蜂、餓樂送、cooleasy、IOTTEC、納思云、語雀等平臺均受到影響。
隨著越來越多的企業上云,從上 IaaS 到上 PaaS 和 SaaS,公有云服務商面臨著硬件、軟件和服務的多重安全與高可用挑戰。
不過,總體來說,公有云出現大面積問題的概率依然很低,公有云仍然是數字化轉型的基礎設施。而企業上云,特別是大規模核心業務上云的企業,要做好多云戰略,選擇多個云計算服務商,合理分配資源,做好冗余災備。那么,如何選一家穩定可靠的云服務商?
搭建穩定可靠的運維體系成為云廠商“必修課”
當前,公有云服務商的規模不斷擴大,企業上云進程不斷深化,從“業務上云”邁向“深度用云”已經成為行業共識。根據 Gartner 的 2022~2024 全球最終用戶公有云支出數據及預測,PaaS、SaaS、BPaaS 和 DaaS 等支出占公有云支出的 75%,其中 PaaS、BPaaS 和 DaaS 支出占了近 40%。也就是說,越來越多的企業用戶直接在公有云上開發和部署應用。
對于公有云服務商來說,IT 運維正在面臨著顛覆性的變化,正從保障設備穩定的防守型運維轉向支撐業務敏捷的進攻型運維,從關注自身平臺轉向關注客戶應用,這個轉型的過程對公有云服務商提出了艱巨挑戰,特別是當越來越多的政企客戶將自身的業務直接連入公有云平臺時,如何從硬件、軟件和服務等維度,既保證客戶業務的快速迭代又保證業務的安全穩定高可用,這是公有云服務商生存和發展的根本。
以華為云為例,過去幾年的高速發展,業務量上千倍的增長,經歷了從“慢”向“快”的轉變,運維如何經受考驗?這個過程中也經歷了深刻變革。華為云基于 ITIL 標準,打造標準化運維管理體系,引入 SRE 文化,構建 SRE 確定性運維體系,同時實施高可用架構與方案,引入動態風險治理,以及不斷探索 AIOps 智能運維。
華為云從 2017 年開始實踐 SRE,目前已經成為國內最大的 SRE 團隊之一。本質上,SRE 是用軟件工程的思維和方法解決復雜的運維問題,從被動響應為主,演進為構建主動預防式運維的軟件工程能力為主。在實踐積累的基礎上,華為云 SRE 提出了“確定性運維”理念,即通過一套完備的工程方法,以華為云 SRE 的高可用架構設計、動態風險治理和高度智能的運維框架,讓現網擁有確定性的質量結果,支撐高質量運維實現。
高可用架構是華為云 SRE 的一大亮點,高可用架構讓華為云服務的軟件在前端就具備高可靠、高可用的能力,具有確定性的失效率、確定性的恢復時長結束、確定性的爆炸半徑。從 2017 年起,華為云 SRE 團隊積極介入到云服務的開發前端,將后端的運維經驗和運維訴求帶到前端的開發設計過程中,使得現網在出現非預期的故障時,通過提前預埋的可恢復性和爆炸半徑控制能力,迅速隔離影響,實現即時恢復。
此外,華為云高度重視數據中心災備性能,提供同城 AZ(AvailabilityZone)內、跨 AZ、異地跨 Region 的兩地三中心容災方案和 1000 公里以上的城市級容災能力,支持流式容災,保障業務平穩運行,避免單點、多點故障造成客戶業務停頓。
京東云則通過混沌工程理論,結合多年穩定性治理經驗入手,建成京東云云泰穩定性主動管理平臺。實現主動發現和治理業務連續性風險,提供一站式可見、可查、可管、可控的治理方案,力求做到先于用戶發現問題、先于感知修復問題,為云平臺穩定、云上業務穩定提供商業服務的可用性從 99.975%提升為 99.995%。
可用性的扎實內功,才是云客戶的“定心丸”
趣丸科技是一家集興趣社交、電子競技、人工智能于一體的創新型科技企業。華為云承載趣丸 70%以上的 IT 業務運行,包含計算、存儲和網絡等基礎底座,業務運行還使用了華為云大量的數據庫、中間件等高級服務,華為云為趣丸核心業務的高可靠、高穩定運行提供 7*24 保駕護航。
更進一步,華為云基于確定性運維實踐,幫助趣丸在大模型時代下,應對業務上云后的安全可信、穩定可靠、資源高效、業務敏捷等挑戰,進一步探索 LLMOps 等,加速企業高質量增長,讓運維成為智能世界變革的加速器,推動趣丸科技的用戶粘性不斷增強。
服務所有“華為”品牌的各類終端的華為終端云更為典型。作為華為云的最大內部客戶之一,華為終端云從 2017 年開始全面上云。華為終端云業務承載了全球十億級用戶,業務場景越來越多,運維場景也越來越復雜。通過建設 SRE 能力,華為終端云全球三個運維中心有效協同,保障連續 5 年業務可用性 SLA99.99%,達成無重大連續性和安全事故的挑戰目標。
在汽車行業,數字化轉型是一個復雜過程,需要解決業務系統龐大、業務系統應用多、分布廣、跨系統、跨區域、跨應用的調用頻繁等問題,業務所用的系統由成百上千個應用服務組成,服務之間的關系錯綜復雜。華為云通過應用運維管理服務(AOM)、云日志服務(LTS)、應用性能管理服務(APM)等服務,實現全鏈路管理,提高運維效率,幫助汽車業務應用系統穩定運行,提升用戶體驗。
“讓穩定可靠成為華為云核心競爭力”,這條橫幅掛在松山湖華為云運維中心最醒目的位置,華為云提出的“一切皆服務”之“根”是質量和平臺的穩定性。華為公有云業務總裁高江海曾表示,唯有時刻保持敬畏之心,才能真正服務好客戶、有質量地“活下去”。
這或許也是所有云廠商未來最核心的競爭力之一。
審核編輯 黃宇
-
云服務
+關注
關注
0文章
835瀏覽量
39051 -
華為云
+關注
關注
3文章
2682瀏覽量
17587
發布評論請先 登錄
相關推薦
評論