衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云11.12故障原因及改進措施

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-11-17 11:34 ? 次閱讀

針對阿里云 11.12 的重大服務(wù)故障, 該公司發(fā)給客戶的一份「官方故障報告」在網(wǎng)上被廣泛流傳。

影響范圍

1、OSS、OTS、SLS、MNS 等產(chǎn)品的部分服務(wù)受到影響,大部分產(chǎn)品如 ECS、RDS、網(wǎng)絡(luò)等運行不受影響。

2、云產(chǎn)品控制臺、管控 API 等功能受到影響。

時間

2023 年 11 月 12 日 17:39~19.20,故障時間為 1 小時 41 分。

問題概況

2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問異常,工程師排查故障原因與訪問密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開始陸續(xù)恢復,19:20 絕大部分 Region 產(chǎn)品控制臺和管控 API 恢復。

處理過程

17:39:阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常。

17:50:工程師確認故障是 AK 服務(wù)異常導致,影響云產(chǎn)品控制臺、管控 API 調(diào)用異常,以及依賴 AK 服務(wù)的云產(chǎn)品服務(wù)運行異常。

18:01:工程師定位到根因。

18:07:開始執(zhí)行恢復措施,包括修訂白名單版本、重啟 AK 服務(wù)。

18:35:杭州等 Region 開始恢復正常。

19:20:絕大部分 Region 的云產(chǎn)品控制臺和管控 API 調(diào)用恢復正常。

原因

訪問密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產(chǎn)品控制臺及管控 API 服務(wù)出現(xiàn)異常,同時部分依賴 AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運行異常。

改進措施

1、增加 AK 服務(wù)白名單生成結(jié)果的校驗及告警攔截能力。

2、增加 AK 服務(wù)白名單更新的灰度驗證邏輯,提前發(fā)現(xiàn)異常。

3、增加 AK 服務(wù)白名單的快速恢復能力。

4、加強云產(chǎn)品側(cè)的聯(lián)動恢復能力。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    1499

    瀏覽量

    61989
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    953

    瀏覽量

    43030
  • RDS
    RDS
    +關(guān)注

    關(guān)注

    0

    文章

    101

    瀏覽量

    16850

原文標題:阿里云 11.12 故障原因曝光

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    充電電阻故障改進措施

    本文簡述了深圳地鐵1號線列車牽引逆變器充電電路原理,分析充電電阻故障原因,指出充電電阻設(shè)計上的問題,并提出改進措施
    發(fā)表于 12-23 10:44 ?1931次閱讀
    充電電阻<b class='flag-5'>故障</b><b class='flag-5'>改進</b><b class='flag-5'>措施</b>

    阿里方式大匯總

    摘要:前不久,阿里發(fā)布了一款遷神器,即 阿里工具,使用該遷
    發(fā)表于 12-25 14:33

    無邊界,阿里混合數(shù)據(jù)同步發(fā)布

    ,當業(yè)務(wù)中心出現(xiàn)故障時,快速將業(yè)務(wù)切換到容災中心,秒級恢復業(yè)務(wù)。3、業(yè)務(wù)彈性擴展因為的靈活性、可擴展性及低成本,業(yè)務(wù)在大促等突發(fā)流量時,可以在阿里彈性擴容并支持部分業(yè)務(wù)流量。此時,
    發(fā)表于 04-02 15:35

    阿里免費使用及手冊

    自己使用阿里服務(wù)器搭建的一個個人知識分享博客網(wǎng)站,基于網(wǎng)站搭建過程,分享一些經(jīng)驗。先對阿里服務(wù)器大體介紹下,后續(xù)有時間再分享技術(shù)方面的東西。希望對大家有用。這是目錄,具體手冊在附件
    發(fā)表于 05-10 21:17

    上拍客梨視頻 基于阿里的技術(shù)實踐分享

    摘要: 梨視頻大部分的業(yè)務(wù)都選擇了阿里,其中一個主要原因阿里提供基于釘釘群構(gòu)建的24貼身技術(shù)支持,劉雋表示,這種服務(wù)模式可以更充分、高
    發(fā)表于 06-28 16:13

    阿里 APM 解決方案地圖

    服務(wù)通過在服務(wù)器上安裝插件,為用戶提供服務(wù)器的系統(tǒng)監(jiān)控服務(wù)。用戶可以使用主機監(jiān)控服務(wù)進行服務(wù)器資源使用情況的查詢和排查故障時的監(jiān)控數(shù)據(jù)查詢。服務(wù)器無論是阿里服務(wù)器 ECS,還是其他
    發(fā)表于 07-05 16:54

    阿里容器服務(wù)如何使用

    阿里容器服務(wù)使用教程
    發(fā)表于 04-28 14:46

    基于MicroChip阿里IOT連接開發(fā)方案

    MicroChip的ATmega4808阿里IOT連接開發(fā)套件由功能強大的AVR 8-bit MCU ATmega4808、加密認證ICATECC608A及經(jīng)過認證的ATWINC1510
    發(fā)表于 11-13 14:27

    阿里平臺操作

    一、阿里平臺操作??首先我們要知道BC26連接阿里是連接阿里上的某個設(shè)備,因此首先需要在
    發(fā)表于 08-03 06:43

    Fibocom 公有阿里 技術(shù)資料

    Fibocom 公有阿里 技術(shù)資料內(nèi)容如下:1、阿里連接教程2、阿里
    發(fā)表于 01-05 15:03

    2m環(huán)形爐爐底故障原因分析及改進措施

    對衡陽鋼管(集團)有限公司12m環(huán)形爐爐底磨爐墻的原因進行了分析,并采取了相應(yīng)的改進措施,取得了較好的實用效果。
    發(fā)表于 01-16 15:39 ?11次下載

    淺談波導充氣機故障原因及應(yīng)對措施

    以及可以快速有效的采取措施方法,保證充氣機可以正常安全的恢復工作。以及下次出現(xiàn)問題的時候就知道有哪些原因和應(yīng)對措施,避免手忙腳亂。那下面就給大家普及一下一些簡單的故障檢測方法以及應(yīng)對
    發(fā)表于 03-09 14:45 ?1949次閱讀

    阿里嚴重故障,全線產(chǎn)品受影響(已恢復)

    故障原因與某個底層服務(wù)組件有關(guān),工程師正在緊急處理中 。 官方通告顯示,阿里全線產(chǎn)品受影響。 18:20 更新,官方回應(yīng): 2023-11-
    的頭像 發(fā)表于 11-13 00:26 ?907次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>嚴重<b class='flag-5'>故障</b>,全線產(chǎn)品受影響(已恢復)

    阿里全球宕機:從阿里故障看企業(yè) IT 挑戰(zhàn)

    2023 年 11 月 12 日晚,阿里遭遇了一場全球性故障,導致其全產(chǎn)品線全部崩潰,包括阿里盤、釘釘、淘寶、閑魚等服務(wù)。這次
    的頭像 發(fā)表于 11-13 00:28 ?417次閱讀

    阿里崩了:企業(yè)未來該怎么選擇廠商?

    出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有到底還安全嗎?是否還能繼續(xù)上?未來應(yīng)該采取哪些措施來保障穩(wěn)定可靠? 不要動搖“上
    的頭像 發(fā)表于 11-23 10:18 ?375次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企業(yè)未來該怎么選擇<b class='flag-5'>云</b>廠商?
    即墨市| 博罗县| 百家乐博之道娱乐城| 百家乐官网稳赚的方法| 国际娱百家乐的玩法技巧和规则 | 娱乐城注册体验金| 什么百家乐九宫三路| 百家乐官网园蒙特卡罗| 百家乐官网娱乐城新澳博| 大发888充钱| 百家乐科学| 赌百家乐的高手| 澳门玩百家乐官网赢1000万| 澳门博彩 | 威尼斯人娱乐场 赌场网址| 百家乐在线手机玩| 王子百家乐官网的玩法技巧和规则 | 百家乐平台信誉排名| 大佬百家乐官网娱乐城| 足球百家乐官网投注计算| 沙龙国际网址| 97玩棋牌游戏中心| 百家乐QQ群娱乐| 百家乐娱乐场真人娱乐场| 百家乐视频游戏账号| 罗盘24山作用| 百家乐官网都是什么人玩的| 致胜百家乐官网软件| 赌博百家乐官网玩法| 嘉定区| 汶上县| 百家乐官网包赢技巧| 遂溪县| 百家乐官网庄闲规则| 百家乐官网技术方式| 昂仁县| 纳雍县| 百家乐官网对打反水| 百家乐官网路纸计算| 泰来县| 百家乐官网有什么打法|