今天的數(shù)據(jù)中心承載著許多用戶和各種各樣的應(yīng)用程序。它們甚至已經(jīng)成為研究、技術(shù)和全球產(chǎn)業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵要素。隨著科學(xué)計(jì)算復(fù)雜性的增加,數(shù)據(jù)中心的運(yùn)營(yíng)成本也在不斷上升。除了安全威脅造成的運(yùn)營(yíng)中斷之外,保持?jǐn)?shù)據(jù)中心完好無(wú)損并平穩(wěn)運(yùn)行也至關(guān)重要。
如今的數(shù)據(jù)中心承載著許多用戶和各種應(yīng)用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵因素。隨著科學(xué)計(jì)算復(fù)雜性的增加,數(shù)據(jù)中心的運(yùn)營(yíng)成本也在不斷上升。除了要防止運(yùn)營(yíng)安全隱患的干擾外,保持?jǐn)?shù)據(jù)中心的完整和平滑運(yùn)行也至關(guān)重要。
更重要的是,惡意用戶可能會(huì)利用數(shù)據(jù)中心的訪問(wèn)權(quán)限,運(yùn)行被禁止的應(yīng)用,濫用計(jì)算資源,進(jìn)而導(dǎo)致意外停機(jī)以及更高的運(yùn)營(yíng)成本。對(duì)于今天的IT經(jīng)理和支持開(kāi)發(fā)者而言,能夠快速識(shí)別問(wèn)題并提高效率的數(shù)據(jù)中心管理工具比以往任何時(shí)候都更加重要。
NVIDIA以驚人圖形處理能力和出色GPU計(jì)算性能而聞名,廣泛應(yīng)用于各個(gè)研究領(lǐng)域。同時(shí),多年來(lái)NVIDIA也一直是安全和可擴(kuò)展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,提供了各種靈活的庫(kù)和工具,來(lái)最大程度地優(yōu)化業(yè)界一流的基礎(chǔ)設(shè)施。
NVIDIA認(rèn)識(shí)到,要為當(dāng)今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務(wù)器平臺(tái)、GPU以及部署在整個(gè)數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
此外,惡意用戶可能會(huì)利用數(shù)據(jù)中心訪問(wèn)權(quán)限,通過(guò)運(yùn)行被禁止的應(yīng)用程序來(lái)濫用計(jì)算資源,從而導(dǎo)致意外的停機(jī)時(shí)間和更高的操作成本。 數(shù)據(jù)中心管理工具比以往任何時(shí)候都更能快速發(fā)現(xiàn)問(wèn)題,同時(shí)提高效率,是當(dāng)今 IT 經(jīng)理和支持它們的開(kāi)發(fā)人員的首要任務(wù)。
NVIDIA 最著名的可能是驚人的圖形功能和無(wú)與倫比的 GPU 計(jì)算性能,幾乎應(yīng)用于所有研究領(lǐng)域。然而,多年來(lái),它還是安全和可擴(kuò)展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,包括靈活的庫(kù)和工具,以最大限度地利用世界一流的基礎(chǔ)設(shè)施。
NVIDIA 認(rèn)識(shí)到,為 MIG 這一當(dāng)今研究和業(yè)務(wù)中最關(guān)鍵的組成部分提供全套解決方案,不僅包括世界一流的服務(wù)器平臺(tái),而部署在整個(gè)數(shù)據(jù)中心的最廣泛的軟件組合。 NVIDIA 也知道,安全性和可管理性是構(gòu)建數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
NVIDIA UFM 網(wǎng)絡(luò) AI 徹底改變了 InfiniBand 數(shù)據(jù)中心
NVIDIA Unified Fabric Manager ( UFM )網(wǎng)絡(luò) AI 平臺(tái)提供增強(qiáng)的實(shí)時(shí)網(wǎng)絡(luò)遙測(cè),結(jié)合 AI 提供的智能和高級(jí)分析。它使 It 經(jīng)理能夠發(fā)現(xiàn)操作異常,甚至預(yù)測(cè)網(wǎng)絡(luò)故障。這提高了安全性和數(shù)據(jù)中心正常運(yùn)行時(shí)間,同時(shí)降低了總體運(yùn)營(yíng)開(kāi)支。
UFM 網(wǎng)絡(luò)人工智能的獨(dú)特優(yōu)勢(shì)在于它能夠捕獲豐富的遙測(cè)信息,并利用人工智能技術(shù)來(lái)識(shí)別事件之間隱藏的相關(guān)性。這使它能夠檢測(cè)異常的系統(tǒng)和應(yīng)用程序行為,甚至在性能下降導(dǎo)致組件或系統(tǒng)故障之前識(shí)別它們。 UFM 網(wǎng)絡(luò) AI 甚至可以實(shí)時(shí)采取糾正措施。該平臺(tái)學(xué)習(xí)數(shù)據(jù)中心的典型操作模式,并基于網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)檢測(cè)異常使用,包括流量模式、溫度等。
UFM 網(wǎng)絡(luò)人工智能基礎(chǔ)
UFM 網(wǎng)絡(luò) AI 包含三個(gè)不同的層,如圖 1 所示。
圖 1 。 UFM 網(wǎng)絡(luò) AI 層
輸入遙測(cè): 通過(guò)各種方式收集信息并從網(wǎng)絡(luò)中學(xué)習(xí):
網(wǎng)絡(luò)中所有元件的遙測(cè)
網(wǎng)絡(luò)拓?fù)洌ㄗ鈶艋驊?yīng)用程序的連接和資源分配)
網(wǎng)絡(luò)設(shè)備的特點(diǎn)和能力
處理模型: 包含幾個(gè)模型,例如用于數(shù)據(jù)準(zhǔn)備的提取、轉(zhuǎn)換和加載( ETL )處理引擎。它還包含聚合、數(shù)據(jù)存儲(chǔ)和用于比較的分析模型。 UFM 網(wǎng)絡(luò)人工智能使用機(jī)器學(xué)習(xí)( ML )技術(shù)和人工智能模型進(jìn)行異常檢測(cè)和預(yù)測(cè),以學(xué)習(xí)數(shù)據(jù)中心網(wǎng)絡(luò)組件(電纜、交換機(jī)、端口、 InfiniBand 適配器)的生命周期模式。
輸出儀表板: 一個(gè)可視化層,它為網(wǎng)絡(luò)管理員和云編排器提供一個(gè)中央儀表板,以查看有關(guān)提高網(wǎng)絡(luò)利用率和效率以及解決網(wǎng)絡(luò)健康問(wèn)題的警報(bào)和建議。儀表板提供了兩個(gè)主要類別: 可疑行為 和 鏈接分析 ,每個(gè)類別都包括警報(bào)和預(yù)測(cè)部分(圖 2 )。
圖 2 。 UFM 網(wǎng)絡(luò)人工智能預(yù)測(cè)儀表盤(pán)
功能豐富、直觀且可定制的 fabric manager
UFM 網(wǎng)絡(luò)人工智能還支持定制的網(wǎng)絡(luò)警報(bào)或查看觸發(fā)的異常隨著時(shí)間的推移和在不同的時(shí)間維度。通過(guò)使用基于小時(shí)或星期幾參數(shù)的聚合網(wǎng)絡(luò)統(tǒng)計(jì)信息,您可以根據(jù) MIG ht 偏離典型操作用途的測(cè)量值設(shè)置閾值和配置通知。例如,可以使用預(yù)定義的閾值來(lái)識(shí)別有問(wèn)題的電纜。
內(nèi)置分析將當(dāng)前遙測(cè)信息與基于時(shí)間的聚合信息進(jìn)行比較,以檢測(cè)使用或流量模式中的任何可疑增加或減少,并立即通知系統(tǒng)管理員。 UFM-cyberai 還通過(guò)鏈路或端口遙測(cè)信息提供數(shù)據(jù)中心租戶或應(yīng)用程序警報(bào),以識(shí)別與低級(jí)別分區(qū)密鑰( PKEY )相關(guān)的統(tǒng)計(jì)信息及其相關(guān)節(jié)點(diǎn)。
只有 UFM 網(wǎng)絡(luò)人工智能提供了鏈接故障預(yù)測(cè)等功能,支持預(yù)測(cè)性維護(hù)。通過(guò)在早期階段檢測(cè)性能下降情況, UFM 網(wǎng)絡(luò)人工智能可以預(yù)測(cè)潛在的鏈路或端口故障。這使管理員能夠執(zhí)行維護(hù)并消除數(shù)據(jù)中心停機(jī)時(shí)間。
NVIDIA Morpheus 的未來(lái)增強(qiáng)功能
為 InfiniBand 帶來(lái)最強(qiáng)大的結(jié)構(gòu)管理解決方案需要不斷創(chuàng)新,以跟上管理當(dāng)今復(fù)雜數(shù)據(jù)中心的復(fù)雜性。我們計(jì)劃將 NVIDIA Morpheus 與 UFM Cyber AI 集成(圖 3 ),從其他數(shù)據(jù)中心元素(如服務(wù)器或基于機(jī)架的組件遙測(cè)或 DPU 、 GPU 和應(yīng)用程序計(jì)數(shù)器)帶來(lái)更多遙測(cè)信息。
我們甚至可以提供一個(gè)額外的層,它可以直接與其他 api 接口,比如 Kafka ,一個(gè)用于高性能數(shù)據(jù)管道、流分析和數(shù)據(jù)集成的開(kāi)源分布式事件流平臺(tái)。您可以使用該集成對(duì)開(kāi)發(fā)人員定義的操作系統(tǒng)異常進(jìn)行特定的檢測(cè),例如對(duì)生命科學(xué)研究專用系統(tǒng)的加密挖掘檢測(cè)。
圖 3 。 UFM 網(wǎng)絡(luò)人工智能與 Morpheus 框架的集成示例
Morpheus 是一個(gè)開(kāi)放的人工智能應(yīng)用框架,為網(wǎng)絡(luò)安全開(kāi)發(fā)者提供高度優(yōu)化的人工智能管道和預(yù)訓(xùn)練的人工智能能力。這些功能使您能夠通過(guò)數(shù)據(jù)中心結(jié)構(gòu)即時(shí)檢查所有網(wǎng)絡(luò)流量。 Morpheus 通過(guò)提供以下功能為數(shù)據(jù)中心帶來(lái)了新的安全級(jí)別:
動(dòng)態(tài)保護(hù)
實(shí)時(shí)遙測(cè)
適應(yīng)性策略
用于檢測(cè)和修復(fù)網(wǎng)絡(luò)安全威脅的網(wǎng)絡(luò)防御
圖 4 。 UFM 網(wǎng)絡(luò)人工智能作為靈活和可擴(kuò)展平臺(tái)的示例
隨著 Morpheus 集成到 UFM Cyber AI 設(shè)備中,我們可以為關(guān)鍵任務(wù)數(shù)據(jù)中心和支持開(kāi)發(fā)人員提供最佳和最完整的解決方案,該解決方案也具有靈活性和可擴(kuò)展性。通過(guò)可定制的異常檢測(cè)和與其他標(biāo)準(zhǔn)化 API 的接口, UFM Cyber AI 是任何支持多租戶的數(shù)據(jù)中心或云本地基礎(chǔ)設(shè)施的靈活資產(chǎn)。
關(guān)于作者
David Slama 擔(dān)任 NVIDIA 網(wǎng)絡(luò)營(yíng)銷(xiāo)高級(jí)總監(jiān),專注于高性能計(jì)算、人工智能、云解決方案和 InfiniBand 技術(shù)。 Slama 于 2005 年加入 Mellanox ,擔(dān)任軟件工程師,并在 Mellanox 擔(dān)任多個(gè)軟件管理職位,直到 2020 年。他領(lǐng)導(dǎo)云解決方案、以太網(wǎng)和 InfiniBand 軟件管理、存儲(chǔ)、自動(dòng)化解決方案以及上游活動(dòng),如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 擁有 ML 和 AI 領(lǐng)域的網(wǎng)絡(luò)專利。他擁有政府學(xué)碩士學(xué)位和管理學(xué)和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
Scot Schultz 是 HPC 技術(shù)專家,專注于人工智能和機(jī)器學(xué)習(xí)系統(tǒng)。 Scot 在分布式計(jì)算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識(shí)。在他的整個(gè)職業(yè)生涯中,擁有超過(guò) 25 年的高性能計(jì)算系統(tǒng)經(jīng)驗(yàn),他的職責(zé)包括各種工程和領(lǐng)導(dǎo)角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標(biāo)準(zhǔn)組織的成長(zhǎng)和發(fā)展中發(fā)揮了重要作用。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103734 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4860瀏覽量
72386 -
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240338
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
英特爾酷睿Ultra 200V系列移動(dòng)處理器亮相CES 2025
NVIDIA 發(fā)布保障代理式 AI 應(yīng)用安全的 NIM 微服務(wù)
如何實(shí)現(xiàn) HTTP 協(xié)議的安全性
NVIDIA DOCA 2.9版本的亮點(diǎn)解析
![<b class='flag-5'>NVIDIA</b> DOCA 2.9版本的亮點(diǎn)解析](https://file1.elecfans.com/web3/M00/00/19/wKgZPGdGj2CALUN3AAAd4Bt9wgQ818.png)
使用NVIDIA AI平臺(tái)確保醫(yī)療數(shù)據(jù)安全
如何選擇數(shù)據(jù)中心服務(wù)
![](https://file1.elecfans.com/web2/M00/04/92/wKgZombQGkmAbGb_AAR8LQIXDJQ743.jpg)
怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心
NVIDIA 在 Hot Chips 大會(huì)展示提升數(shù)據(jù)中心性能和能效的創(chuàng)新技術(shù)
![<b class='flag-5'>NVIDIA</b> 在 Hot Chips 大會(huì)展示提升<b class='flag-5'>數(shù)據(jù)中心</b>性能和能效的創(chuàng)新技術(shù)](https://file1.elecfans.com//web2/M00/04/78/wKgZombO4h6AflHlAAEIfgYck7I686.jpg)
半導(dǎo)體存儲(chǔ)器在數(shù)據(jù)中心中的應(yīng)用
AI時(shí)代,我們需要怎樣的數(shù)據(jù)中心?AI重新定義數(shù)據(jù)中心
![<b class='flag-5'>AI</b>時(shí)代,我們需要怎樣的<b class='flag-5'>數(shù)據(jù)中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數(shù)據(jù)中心</b>](https://file1.elecfans.com/web2/M00/FD/A7/wKgaomaV60OAVxpnAAA4JNscNqc103.png)
NVIDIA為新工業(yè)革命打造 AI 工廠和數(shù)據(jù)中心
訊維分布式KVM坐席管理系統(tǒng)在數(shù)據(jù)中心管理中的應(yīng)用與案例分析
進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片
基于NVIDIA DOCA 2.6實(shí)現(xiàn)高性能和安全的AI云設(shè)計(jì)
KVM矩陣:打造無(wú)縫的數(shù)據(jù)中心管理體驗(yàn)
![KVM矩陣:打造無(wú)縫的<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>管理</b>體驗(yàn)](https://file1.elecfans.com/web2/M00/C0/F9/wKgaomXRpWaAMBUdAADrFKUzHrk444.jpg)
評(píng)論