關鍵詞:SAM;PCB;SA-1B;Prompt;CV;NLP;PLM;BERT;ZSL;task;zero-shot;data;H100、H800、A100、A800、LLaMA、Transformer、OpenAI、GQA、RMSNorm、SFT、RTX 4090、A6000、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英偉達、Nvidia、英特爾、AMD、高性能計算、高性能服務器、藍海大腦、多元異構算力、高性能計算、大模型訓練、通用人工智能、GPU服務器、GPU集群、大模型訓練GPU集群、大語言模型、深度學習、機器學習、計算機視覺、生成式AI、ML、DLC、ChatGPT、圖像分割、預訓練語言模型、PLM、機器視覺、AI服務器
摘要:Segment Anything Model (SAM)是Meta 公司最近推出的一個創新AI 模型,專門用于計算機視覺領域圖像分割任務。借鑒ChatGPT 的學習范式,將預訓練和特定任務結合在一起,從而顯著提升模型的泛化能力。SAM 的設計初衷是簡化圖像分割的過程,減少對專業建模知識的依賴,并降低大規模訓練所需的計算資源。
在計算機視覺領域,SAM模型是一種基于CV領域的ChatGPT,提供強大的圖像分割功能。然而,要使用SAM模型,我們需要進行SAM大模型環境的配置。雖然配置SAM環境可能會面臨一些挑戰,但一旦配置完成,我們將能夠充分利用SAM模型的強大功能。
為配置SAM環境,我們需要確保服務器具備足夠的計算資源和存儲空間,以支持SAM模型的高效運行。SAM模型通常需要大量的計算資源和存儲能力來進行準確的圖像分割。然而,也需要注意SAM本地部署對服務器的影響。SAM模型的部署可能對服務器的性能和穩定性產生一定的影響。
藍海大腦大模型訓練平臺提供強大計算集群、高速存儲系統和高帶寬網絡連接,加速模型的訓練過程;同時采用高效分布式計算框架和并行計算,使模型訓練可以在多個計算節點上同時進行,大大縮短訓練時間。兼備任務調度、資源管理和監控等功能,提升訓練效率和可管理性。此外,豐富的工具和庫,可用于模型開發、調試和優化。還為模型部署和推理提供支持。一旦模型訓練完成,平臺可將訓練好的模型部署到生產環境中,以供實際應用使用。
SAM模型:CV領域的ChatGPT
一、什么是SAM模型?
SAM模型是 Meta 推出的人工智能模型,在官網上被描述為“僅需一次點擊,即可在任何圖像中分割出任何物體”。采用以前圖像分割模型作為基礎,并在龐大的數據集上進行訓練,該模型旨在解決多個下游任務并成為一種通用模型。
該模型的核心要點有:
1、借鑒ChatGPT的啟發思想,采用可提示學習范式,提高學習效率;
2、建立迄今為止最大的圖像分割數據集Segment Anything 1-Billion(SA-1B),包含1100萬張圖像和超過10億個掩碼;
3、構建通用且自動的分割模型,在零樣本情況下靈活應用于新的任務和領域,其結果優于以往的監督學習結果。
SAM 模型官方文章
二、Prompt:將 ChatGPT 的學習思維應用在 CV 領域
SAM 利用先進技術路線實現計算機視覺底層技術突破,具備廣泛的通用性和零樣本遷移的能力。采用 prompt-based learning 方式進行學習訓練,即利用提示語作為模型輸入。與傳統的監督學習方式不同,該方法在 GPT-3 團隊的推動下得到廣泛應用。
1、Prompt之前的模型在做什么
預訓練語言模型(PLM)是一種先進的自然語言處理(NLP)模型,在人和計算機交互方面起著重要的作用。NLP旨在改善人與計算機之間的交流和理解,而PLM則是這一領域前沿模型之一。
自然語言處理(NLP)的常用算法和模型
預訓練模型根據學習范式和發展階段可以分為四代:
1)特征學習:通過設置規則來提取文本特征編碼文本,例如TF-IDF模型。
2)結構學習:引入深度學習在NLP中應用,代表性模型是Word2Vec。第一代、第二代預訓練模型的共同點是輸出被用作下游任務的輸入,但本身并不直接執行下游任務。隨后的模型將預訓練結果和模型自身都應用于下游任務中。
預訓練模型(PLM)的發展階段和特征
3)下游微調:采用預訓練加下游微調方式,代表性模型有BERT和GPT。
4)提示學習:在BERT和GPT的基礎上進一步改進,采用基于提示學習(Prompt-based Learning)方法。該方法將輸入信息經過特定模板處理,將任務轉化為更適合預訓練語言模型處理形式。代表性模型有ChapGPT、GPT3.5和SAM。
預訓練模型就像是培養出的高中畢業生,而下游任務則相當于大學的專業課程。高中畢業生學習未來應用領域相關的課程,就能夠成為具備專業技能和知識的大學生,以應對專業崗位的要求。
基于提示的學習(prompt-based learning)各分支
2、Prompt 的優勢:實現預訓練和下游任務的統一
如下圖所示(左圖),傳統的PLM+微調范式存在上下游之間差異較大、應用不匹配問題,在預訓練階段使用自回歸或自編碼方法,但對于下游的微調任務來說,需要大量新數據來適應不同的形式和要求。
傳統的預訓練+微調模型以及 prompt范式
隨著模型參數越來越龐大,企業部署模型成本非常高。同時為滿足各種不同下游之間的任務,需要專門對每個任務進行微調,也是一種巨大的浪費。主要有以下兩個缺點:
1)微調所需的樣本數量非常大
2)模型的專用性高,部署成本高昂
針對以上缺點,PT-3團隊提出在大量無監督文本閱讀后,語言模型可以通過"培養廣泛技能和模式識別能力"有效地解決問題。實驗表明在少樣本場景下,模型不需要更新任何參數就能實現不錯的效果。預訓練加微調范式是通過大量訓練使模型適應下游任務。而Prompt則是將下游任務以特定模板的形式統一成預訓練任務,將下游任務的數據組織成自然語言形式,充分發揮預訓練模型本身的能力。
Fine-tune 和 prompt 兩種范式的區別
以情感分類任務為例,使用傳統Fine-tune方法需要準備一個微調數據集,其中包含對電影/書籍的評價以及人工閱讀后的感受。該微調數據集必須足夠大,以滿足復雜任務需求。但是微調數據集的大小可能超過預訓練數據集的規模,導致預訓練的目的失去意義。
相比之下,利用Prompt的方式可以更好地處理情感分類任務并且充分利用預訓練模型能力,避免繁重微調數據集準備工作。Prompt可以根據輸入的句子來輸出對MASK位置單詞的預測,進而推測出用戶對該作品作品的態度。
預訓練+下游任務微調(PLM+Fine-tuning)處理情感分類任務(寫影評)
Prompt范式具有以下優點:
1)大大降低模型訓練所需樣本量,可以在少樣本甚至零樣本的情況下進行訓練
2)提高模型的通用性,在實際應用中減少成本并提高效率
當下,大型模型如GPT-4已經不再完全開放全部的模型參數,用戶只能通過API接口使用模型進行預測。由此可見,Prompt工程在下游任務中的重要性已經不言而喻。
三、ZSL:零樣本學習降本增效,提高模型泛化能力
1、什么是零樣本學習能力?
零樣本學習(Zero-shot Learning, ZSL)是機器學習中的一個難題,其目標是讓模型能夠對從未見過的"未知物體"進行分類和識別。下圖中展示一個經典案例,即認識斑馬。一個"兒童"在動物園里見過許多動物,如馬、熊貓、獅子、老虎等,但從未見過斑馬。通過老師的描述,該"兒童"了解到斑馬有四條腿、黑白相間的條紋以及尾巴。最終這個"兒童"輕松地辨認出斑馬。
類似,模型也可以通過零樣本學習方式,從已見過的類別中提取特征(如外形類似馬、具有條紋、黑白色),然后根據對未知類別特征的描述,識別那些從未見過的類別。換言之,模型通過之前學到的知識和特征,將其應用于未知物體的識別。
零樣本學習(ZSL)示例
2、SAM 的零樣本學習能力得到認可
SAM 正具備這樣一種零樣本分割能力,可以從各種 prompt 輸入(包括點、方框和文本)中生成高質量的掩膜(Mask)。學術界有多篇論文探討SAM 的 ZSL 能力, 如《SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model》測試 SAM 的 ZSL 效果,在圖像分割任務中輸入部分點和框作為 prompt 提示,結果顯示:專家用戶可以通過 SAM 實現大部分場景下的快速半自動分割。雖然在實驗中 SAM 沒有表現出領先的全自動分割性能,但可成為推動臨床醫生半自動分割工具發展的潛在催化劑。
SAM 的零樣本學習能力在 CT 影像中的應用
四、SA-1B:迄今為止最大的分割數據集,助力模型增效
1、Data Engine:使用數據引擎生成掩碼
SAM使用數據集進行訓練,并采用SAM交互式注釋圖像的方式對數據進行標注。另外,采用新穎的數據收集方法,結合模型和標注人員的力量,從而提高數據收集的效率和質量。整個過程可以分為三個階段,讓SAM的數據引擎更加完善和高效。
SAM使用數據引擎(data engine)漸進式收集數據示意圖
1)手工階段:在模型輔助的手工注釋階段,標注人員利用SAM模型作為輔助工具,在圖像上進行點擊、框選或輸入文本等操作來生成MASK,并且模型會實時根據標注人員的輸入更新MASK,并提供一些可選的MASK供標注人員選擇和修改。該方式使得標注人員能夠快速而準確地分割圖像中的對象,無需手動繪制。其目的是收集高質量的MASK,用于訓練和改進SAM模型。
2)半自動階段:SAM模型已經具備一定的分割能力,能夠自動預測圖像中的對象。但是由于模型不夠完善,預測MASK可能存在錯誤或遺漏。標注人員的主要任務是檢查和修正模型的預測結果,以確保MASK的準確性和完整性。該階段的目標是收集更多的MASK,以進一步提升SAM模型的性能和泛化能力。
3)全自動階段:SAM模型已經達到較高水平,能夠準確地分割圖像中的所有對象,無需任何人工干預。因此,標注人員工作轉變為確認和驗證模型輸出,以確保沒有任何錯誤。該階段旨在利用SAM模型的自動標注能力,快速擴展數據集的規模和覆蓋范圍。
2、Data Set:使用數據引擎生成掩碼
通過逐步進行“模型輔助的手工注釋——半自動半注釋——模型全自動分割掩碼”方法,SAM團隊成功創建名為SA-1B圖像分割數據集。該數據集具有規模空前、質量優良、多樣化豐富和隱私保護的特點。
1)圖像數量和質量:SA-1B包含多樣化、高清晰度、隱私保護的1100萬張照片,這些照片是由一家大型圖片公司提供并授權使用,符合相關的數據許可證要求,可供計算機視覺研究使用。
2)分割掩碼數量和質量:SA-1B包含11億個精細的分割掩碼,這些掩碼是由Meta開發的數據引擎自動生成,展示該引擎強大的自動化標注能力。
3)圖像分辨率和Mask數量:每張圖像的平均分辨率為1500x2250像素,每張圖像包含約100個掩碼。
4)數據集規模對比:SA-1B比現有的分割數據集增加400多倍;相較于完全手動基于多邊形的掩碼標注(如COCO數據集),使用SAM的方法快6.5倍;比過去最大的數據標注工作快兩倍。
SA-1B比現有分割數據集多 400 倍
SA-1B數據集目標是訓練一個通用模型,可以從開放世界圖像中分割出任何物體。該數據集不僅為SAM模型提供強大的訓練基礎,同時也為圖像分割領域提供一個全新的研究資源和基準。
此外,在SA-1B的論文中,作者進行RAI(Responsible AI,責任智能)分析,并指出該數據集的圖像在跨區域代表性方面具有更強的特點。
SA-1B 數據集的跨區域代表性較強
五、SAM 核心優勢:減少訓練需求,提升分割性能
SAM的核心目標是在不需要專業建模知識、減少訓練計算需求以及自行標注掩碼的情況下,實現目標通用分割。為逐步實現該目標,SAM采取以下三種方法構建圖像領域的通用分割大模型:
1)數據規模和質量
SAM通過具備零樣本遷移能力,收集大量高質量的圖像分割數據(1100萬張圖像和11億個掩碼)構建SA-1B數據集,這是目前規模最大的圖像分割數據集,遠超過以往的數據集。
2)模型效率和靈活性
SAM借鑒Transformer模型架構,并結合注意力機制和卷積神經網絡,實現高效且可引導的圖像分割模型。該模型能夠處理任意大小和比例的圖像,并且能夠根據不同的輸入提示生成不同的分割結果。
SAM 的可提示分割模型分為三部分
3)任務的泛化和遷移
SAM實現圖像分割任務的泛化和遷移能力。它通過采用可提示分割任務的方法,構建一個能夠零樣本遷移的圖像分割模型。這意味著SAM可以適應新的圖像分布和任務,而無需額外的訓練數據或微調。這一特性使得SAM在多個圖像分割任務上表現出色,甚至超過一些有監督的模型。
目前,SAM已經具備以下功能:
學習物體概念能夠理解圖像中物體的概念和特征。
生成未見過物體的掩碼為圖像或視頻中未見過的物體生成準確的掩碼。
高通用性具有廣泛的應用性,能夠適應不同的場景和任務。
支持多種交互方式SAM支持用戶使用多種交互方式進行圖像和視頻分割,例如全選分割自動識別圖像中的所有物體,以及框選分割(只需框選用戶選擇的部分即可完成分割)。
框選分割(BOX)
在圖像分割領域,SAM是一個具有革命性意義的模型。它引入一種全新范式和思維方式,為計算機視覺領域的基礎模型研究提供新的視角和方向。SAM的出現改變了人們對圖像分割的認知,并為該領域帶來巨大的進步和突破。
2、基于 SAM 二次創作,衍生模型提升性能
自從引入SAM以來,該技術在人工智能領域引起極大的興趣和討論,并且衍生出一系列相關模型和應用,如SEEM和MedSAM等。這些模型在工程、醫學影像、遙感圖像、農業等不同領域都有廣泛應用。借鑒SAM理念和方法,并通過進一步改進和優化,使得SAM的應用范圍更廣泛。
1)SEEM:交互、語義更泛化,分割質量提升
SEEM在交互和語義空間上都比 SAM 更具泛化性
SEEM是一種基于SAM的新型交互模型,利用SAM強大的零樣本泛化能力,實現對任意圖像中所有物體的分割任務。該模型結合SAM和一個檢測器,通過使用檢測器輸出的邊界框作為輸入提示,生成相應物體掩碼。SEEM能夠根據用戶提供多種輸入模態(如文本、圖像、涂鴉等),一次性完成圖像或視頻中所有內容分割與物體識別任務。
這項研究已在多個公開數據集上進行實驗,其分割質量和效率均優于SAM。值得一提的是,SEEM是第一個支持各種用戶輸入類型的通用接口,包括文本、點、涂鴉、框和圖像,提供強大組合功能。
SEEM 根據用戶輸入的點和涂鴉進行圖像識別
SEEM具備分類識別特性,可以直接輸入參考圖像并指定參考區域,從而對其他圖像進行分割,并找出與參考區域相一致的物體。同時該模型還擁有零樣本分割功能,對于模糊或經歷劇烈變形的視頻,能夠準確地分割出參考對象。通過第一幀和用戶提供的涂鴉等輸入,SEEM能夠在道路場景、運動場景等應用中表現出色。
SEEM 根據參考圖像對其他圖像進行分割
2)MedSAM:提升感知力,應用醫學圖像分割
為評估SAM在醫學影像分割任務中的性能,深圳大學等多所高校合作創建COSMOS 553K數據集(迄今為止規模最大的醫學影像分割數據集)研究人員利用該數據集對SAM進行全面、多角度、大規模的詳細評估。該數據集考慮醫學圖像的多樣成像模式、復雜邊界以及廣泛的物體尺度,提出更大的挑戰。通過這次評估,可以更全面地了解SAM在醫學影像分割任務中的性能表現。
SAM 分割醫學影像測試的詳細框架
根據評估結果顯示,SAM盡管具備成為通用醫學影像分割模型的潛力,但在醫學影像分割任務中的表現目前還不夠穩定。特別是在全自動Everything的分割模式下,SAM對大多數醫學影像分割任務的適應能力較差,其感知醫學分割目標的能力有待提高。因此,SAM在醫學影像分割領域的應用還需要進一步的研究和改進。
測試 SAM 對醫學影像分割性能的數據集 COSMOS 553K 及分割效果
因此在醫學影像分割領域,研究重點應該放在如何利用少量醫學影像來有效地微調SAM模型以提高其可靠性,并構建一種適用于醫學影像的Segment Anything Model。針對這一目標,MedSAM提出一種簡單的微調方法,將SAM適應到通用的醫學影像分割任務中。通過在21個三維分割任務和9個二維分割任務上進行全面的實驗,MedSAM證明其分割效果優于默認的SAM模型。這項研究為醫學影像分割提供一種有效的方法,使SAM模型能夠更好地適應醫學影像的特點,并取得更好的分割結果。
MedSAM 示意圖
3)SAM-Track:擴展 SAM 應用領域,增強視頻分割性能
最新開源的SAM-Track項目由浙江大學ReLER實驗室的科研人員開發,為SAM模型增強在視頻分割領域的能力。SAM-Track能夠對任意物體進行分割和跟蹤,并且支持各種時空場景,例如街景、AR、細胞、動畫和航拍等。該項目在單卡上即可實現目標分割和跟蹤,能夠同時追蹤超過200個物體,為用戶提供強大的視頻編輯能力。
相較于傳統的視頻分割技術,SAM-Track具有更高的準確性和可靠性。它能夠自適應地識別不同場景下的物體,并快速而精確地進行分割和跟蹤,從而使用戶能夠輕松地進行視頻編輯和后期制作,實現更出色的視覺效果。總的來說,SAM-Track是在SAM基礎上的有意義的研究成果,為視頻分割和跟蹤領域的研究和應用帶來了新的可能性。它的出現為視頻編輯、后期制作等領域帶來更多機會和挑戰。
3、SAM 及衍生模型賦能多場景應用
SAM模型是一種高效且準確的圖像分割模型,在計算機視覺領域的應用具有廣泛的潛力,可以賦能工業機器視覺領域,實現降本增效、快速訓練和減少對數據的依賴。在AR/CR行業、自動駕駛和安防監控領域等賽道,SAM可以用于動態圖像的捕捉和分割,盡管可能涉及到技術、算力和倫理隱私方面的挑戰,但其發展潛力巨大。
此外,SAM對于一些特定場景的分割任務可能具有困難性,但可以通過微調或適配器模塊的使用進行改進。在醫學影像和遙感圖像處理領域,SAM可以通過簡單微調或少量標注數據的訓練來適應分割任務。另外,SAM還可以與其他模型或系統結合使用,例如與分類器結合實現物體檢測和識別或與生成器結合實現圖像編輯和轉換。這種結合能夠進一步提高圖像分割的準確性和效率,為各行業帶來更多應用場景。
1)基于 3D 重建,賦能 AR、游戲
在AR/VR領域,SAM模型結合3D重建技術和圖像處理算法,為用戶提供更加逼真和沉浸的視覺體驗。通過SAM模型,用戶可以將2D圖像轉化為3D場景,并在AR或VR設備上進行觀察和操控,實現對真實世界的模擬和還原。這樣的技術結合為用戶帶來高度沉浸式的互動體驗,能夠在虛擬世界中與物體進行互動,享受更加逼真的視覺感受。
此外,SAM模型還結合了深度學習算法,對用戶視線和手勢識別和跟蹤,以實現更智能化互動方式。舉例來說,當用戶注視某個物體時,SAM模型可以自動聚焦并提供更為詳細的信息;當用戶做出手勢操作時,SAM模型也能夠快速響應并實現場景的調整和變化。
2)跟蹤運動物體,賦能安防監控
在圖像分割領域,SAM是一種高效而準確的模型,能夠進行視頻和動態圖像的分割,并產生SEEM和SAM-Track這兩個衍生應用。這些衍生模型充分利用了SAM的零樣本泛化能力,通過使用參考圖像和用戶輸入的涂鴉、文字等信息,在模糊或劇烈變形的視頻中實現對目標對象的準確分割。
例如,在跑酷、運動和游戲等視頻中,傳統的圖像分割算法往往無法有效處理復雜的背景和快速移動的目標物體。然而,SEEM模型不僅能夠準確識別參考對象,還能夠消除背景干擾,從而提高分割的精度。簡而言之,SAM模型及其相關應用在處理具有動態特征的圖像分割問題上表現出出色的性能和準確度。
SEEM 在跑酷、運動、游戲視頻中可以準確分割參考對象
除在運動場景中的應用之外,SEEM和SAM-Track還可以賦能安防和視頻監控等領域,準確地對視頻中的物體進行分割,以便進行后續的識別和處理。SEEM和SAM-Track通過輸入的提示信息,能夠準確地判斷目標物體并進行精確的分割。
3)解決長尾難題,賦能自動駕駛
盡管目前自動駕駛技術已經在90%以上的道路場景下成功實現,但仍然存在10%的長尾場景難題,這主要是由于路況和車輛行駛情況的不可預測性所導致。這些長尾場景包括突發事件、復雜地形和惡劣氣候等極端情況,如強降雨、暴風雪和雷電等,對自動駕駛系統的識別和決策能力構成巨大挑戰。此外,在城市交通中,還需要考慮非機動車、行人和建筑物等因素對自動駕駛系統的影響。
為了解決長尾問題,自動駕駛技術需要整合更多的算法和傳感器,并通過數據采集和深度學習等方法提升系統的智能水平。例如,通過整合雷達、攝像頭、激光雷達等傳感器的數據來提高對目標物體的識別和跟蹤能力。同時,可以利用深度學習算法來模擬和預測復雜場景。此外,引入人工智能技術,讓自動駕駛系統在長尾場景中不斷學習和優化,以提高其適應性和泛化能力。
城市道路場景中長尾場景較多
在自動駕駛領域,圖像分割在感知和理解道路環境中起著關鍵作用。SAM(Segment Anything Model)可以通過標記和分割圖像中的不同物體和區域實現精確的場景感知。傳統的手動標注方法耗時且容易出錯,而SAM的自動化分割能夠大幅降低成本并提高準確性。
SAM在自動駕駛系統中能夠實時感知道路標記、車道線、行人、交通信號燈等關鍵元素。通過與其他深度學習模型結合,如目標檢測和路徑規劃模型,SAM可以準確理解周圍環境,幫助自動駕駛系統做出安全、高效的決策。
以行人識別和車道線跟蹤為例,SAM能夠預測行人和車輛的運動軌跡,幫助減少潛在的交通事故風險。
4)提高分割性能,賦能遙感圖像
遙感圖像是通過衛星、飛機等遙測手段獲取地球表面信息的重要工具,其具備多樣性、全覆蓋和高精度等特點,在現代科技發展中扮演著不可或缺的角色。遙感圖像在環境監測、自然資源管理、城市規劃和災害預警等領域應用廣泛。
遙感數據包括光學遙感數據、光譜數據、SAR雷達數據、無人機數據等多種類型。處理遙感數據一般分為兩個階段:第一階段通過遙感地面處理系統對接收到的衛星數據進行處理,包括大氣校正、色彩均勻化和圖像裁剪等,以得到可以進一步識別和處理的圖像;第二階段則是在此基礎上,對遙感圖像進行進一步處理和解譯,主要是對圖像中的物體進行識別。
由于遙感圖像的多樣性、復雜性和數據大量的特點,在處理過程中存在許多挑戰和困難。
圖像處理經歷三個階段:
人工解譯階段:完全依賴標注人員進行圖像解釋,但這種方法成本高且解譯效率低下;
AI+遙感階段:借助AI技術和算力的支持,有效緩解圖像解譯難點,并實現了人機協同。隨著遙感和測繪等觀測平臺以及衛星數量的增長,AI與遙感的結合為圖像解譯提供更多可能性;
遙感大模型時代:隨著大型神經網絡模型的發布,遙感圖像的解譯有望進入大模型階段。
遙感圖像處理發展階段
大型遙感圖像分割模型SAM是一項新興的技術,為遙感圖像處理提供全新的方法?;谏疃葘W習算法,SAM能夠高效地對遙感圖像進行分割、識別和生成,從而顯著提升遙感圖像解譯的效率。利用SAM模型進行遙感圖像分割,用戶能夠快速準確地生成高質量的地圖和三維模型,從而提高環境監測和資源管理的效率及精度。此外,SAM模型還支持多源數據的融合,將遙感圖像與其他數據相結合,以產生更全面、更精準的分析結果。提高遙感數據處理效率不僅為遙感應用打下堅實基礎,也為下游的遙感應用帶來更廣闊的發展空間。
大模型應用于遙感圖像處理
盡管SAM大模型在處理一些困難的遙感圖像分割任務時仍然面臨挑戰,例如在面對陰影、掩體分割和隱蔽動物定位等任務時的準確性較低。遙感圖像分割任務需要模型具備更高的感知力和識別能力,SAM模型目前無法完全做到"分割一切",特別是在處理細節方面還有進一步提升的空間。然而,通過不斷改進和優化,SAM模型的性能可以提升。
另外,RS-promter是在SAM發布后由專家團隊二次創作的一種基于SAM基礎模型的遙感圖像實例分割的prompt learning方法。這種方法被稱為RSPrompter,使SAM能夠生成語義可辨別的遙感圖像分割結果,而無需手動創建prompt。RSPrompter的目標是自動生成prompt,以自動獲取語義實例級別的掩碼。這種方法不僅適用于SAM,還可以擴展到其他基礎模型。
SAM模型在處理困難的遙感圖像分割任務中仍然具有挑戰,但通過改進和優化,包括引入更多數據集、采用更先進的神經網絡架構以及基于RS-promter的改進方法,可以提高其性能。
基于錨點的 prompter
研究人員進行了一系列實驗來驗證RSPrompter的效果。這些實驗不僅證明RSPrompter每個組件的有效性,還展示它在三個公共遙感數據集上相較于其他先進的實例分割技術和基于SAM的方法具有更好的性能。
大模型為空天信息產業帶來了驅動和挑戰
大模型的引入為遙感圖像領域帶來新的推動力和挑戰。在多模態時空遙感數據的應用中,大模型在基于合成孔徑雷達(SAR)、光學、多光譜衛星和無人機航拍等方面具有廣泛的應用。借助開源大模型基礎結構,為遙感數據開展定制化模型研發,實現一站式、全流程的遙感大模型構建能力。另外,大模型支持處理大規模模型參數和標注數據量,實現更高效、精準的遙感數據處理和分析,為影像智能檢索與推送、地物智能提取采編、數字孿生產品線等領域提供技術支持。
未來,大模型訓練與小模型部署將結合起來,以實現更好的應用效果。傳統的圖像處理方法難以滿足遙感影像處理的要求,因此使用大模型處理遙感圖像已成為當前研究的重要方向。SAM模型的賦能進一步提升了遙感圖像的意義和應用價值,為該領域的研究和應用帶來新的機會和挑戰,也為人們更好地認識和利用地球資源提供技術支持。
5)算力應用驅動,賦能機器視覺的功能主要歸類為四種:識別、測量、定位、檢測
識別
通過識別目標物的特征,如外形、顏色、字符、條碼等,實現高速度和高準確度的甄別。
測量
將圖像像素信息轉化為常用的度量單位,精確計算目標物的幾何尺寸。機器視覺在復雜形態測量和高精度方面具有優勢。
定位
獲取目標物體的二維或三維位置信息。
檢測
主要針對外觀檢測,內容涵蓋廣泛。例如產品裝配后的完整性檢測,外觀缺陷檢測(如劃痕、凹凸不平等)。
機器視覺四大功能及難度
機器視覺被稱為"智能制造之眼",在工業自動化領域廣泛應用。典型的機器視覺系統包括光源、鏡頭、相機和視覺控制系統(包括視覺處理分析軟件和視覺控制器硬件)。根據技術的不同,機器視覺可分為基于硬件的成像技術和基于軟件的視覺分析技術。機器視覺的發展受到四大核心驅動力的影響,包括成像、算法、算力和應用。每個方面都對機器視覺的發展起到重要的推動作用,不可或缺。
機器視覺發展歷程
機器視覺技術的發展受到兩大核心驅動力的影響。
應用驅動:隨著傳統制造業對機器視覺技術的逐步采納和新興行業的崛起,機器視覺需求不斷增加。在智能制造領域,機器視覺技術可以幫助企業實現自動化生產,提高生產效率和產品質量。在智能醫療領域,機器視覺技術可以輔助醫生進行診斷和治療,提高醫療水平和治療效果。
算力/算法驅動:隨著CPU算力的增長和AI算法的快速進化,特別是深度學習等技術的應用,機器視覺技術在圖像處理和分析方面變得更加高效和精確。高性能計算設備的推動和算法的不斷進步,為機器視覺技術的發展提供強大支持。
引入AI大模型為機器視覺產業帶來重大突破。當前,機器視覺領域采用先進技術,包括深度學習、3D處理與分析、圖像感知融合以及硬件加速圖像處理等。這些技術和模型大幅提升了機器視覺的智能應用能力,改進圖像識別的復雜性和準確性,同時降低成本,提高效率。
基于 AI 的輕量級人臉識別網絡,可用于視頻實時分析、安防監控等
AI在機器視覺領域有廣泛的應用。通過深度學習網絡如CNN來實現物體的檢測和識別,對圖像進行分類理解場景,并提升圖像的質量和恢復效果,實現實時分析和異常檢測,進行3D重建和增強現實等技術。同時,AI賦予機器視覺“理解”所看到圖像的能力,為各種應用場景帶來無限的創新和發展機會。
其中,SAM作為一種重要的視覺領域AI大模型,可以在機器視覺領域推動創新和進步。例如,SAM可以直接應用于智慧城市中,提高交通監測、人臉識別等任務的效率。在智能制造領域,SAM可以增強視覺檢測和質量控制的能力。此外,SAM還可以與OVD技術結合,自動地生成所需信息,加強語義理解能力,從而增強用戶的交互體驗。綜上所述,AI在機器視覺領域的應用以及SAM模型的運用都為各個領域帶來了巨大的潛力和機遇。
OVD 目標檢測基本流程
SAM大模型環境配置
要部署 "Segment Anything Model",需要按以下步驟進行操作:
收集和標記訓練數據:收集模型進行分割的對象的圖像數據,并進行標記。
進行數據預處理:在訓練之前,對圖像進行預處理(調整圖像的大小、剪裁不相關的區域或應用增強技術)以提高模型的準確性和泛化能力。
構建和訓練模型:選擇適合的模型,并使用預處理后的數據進行訓練(合適的網絡架構、調整超參數和優化模型的損失函數)。
模型評估和調優:對訓練完成的模型進行評估,確保其在分割任務上的性能。可以進行模型調優,如調整閾值、增加訓練數據或使用遷移學習等技術。
部署和推理:將訓練好的模型部署到目標環境中,并使用新的圖像數據進行推理。
以下是具體操作流程:
請確保系統滿足以下要求:Python版本大于等于3.8,PyTorch版本大于等于1.7,torchvision版本大于等于0.8。
可以參考官方教程來進行操作:https://github.com/facebookresearch/segment-anything
一、以下是安裝主要庫的幾種方式:
1、使用pip安裝(需要配置好Git):
Pip install
git+https://github.com/facebookresearch/segment-anything.git
2、本地安裝(需要配置好Git):
git clone git@github.com:facebookresearch/segment-anything.git
cd segment-anything
pip install -e .
3、手動下載+手動本地安裝:
私信小助手獲取zip文件,并解壓后運行以下命令:
cd segment-anything-main
pip install -e .
二、安裝依賴庫:
為了安裝依賴庫,可以運行以下命令:
pip install opencv-python pycocotools matplotlib onnxruntime onnx
請注意,如果您在安裝matplotlib時遇到錯誤,可以嘗試安裝特定版本的matplotlib,如3.6.2版本。可以使用以下命令安裝指定版本的matplotlib:
pip install matplotlib==3.6.2
三、下載權重文件:
您可以從以下鏈接中下載三個權重文件中的一個:
1、default 或 vit_h:ViT-H SAM 模型。
2、vit_l:ViT-L SAM 模型。
3、vit_b:ViT-B SAM 模型。
如果您發現下載速度過慢,請私信小助手獲取權重文件。
通過下載并使用其中一個權重文件,將能夠在 "Segment Anything" 模型中使用相應的預訓練模型。
如何配置訓練SAM模型服務器
在計算機視覺領域,圖像分割是一個關鍵的任務,涉及將圖像中的不同對象或區域進行準確的分割。SAM模型作為一種基于CV領域的ChatGPT,為圖像分割任務提供強大的能力。然而,要使用SAM模型,需要配置適合SAM環境的服務器,并滿足SAM模型對計算資源和存儲空間的需求。
配置適合SAM環境的服務器是充分利用SAM模型優勢的關鍵。為滿足SAM模型對計算資源和存儲空間的需求,需要確保服務器具備足夠的CPU和GPU資源、存儲空間和高性能網絡連接。
一、計算資源需求
由于SAM模型依賴于深度學習算法,需要進行大規模的矩陣運算和神經網絡訓練。因此通常需要大量的計算資源來進行高效的圖像分割。所以配置SAM環境時,需要確保服務器具備足夠的CPU和GPU資源來支持SAM模型的計算需求。特別是在處理大規模圖像數據集時,服務器需要具備較高的并行計算能力,以確保模型的高效運行。
1、GPU
1)GPU內存:SAM模型需要大量的內存來存儲模型參數和圖像數據。因此,選擇足夠內存容量的GPU是至關重要的。
2)GPU計算能力:SAM模型依賴于深度學習算法,需要進行大規模的矩陣運算和神經網絡訓練。因此,選擇具有較高計算能力的GPU可以提高SAM模型的運行效率。例如,選擇具有較多CUDA核心和高時鐘頻率的GPU。
2、CPU
雖然GPU在SAM模型中扮演著重要的角色,但CPU也是服務器配置中不可忽視的組件。在SAM模型中,CPU主要負責數據的預處理、模型的加載和其他非計算密集型任務。因此,在選擇CPU時,需要考慮以下幾個因素:
1)CPU核心數量:由于CPU可以并行處理多個任務,所以選擇具有較多核心的CPU可以提高SAM模型的整體性能。
2)CPU時鐘頻率:SAM模型的預處理和其他非計算密集型任務通常需要較高的時鐘頻率。因此,選擇具有較高時鐘頻率的CPU可以加快這些任務的執行速度。
3、常用CPU+GPU推薦
1)AMD EPYC 7763 + Nvidia A100 80GB
AMD 7763是64核心的高端EPYC芯片,A100 80GB單卡內存高達80GB,可以支持大模型的訓練。
2)雙AMD EPYC 7742 + 8張 AMD Instinct MI50
7742是AMD的前一代32核心服務器CPU,雙CPU可以提供64核心。MI50是AMD較高端的GPU,具有16GB內存,8張可以提供充足的計算資源。
3)雙Intel Xeon Platinum 8280 + 8張 Nvidia V100 32GB
8280是Intel Scalable系列的28核心旗艦CPU,雙CPU提供56核心。V100 32GB單卡32GB內存。
4)AMD EPYC 7713 + 8張 Nvidia RTX A6000
RTX A6000基于Ampere架構,具有48GB內存,相比A100更經濟且內存也足夠大。
5)雙Intel Xeon Gold 6300 + 8張 AMD Instinct MI100
Intel Xeon Gold 6300系列提供較低成本的多核心Xeon CPU,MI100配合使用可以達到比較好的性價比。
6)對于CPU,AMD EPYC 7003系列處理器是一個不錯的選擇。這是AMD的第三代EPYC服務器CPU,使用TSMC 5nm制程,擁有高達96個Zen 3核心,提供強大的多線程處理性能。具體型號可以選擇72核心的EPYC 7773X或64核心的EPYC 7713。
對于GPU,Nvidia的A100 Tensor Core GPU是目前訓練大型神經網絡的首選。它基于Ampere架構,具有高達6912個Tensor Core,可以提供高達19.5 TFLOPS的Tensor浮點性能??梢耘渲?-8塊A100來滿足訓練需求。
另外,AMD的Instinct MI100 GPU也是一個不錯的選擇。它使用CDNA架構,具有120個計算單元,可以提供高達11.5 TFLOPS的半精度浮點性能。相比A100更經濟高效。
4、存儲需求
SAM模型在進行圖像分割任務時,需要加載和存儲大量的模型參數和圖像數據。因此,服務器需要具備足夠的存儲空間來存儲SAM模型和相關數據。此外,為了提高SAM模型的運行效率,我們還可以考慮使用高速存儲設備,如SSD(固態硬盤),以加快數據的讀取和寫入速度。
5、高性能網絡需求
SAM模型在進行圖像分割任務時,需要通過網絡接收和發送大量的數據。因此,服務器需要具備高速、穩定的網絡連接,以確保數據的快速傳輸和模型的實時響應能力。特別是在處理實時圖像分割任務時,服務器需要具備低延遲和高帶寬的網絡連接,以滿足實時性的要求。
藍海大腦大模型訓練平臺
藍海大腦大模型訓練平臺提供強大的算力支持,包括基于開放加速模組高速互聯的AI加速器。配置高速內存且支持全互聯拓撲,滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數據并行的通信需求。強大的液冷系統熱插拔及智能電源管理技術,當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統的CPU進入ULFM(超低頻模式,以實現最低功耗)。致力于通過“低碳節能”為客戶提供環保綠色的高性能計算解決方案。主要應用于深度學習、學術教育、生物醫藥、地球勘探、氣象海洋、超算中心、AI及大數據等領域。
一、為什么需要大模型?
1、模型效果更優
大模型在各場景上的效果均優于普通模型
2、創造能力更強
大模型能夠進行內容生成(AIGC),助力內容規模化生產
3、靈活定制場景
通過舉例子的方式,定制大模型海量的應用場景
4、標注數據更少
通過學習少量行業數據,大模型就能夠應對特定業務場景的需求
二、平臺特點
1、異構計算資源調度
一種基于通用服務器和專用硬件的綜合解決方案,用于調度和管理多種異構計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發揮不同異構資源的硬件加速能力,以加快模型的運行速度和生成速度。
2、穩定可靠的數據存儲
支持多存儲類型協議,包括塊、文件和對象存儲服務。將存儲資源池化實現模型和生成數據的自由流通,提高數據的利用率。同時采用多副本、多級故障域和故障自恢復等數據保護機制,確保模型和數據的安全穩定運行。
3、高性能分布式網絡
提供算力資源的網絡和存儲,并通過分布式網絡機制進行轉發,透傳物理網絡性能,顯著提高模型算力的效率和性能。
4、全方位安全保障
在模型托管方面,采用嚴格的權限管理機制,確保模型倉庫的安全性。在數據存儲方面,提供私有化部署和數據磁盤加密等措施,保證數據的安全可控性。同時,在模型分發和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數據的安全性。
三、常用配置
目前大模型訓練多常用H100、H800、A800、A100等GPU顯卡,以下是一些常用的配置。
1、H100服務器常用配置
英偉達H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產品相比,可為多專家 (MoE) 模型提供高 9 倍的訓練速度。通過結合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節點加速每個 GPU 通信的 NVLINK Switch 系統、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業到大規模統一 GPU 集群提供高效的可擴展性。
搭載 H100 的加速服務器可以提供相應的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性,憑借高性能應對數據分析以及通過擴展支持龐大的數據集。通過結合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數據中心平臺能夠以出色的性能和效率加速這些大型工作負載。
CPU:英特爾至強Platinum 8468 48C 96T 3.80GHz 105MB 350W *2
內存:動態隨機存取存儲器64GB DDR5 4800兆赫 *24
存儲:固態硬盤3.2TB U.2 PCIe第4代 *4
GPU :Nvidia Vulcan PCIe H100 80GB *8
平臺 :HD210 *1
散熱 :CPU+GPU液冷一體散熱系統 *1
網絡 :英偉達IB 400Gb/s單端口適配器 *8
電源:2000W(2+2)冗余高效電源 *1
2、A800服務器常用配置
NVIDIA A800 的深度學習運算能力可達 312 teraFLOPS(TFLOPS)。其深度學習訓練的Tensor 每秒浮點運算次數(FLOPS)和推理的 Tensor 每秒萬億次運算次數(TOPS)皆為NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch 結合使用時,此技術可將多達 16 個 A800 GPU 互聯,并將速度提升至 600GB/s,從而在單個服務器上實現出色的應用性能。NVLink 技術可應用在 A800 中:SXM GPU 通過 HGX A100 服務器主板連接,PCIe GPU 通過 NVLink 橋接器可橋接多達 2 個 GPU。
CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2
內存:DDR4 3200 64G *32
數據盤:960G 2.5 SATA 6Gb R SSD *2
硬盤:3.84T 2.5-E4x4R SSD *2
網絡:雙口10G光纖網卡(含模塊)*1
雙口25G SFP28無模塊光纖網卡(MCX512A-ADAT )*1
GPU:HV HGX A800 8-GPU 8OGB *1
電源:3500W電源模塊*4
其他:25G SFP28多模光模塊 *2
單端口200G HDR HCA卡(型號:MCX653105A-HDAT) *4
2GB SAS 12Gb 8口 RAID卡 *1
16A電源線纜國標1.8m *4
托軌 *1
主板預留PCIE4.0x16接口 *4
支持2個M.2 *1
原廠質保3年 *1
3、A100服務器常用配置
NVIDIA A100 Tensor Core GPU 可針對 AI、數據分析和 HPC 應用場景,在不同規模下實現出色的加速,有效助力更高性能的彈性數據中心。A100 采用 NVIDIA Ampere 架構,是 NVIDIA 數據中心平臺的引擎。A100 的性能比上一代產品提升高達 20 倍,并可劃分為七個 GPU 實例,以根據變化的需求進行動態調整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過 2 萬億字節 [TB/s]),可處理超大型模型和數據集。
CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2
RAM:64GB DDR4 RDIMM服務器內存 *16
SSD1:480GB 2.5英寸SATA固態硬盤 *1
SSD2:3.84TB 2.5英寸NVMe固態硬盤 *2
GPU:NVIDIA TESLA A100 80G SXM *8
網卡1:100G 雙口網卡IB 邁絡思 *2
網卡2:25G CX5雙口網卡 *1
4、H800服務器常用配置
H800是英偉達新代次處理器,基于Hopper架構,對跑深度推薦系統、大型AI語言模型、基因組學、復雜數字孿生等任務的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達到3 TB/s。
雖然論性能,H800并不是最強的,但由于美國的限制,性能更強的H100無法供應給中國市場。有業內人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。
CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2
內存 :64GB 3200MHz RECC DDR4 DIMM *32
系統硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4
GPU: NVIDIA Tesla H800 -80GB HBM2 *8
GPU網絡: NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8
存儲網絡 :雙端口 200GbE IB *1
網卡 :25G網絡接口卡 雙端口 *1
5、A6000服務器常用配置
CPU:AMD EPYC 7763 64C 2.45GHz 256MB 280W*2
內存:64GB DDR4-3200 ECC REG RDIMM*8
固態盤:2.5" 960GB SATA 讀取密集 SSD*1
數據盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:NVIDIA RTX A6000 48GB*8
平臺:
機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉換效率),無光驅,含導軌
6、AMD MI210服務器常用配置
CPU:AMD EPYC 7742 64C 2.25GHz 256MB 225W *2
內存:64GB DDR4-3200 ECC REG RDIMM*8
固態盤:2.5" 960GB SATA 讀取密集 SSD*1
數據盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:AMD MI210 64GB 300W*8
平臺:
機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉換效率),無光驅,含導軌
7、AMD MI250服務器常用配置
CPU: AMD EPYC? 7773X 64C 2.2GHz 768MB 280W *2
內存:64GB DDR4-3200 ECC REG RDIMM*8
固態盤:2.5" 960GB SATA 讀取密集 SSD*1
數據盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:AMD MI250 128GB 560W*6
平臺:
機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉換效率),無光驅,含導軌
審核編輯 黃宇
-
amd
+關注
關注
25文章
5500瀏覽量
134656 -
人工智能
+關注
關注
1796文章
47683瀏覽量
240334 -
SAM
+關注
關注
0文章
113瀏覽量
33578 -
高性能計算
+關注
關注
0文章
83瀏覽量
13441 -
大模型
+關注
關注
2文章
2551瀏覽量
3174
發布評論請先 登錄
相關推薦
評論