衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPGPU體系結構優化方向(1)

處理器與AI芯片 ? 來源:處理器與AI芯片 ? 2024-10-09 10:03 ? 次閱讀

繼續上文GPGPU體系結構優化方向 [上],介紹提高并行度和優化流水線的方向。

不同的workload因為存在不同的input size和對寄存器以及memory的需要,有時會導致只有少量的活躍thread block,這降低了執行單元的利用率。因此可以通過同時運行多個workload,增加并行度來提高利用率。另一種方法則是利用scalar opportunity以及運行的warp之間的value similarity。

具體的子方向:

減少資源碎片化增加并行度

Unifying Primary Cache, Scratch and Register File Memory in a Throughput processor提出不同的workload對資源的需求不同,因此可以動態的對不同workload的資源進行劃分。

wKgaomcF5JOAaZHTAAEcjHYtep8333.png

Shared Memory Multiplexing: A Novel Way to ImproveGPGPU Throughput注意到在一個thread block內的warp會在不同的時間點結束,此時,即使是較早完成的warp占用的資源也不會釋放,這導致了資源的低效利用,此時應該可以launch新的warp。

他們將資源的低效利用劃分為temporal和spatial:

temporal低效是因為warp的不同時間結束導致的

spatial的低效則是因為沒有足夠的資源launch新的warp

他們提出了在資源不夠launch一個新的thread block時,只launch部分thread block的方法。GPU Multitaksing

多任務同時在GPU上執行

可以有效的提高GPU的利用率。

有助于操作系統調用GPU時,對GPU的虛擬化以及在云上deploy GPU

Improving GPGPU Concurrency with Elastic Kernels將task不能夠進行并行化的原因分成了幾類:

Serialization due to Lack of Resources

Serialization due to Inter-stream Scheduling

Serialization due to Memory Transfers

Serialization in the CUDA API

Serialization in the Implementation

他們觀察到如果bfs只占用了部分資源,但是fft和cutcp占用了全部資源,那么即使bfs較晚進入queue中,也可以不按照fifo的調度順序,將bfs優先調度,空置的資源同時執行cutcp,這樣提高了并行度。

wKgZomcF5JeAZhCoAAAk1tfPH1Y192.jpg

此外,觀察到GPU的DMA只能在一個時間段內進行拷貝到GPU和拷出GPU中的一種。如果下圖中的bfs等到數據的拷貝,但是此時lbm正在將數據拷出,會導致bfs的等待,因此可以將DMA的任務切片,提高并行度。

wKgaomcF5JeAY6qGAAAqiR68Wb4360.jpg

此外,Increasing GPU throughput using kernel interleaved thread block scheduling等也發現可以將memory intensive和compute intensive的workloads混合調度,這樣提高資源的利用效率。

在調度workloads時,也需要注意到workload的優先級,如果優先級較高的workload等待時間較長,那么應當切換到優先級高的workload。Enabling preemptive multiprogramming on GPUs提出了兩種搶占的方式,context swtiching和draning。

wKgZomcF5LeAKbKYAACvxOkV70U484.jpg

Chimera: Collaborative Preemptionfor Multitasking on a Shared GPU提出了被搶占的workload可以不需要保存上下文,直接放棄,在獲得資源后重新從頭開始執行。

利用scalar and value similarity opprotunities

Characterizing Scalar Opportunities inGPGPU Applications提出了 scalar opportunity,即在各個threads中同時對相同的數據執行相同的計算,也就得到相同的結果,寫回相同的值。AMD將這類計算單獨放在GPU core中的標量單元中進行計算。

“We define a scalar opportunity as a SIMD instructionoperating on the same data in all of its active threads. Atypical example of scalar opportunities is loading a constantvalue when each active thread loads the same value frommemory and then stores it in the corresponding component ofthe destination vector register. Finally those components storethe same value.”

基于這個的工作主要有幾類:

檢測方法:硬件或者軟件編譯器

執行方法:單獨的標量單元或者單獨使用一個core計算

專門的寄存器或者和其他指令共用寄存器

取址譯碼執行和其他指令的資源共享或者單獨設計

支持的指令類型

Improving execution pipeling

現代 GPU為了有效地共享資源,在 GPU 管道中插入了buffering和collisionavoidance stage,從而增加指令的讀后寫 (RAW) 延遲。通常大家認為GPU通過warp的調度可以隱藏RAW延遲,因而GPU沒有設計data forward networking。但是Exploiting GPUPeak-power and Performance Tradeoffs through Reduced Effective Pipeline Latency觀察到許多 GPGPU 應用程序沒有足夠的活動線程來準備發出指令來隱藏這些 RAW 延遲。

因此他們使用most recent result forwarding(MORF)來實現data forwarding,同時相對于傳統的data forwarding,降低了功耗。

wKgaomcF5MCAEupeAACy72_5q1c355.jpg

Warped-Preexecution: A GPU Pre-execution Approachfor Improving Latency Hiding文章提出在warp的線程進入長期等待的idle狀態時,可以進入P-mode。在P-mode模式下,識別出程序中后續的不存在依賴關系的指令,先執行后續的指令,也即實現了亂序執行。

wKgZomcF5L-AaUFxAADzixioPS8150.jpg

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 寄存器
    +關注

    關注

    31

    文章

    5363

    瀏覽量

    121155
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4774

    瀏覽量

    129350
  • 流水線
    +關注

    關注

    0

    文章

    121

    瀏覽量

    25955
  • GPGPU
    +關注

    關注

    0

    文章

    29

    瀏覽量

    4918

原文標題:GPGPU體系結構優化方向 [中]

文章出處:【微信號:處理器與AI芯片,微信公眾號:處理器與AI芯片】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ARM體系結構和編程

    本帖最后由 eehome 于 2013-1-5 09:47 編輯 ARM體系結構和編程
    發表于 12-04 03:35

    ARM嵌入式體系結構與接口技術.ARM SoC體系結構(中文版)

    ARM嵌入式體系結構與接口技術.pdf{:1:}{:1:}{:1:}ARM SoC體系結構(中文版).pd
    發表于 03-23 16:04

    ARM SOC體系結構

    ARMSOC 體系結構
    發表于 11-22 10:54

    嵌入式微處理器體系結構

    目錄一、嵌入式微處理器體系結構1、馮諾依曼體系結構2、哈弗體系結構二、嵌入式系統的硬件結構1、嵌
    發表于 11-08 06:57

    Microarchitecture指令集體系結構

    第二章 ARM微處理器概述與編程模型ARM體系結構及其發展歷史處理器的體系結構處理器微架構 Microarchitecture指令集體系結構 Architecture幾種常見的指令集X86Inter
    發表于 12-14 07:13

    Arm的DRTM體系結構規范

    本規范定義了基于Arm A配置文件體系結構的處理器的動態測量信任根(DRTM)體系結構。本規范基于TCG D-RTM體系結構[4]的概念,但作為一個獨立的獨立文檔發揮作用。它使用了TCG體系結
    發表于 08-08 07:45

    ARM體系結構與編程

    ARM體系結構與編程
    發表于 02-11 09:35 ?169次下載
    ARM<b class='flag-5'>體系結構</b>與編程

    LTE體系結構

    LTE體系結構 LTE體系結構可以借助SAE 體系結構來做詳細描述。在SAE 體系結構中,RNC部分功能、GGSN、SGSN 節點將被融合為一個新的節點,
    發表于 06-16 13:09 ?9873次閱讀

    網絡體系結構,什么是網絡體系結構

    網絡體系結構,什么是網絡體系結構 通過通信信道和設備互連起來的多個不同地理位置的計算機系統,要使其能協同工作實現信息交換和資源共享
    發表于 04-06 16:30 ?1725次閱讀

    ARM體系結構與程序設計

    《ARM體系結構與程序設計》是ARM體系結構與程序設計的一本實用指導書籍,通過案例詳細介紹了ARM體系結構與程序設計,案例中的程序都取自實際的項目,且對程序有詳細注解。
    發表于 10-27 16:37 ?2378次閱讀

    ARM體系結構(1)PPT課件

    ARM體系結構(1),有需要的朋友下來看看。
    發表于 01-08 14:46 ?0次下載

    XScale體系結構及編譯優化問題

    XScale是一款具有業界領先高性能特性的ARM兼容嵌入式微處理器構架被應用處理 能力要求很高的嵌入式應用領域如PDA、高帶寬網絡交換等。本文分析了RISC、 ARM和XScale體系結構的特點
    發表于 04-18 10:28 ?0次下載

    軟件體系結構的分析

    軟件系統因具有節點眾多、節點間聯系復雜、隨時間演化、自組織臨界等特性可將其視為復雜系統。在軟件安全領域,對軟件體系結構的分析一直是研究的重點。軟件體系結構具有自身的脆性,這體現在軟件系統的運行過程
    發表于 11-24 10:34 ?15次下載
    軟件<b class='flag-5'>體系結構</b>的分析

    基于DoDAF的衛星應用信息鏈體系結構

    針對偵察衛星應用信息鏈體系結構建模問題,提出了基于DoDAF (department of defense architect framework)的體系結構描述方法和基于ABM (activity
    發表于 01-10 16:58 ?1次下載

    GPGPU體系結構優化方向(2)

    目前的GPU缺乏cache一致性,需要diable 線程private的L1 cache,或者采用基于軟件的bulk coherence決策(比如在同步點,flush掉所有的private L1 cache。
    的頭像 發表于 10-09 10:06 ?402次閱讀
    <b class='flag-5'>GPGPU</b><b class='flag-5'>體系結構</b><b class='flag-5'>優化</b><b class='flag-5'>方向</b>(2)
    百家乐官网套路| 百家乐官网马渚| 博彩老头排列三| 百家乐任你博娱乐网| 2024年九运的房屋风水吉凶| 真人百家乐官网娱乐好玩| 澳门赌场美女| 百家乐投注平台信誉排行| 巨星百家乐官网的玩法技巧和规则| 金城百家乐官网平台| 津南区| 沙龙国际在线| 大发888最新网址| 战神百家乐的玩法技巧和规则| 百家乐官网风云人物| 鹤庆县| 新葡京百家乐官网现金网| 大发888线上娱乐城| 跨国际百家乐的玩法技巧和规则| 百家乐网上娱乐城| 百家乐概率投注| 欧洲百家乐官网的玩法技巧和规则 | 破解百家乐官网游戏机| 游戏机百家乐官网作弊| 武夷山市| 真钱棋牌导航| 信誉棋牌游戏| 云博娱乐城,| 大发888真人游戏平台| 新时代百家乐的玩法技巧和规则 | 百家乐如何写路| 赌神网百家乐官网2| 百家乐官网如何打轮盘| 百家乐官网椅子| 澳门百家乐官网现场游戏| 澳门百家乐官网赢技巧| 百家乐官网的寻龙定穴| 博发百家乐官网游戏| 珲春市| 交城县| 历史|