衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

人工智能與大數據技術 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-30 10:03 ? 次閱讀

OneFlow 將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

第一輛汽車誕生之初,時速只有 16 公里,甚至不如馬車跑得快,很長一段時間,汽車尷尬地像一種“很酷的玩具”。人工智能作圖的出現也是如此。

AI 作圖一開始的 “風格化” 本身就為 “玩” 而生,大家普遍興致勃勃地嘗試頭像生成、磨皮,但很快就失去興趣。直到擴散模型的降臨,才給 AI 作圖帶來質變,讓人們看到了 “AI 轉成生產力” 的曙光:畫家、設計師不用絞盡腦汁思考色彩、構圖,只要告訴 Diffusion 模型想要什么,就能言出法隨般地生成高質量圖片。

然而,與汽車一樣,如果擴散模型生成圖片時“馬力不足”,那就沒法擺脫玩具的標簽,成為人類手中真正的生產工具。

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時間在不斷加速,問題是,究竟快到什么程度,才會在專業的美術從業者甚至普通大眾之間普及開來?

顯然,現在還無法給出具體答案。即便如此,可以確定的是 AI 作圖在技術和速度上的突破,很可能已經接近甚至超過閾值,因為這一次,OneFlow 帶來了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一馬當先

下面的圖表分別展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同類型的 GPU 硬件上,分別使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四種深度學習框架或者編譯器,對 Stable Diffusion 進行推理時的性能表現。

659d18c6-7050-11ed-8abf-dac502259ad0.png

65b0bbce-7050-11ed-8abf-dac502259ad0.png

對于 A100 顯卡,無論是 PCIe 40GB 的配置還是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最優性能之上繼續提升 15% 以上。

特別是在 SXM 80GB A100 上,OneFlow 首次讓 Stable Diffusion 的推理速度達到了 50it/s 以上,首次把生成一張圖片需要采樣 50 輪的時間降到 1 秒以內,是當之無愧的性能之王。

65bb3a0e-7050-11ed-8abf-dac502259ad0.png

在 T4 推理卡上,由于 AITemplate 暫不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

65c97db2-7050-11ed-8abf-dac502259ad0.png

而在 RTX2080 上,TensorRT 在編譯 Stable Diffsuion 時會 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。

綜上,在各種硬件以及更多框架的對比中,OneFlow 都將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

生成圖片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天馬行空的想法很快轉化成藝術圖片,譬如:

以假亂真的陽光、沙灘和椰樹:

倉鼠救火員、長兔耳朵的狗子:

在火星上吃火鍋:

未來異世界 AI:

集齊 OneFlow 七龍珠:

圖片均基于 OneFlow 版 Stable Diffusion 生成。如果你一時沒有好的 idea,可以在 lexica 上參考一下廣大網友的創意,不僅有生成圖片還提供了對應的描述文字。

無縫兼容 PyTorch 生態,實現一鍵模型遷移

想體驗 OneFlow Stable Diffusion?只需要修改三行代碼,你就可以將 HuggingFace 中的 PyTorch Stable Diffusion 模型改為 OneFlow 模型,分別是將 import torch 改為 import oneflow as torch 和將 StableDiffusionPipeline 改為 OneFlowStableDiffusionPipeline:

669e52e4-7050-11ed-8abf-dac502259ad0.png

之所以能這么輕松遷移模型,是因為 OneFlow Stable Diffusion 有兩個出色的特性:

OneFlowStableDiffusionPipeline.from_pretrained 能夠直接使用 PyTorch 權重。

OneFlow 本身的 API 也是和 PyTorch 對齊的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表達式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生態,這不僅在 OneFlow 對 Stable Diffusion 的遷移中發揮了作用,也大大加速了 OneFlow 用戶遷移其它許多模型,比如在和 torchvision 對標的 flowvision 中,許多模型只需通過在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 還提供全局 “mock torch” 功能,在命令行運行 eval $(oneflow-mock-torch) 就可以讓接下來運行的所有 Python 腳本里的 import torch 都自動指向 oneflow。

使用 OneFlow 運行 Stable Diffusion

在 docker 中使用 OneFlow 運行 StableDiffusion 模型生成圖片:

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更詳盡的使用方法請參考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后續工作

后續 OneFlow 團隊將積極推動 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 倉庫內容合并到 huggingface 上游的的對應倉庫。這也是 OneFlow 首次以 transformers/diffusers 的后端的形式開發模型,歡迎各位開發者朋友在 GitHub 上反饋意見。

值得一提的是,在優化和加速 Stable Diffusion 模型的過程中使用了 OneFlow 自研編譯器,不僅讓 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以讓這樣的模型在國產 AI 芯片和 GPU 上跑得更快,這些將在之后的文章中揭秘技術細節。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270335
  • 人工智能
    +關注

    關注

    1796

    文章

    47674

    瀏覽量

    240293
  • 開源
    +關注

    關注

    3

    文章

    3407

    瀏覽量

    42712

原文標題:1秒出圖,這個開源項目太牛了!

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NVIDIA Jetson Orin Nano開發者套件的新功能

    生成式 AI 領域正在迅速發展,每天都有新的大語言模型(LLM)、視覺語言模型(VLM)和視覺語言動作模型(VLA)出現。為了在這充滿變革的時代保持領先,開發者需要足夠強大的平臺
    的頭像 發表于 12-23 12:54 ?328次閱讀
    NVIDIA Jetson Orin Nano開發者套件的新功能

    利用Arm Kleidi技術實現PyTorch優化

    PyTorch 是廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協作,持續改進 PyTorch 的推理性能。本文詳細介紹如何利用 Arm Kleidi 技術
    的頭像 發表于 12-23 09:19 ?332次閱讀
    利用Arm Kleidi技術實現PyTorch優化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是專為優化大語言模型 (LLM) 推理而設計的庫。它提供多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?278次閱讀

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?169次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型<b class='flag-5'>推理</b>部署

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器上運行 LLM 的性能。Arm 通過 Kleidi 技術直接集成到 PyTorch 中,
    的頭像 發表于 12-03 17:05 ?927次閱讀
    Arm KleidiAI助力提升PyTorch上LLM<b class='flag-5'>推理性能</b>

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發布針對大語言
    的頭像 發表于 09-29 10:14 ?590次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業
    的頭像 發表于 09-06 15:33 ?425次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的應用價值。”
    的頭像 發表于 08-23 15:48 ?512次閱讀

    實操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是種多模態擴散變換器(MMDiT)文本到圖像模型,在圖像質量、排版、復雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團隊
    的頭像 發表于 07-23 08:34 ?320次閱讀
    實操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

    NB81是否支持OneNet SOTA功能?應該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應該如何激活SOTA
    發表于 06-04 06:14

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不樣,為什么?

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不樣,用示波器采的輸入到MCU端的差分電壓是樣的,難道是
    發表于 05-17 08:13

    自然語言處理應用LLM推理優化綜述

    當前,業界在傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進步提升推理性能
    發表于 04-10 11:48 ?683次閱讀
    自然語言處理應用LLM<b class='flag-5'>推理</b>優化綜述

    UL Procyon AI 發布圖像生成基準測試,基于Stable Diffusion

    UL去年發布的首個Windows版Procyon AI推理基準測試,以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試提供統、精確且易于理解的工作負載,用以保證各支持硬件間
    的頭像 發表于 03-25 16:16 ?960次閱讀

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新Stable Video 3D 模型,該模型以其獨特的功能吸引眾多關注。此模型具備從單張圖像中生成多視圖3D視頻的能力,為視頻制作領域帶來了革命性的突破。
    的頭像 發表于 03-22 10:30 ?938次閱讀

    瑞薩電子宣布推出款面向高性能機器人應用的新產品—RZ/V2H

    具有10TOPS/W能效的新代AI加速器無需冷卻風扇即可提供高達80TOPS的AI推理性能
    的頭像 發表于 03-01 10:41 ?898次閱讀
    瑞薩電子宣布推出<b class='flag-5'>一</b>款面向高<b class='flag-5'>性能</b>機器人應用的新產品—RZ/V2H
    大发888网站是多少呢| 吕梁市| A8百家乐官网现金网| 澳门百家乐官网哪家信誉最好| 新时代娱乐城开户| 平舆县| 盈禾| 百家乐官网投注打三断| 蓝盾百家乐官网赌城| 百家乐官网真人百家乐官网赌博| 百家乐轮盘怎么玩| 百家乐娱乐网网77scs| 大赢家娱乐城信誉| 汝城县| 百家乐官网必知技巧| 百家乐买闲打法| 顶级赌场连环夺宝ios下载| 博狗玩百家乐官网好吗| 百家乐官网羸钱法| 视频百家乐赌法| 最新娱乐城注册送体验金| 百家乐官网最保险的方法| 澳门百家乐官网论| 博九百家乐的玩法技巧和规则| 赌博启示录| bet365 备用| 百家乐官网保单机作弊| 百家乐路单破| 平塘县| 百家乐代理加盟| 大发888娱乐城大发888大发网| 百家乐官网转盘技巧| 真人百家乐海立方| 德州扑克攻略| 职业赌百家乐官网技巧| 游戏百家乐的玩法技巧和规则| 棋牌新闻| 百家乐官网游戏介绍与分析| 百家乐统计软件| 波音网百家乐官网合作| 皇城百家乐官网娱乐城|