衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于擴散模型的圖像生成過程

OpenCV學堂 ? 來源:OpenCV學堂 ? 作者:OpenCV學堂 ? 2023-07-17 11:00 ? 次閱讀

近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現了更高圖像生成質量,提高了推理性能,也可以激發擴展創作靈感。

不過僅憑文本來控制圖像的生成往往得不到想要的結果,比如具體的人物姿勢、面部表情等很難用文本指定。

最近,谷歌發布了MediaPipe Diffusion插件,可以在移動設備上運行「可控文本到圖像生成」的低成本解決方案,支持現有的預訓練擴散模型及其低秩自適應(LoRA)變體

背景知識

基于擴散模型的圖像生成過程可以認為是一個迭代去噪過程。

從噪聲圖像開始,在每個步驟中,擴散模型會逐漸對圖像進行降噪以生成符合目標概念的圖像,將文本提示作為條件可以大大提升圖像生成的效果。

對于文本到圖像生成,文本嵌入通過交叉注意層連接到圖像生成模型上,不過仍然有部分信息難以通過文本提示來描述,比如物體的位置和姿態等。

為了解決這個問題,研究人員提出引入額外的模型添加到擴散模型中,在條件圖像中注入控制信息。

常用的控制文生圖方法包括:

1. 即插即用(Plug-and-Play)用到去噪擴散隱式模型(DDIM)inversion方法,從輸入圖像開始反轉生成過程來導出初始噪聲輸入,然后采用擴散模型(Stable Diffusion1.5的情況下需要8.6億參數)對來自輸入圖像的條件進行編碼。

即插即用從復制的擴散中提取具有自注意力的空間特征,并將其注入到文本轉圖像的擴散過程中。

2. ControlNet會創建擴散模型編碼器的一個可訓練副本,通過零初始化參數后的卷積層連接,將傳遞到解碼器層的條件信息進行編碼。

3. T2I Adapter是一個較小的網絡(7700萬參數),在可控生成中可以實現類似的效果,只需要將條件圖像作為輸入,其輸出在所有擴散迭代中共享。

不過T2I適配器模型并不是為便攜式移動設備設計的。

MediaPipe Diffusion插件

為了使條件生成更高效、可定制且可擴展,研究人員將MediaPipe擴散插件設計為一個單獨的網絡:

1. 可插入(Plugable):可以很容易地與預訓練基礎模型進行連接;

2. 從零開始訓練(Trained from scratch):不使用來自基礎模型的預訓練權重;

3. 可移植性(Portable):可以在移動設備上運行基礎模型,并且推理成本相比原模型來說可以忽略不計。

1bb527f0-23a9-11ee-962d-dac502259ad0.png

即插即用、ControlNet、T2I適配器和MediaPipe擴散插件的對比,*具體數字會根據選用模型不同而發生變化

簡單來說,MediaPipe擴散插件就是一個用于文本到圖像生成的,可在便攜式設備上運行的模型,從條件圖像中提取多尺度特征,并添加到相應層次擴散模型的編碼器中;當連接到文生圖擴散模型時,插件模型可以向圖像生成提供額外的條件信號

插件網絡是一個輕量級的模型,只有600萬參數,使用MobileNetv2中的深度卷積和反向瓶頸(inverted bottleneck)在移動設備上實現快速推理。


MediaPipe擴散模型插件是一個單獨的網絡,輸出可以插入到預訓練的文本到圖像生成模型中,提取的特征應用于擴散模型的相關下采樣層(藍色)。

與ControlNet不同,研究人員在所有擴散迭代中注入相同的控制功能,所以對于圖像生成過程只需要運行一次插件,節省了計算量。

下面的例子中可以看到,控制效果在每個擴散步驟都是有效的,即使在前期迭代步中也能夠控制生成過程;更多的迭代次數可以改善圖像與文本提示的對齊,并生成更多的細節。


使用MediaPipe擴散插件進行生成過程的演示

示例

在這項工作中,研究人員開發了基于擴散的文本到圖像生成模型與MediaPipe face landmark,MediaPipe holistic landmark,深度圖和Canny邊緣的插件。

對于每個任務,從超大規模的圖像-文本數據集中選擇約10萬張圖像,并使用相應的MediaPipe解決方案計算控制信號,使用PaLI優化后的描述來對插件進行訓練。

Face Landmark

MediaPipe Face Landmarker任務計算人臉的478個landmark(具有注意力)。

研究人員使用MediaPipe中的drawing utils來渲染人臉,包括臉部輪廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的顏色進行表示。

下面這個例子展現了通過調節面網格和提示隨機生成的樣本;作為對比,ControlNet和Plugin都可以在給定條件下控制文本到圖像的生成。

用于文本到圖像生成的Face-landmark插件,與ControlNet進行比較。

Holistic Landmark

MediaPipe Holistic Landmark任務包括身體姿勢、手和面部網格的landmark,可以通過調節整體特征來生成各種風格化的圖像。



用于文本到圖像生成的Holistic landmark插件。

深度

深度插件的文本到圖像生成。

Canny Edge

用于生成文本到圖像的Canny-edge插件。

評估

研究人員對face landmark插件進行定量評估以證明該模型的性能,評估數據集包含5000張人類圖像,使用的評估指標包括Fréchet起始距離(FID)和CLIP分數。

基礎模型使用預訓練的文本到圖像擴散模型Stable Diffusion v1.5

1f42b270-23a9-11ee-962d-dac502259ad0.png

FID、CLIP和推理時間的定量比較

從實驗結果中的FID和CLIP分數來看,ControlNet和MediaPipe擴散插件生成的樣本質量比基礎模型好得多。

與ControlNet不同,插件模型只需要為每個生成的圖像運行一次,不需要在每個去噪步中都運行,所以推理時間只增加了2.6%

研究人員在服務器機器(使用Nvidia V100 GPU)和移動端設備(Galaxy S23)上測量了三種模型的性能:在服務器上,使用50個擴散步驟運行所有三個模型;在移動端上,使用MediaPipe圖像生成應用程序運行20個擴散步驟。

與ControlNet相比,MediaPipe插件在保持樣本質量的同時,在推理效率方面表現出明顯的優勢。

1f64944e-23a9-11ee-962d-dac502259ad0.png

插件在不同移動的設備上的推理時間(ms)

總結

在這項工作中,研究人員提出了MediaPipe,一個可在移動端使用的、有條件的文本到圖像生成插件,將從條件圖像中提取的特征注入擴散模型,從而控制圖像的生成過程。

便攜式插件可以連接到在服務器或設備上運行的預訓練的擴散模型,通過在設備上完全運行文本到圖像生成和插件,可以更靈活地應用生成式AI

責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1147

    瀏覽量

    40931
  • 編碼器
    +關注

    關注

    45

    文章

    3667

    瀏覽量

    135237
  • 服務器
    +關注

    關注

    12

    文章

    9303

    瀏覽量

    86061
  • AI
    AI
    +關注

    關注

    87

    文章

    31513

    瀏覽量

    270328
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49220

原文標題:推理效率比ControlNet高20+倍!谷歌發布MediaPipe Diffusion插件,「移動端」可用的圖像生成控制模型

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何在PyTorch中使用擴散模型生成圖像

    除了頂尖的圖像質量,擴散模型還帶來了許多其他好處,包括不需要對抗性訓練。對抗訓練的困難是有據可查的。在訓練效率的話題上,擴散模型還具有可伸縮
    發表于 11-22 15:51 ?541次閱讀
    如何在PyTorch中使用<b class='flag-5'>擴散</b><b class='flag-5'>模型</b><b class='flag-5'>生成</b><b class='flag-5'>圖像</b>

    基于生成器的圖像分類對抗樣本生成模型

    ,并保證攻擊成功率。模型將對抗樣本生成過程視為對原圖進行圖像増強的操作引入生成對抗網絡,并改進感知損失函數以增加對抗樣本與原圖在內容與特征
    發表于 04-07 14:56 ?2次下載
    基于<b class='flag-5'>生成</b>器的<b class='flag-5'>圖像</b>分類對抗樣本<b class='flag-5'>生成</b><b class='flag-5'>模型</b>

    基于生成式對抗網絡的圖像補全方法

    圖像補全是數字圖像處理領域的重要研究方向,具有廣闊的應用前景。提出了一種基于生成式對抗網絡(GAN)的圖像補全方法。生成式對抗網絡
    發表于 05-19 14:38 ?14次下載

    基于像素級生成對抗網絡的圖像彩色化模型

    基于像素級生成對抗網絡的圖像彩色化模型
    發表于 06-27 11:02 ?4次下載

    擴散模型在視頻領域表現如何?

    在視頻生成領域,研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現這一里程碑,顯示出非常有希
    的頭像 發表于 04-13 10:04 ?1732次閱讀

    如何改進和加速擴散模型采樣的方法2

      事實上,擴散模型已經在深層生成性學習方面取得了重大進展。我們預計,它們可能會在圖像和視頻處理、 3D 內容生成和數字藝術以及語音和語言建
    的頭像 發表于 05-07 14:38 ?3319次閱讀
    如何改進和加速<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>采樣的方法2

    新晉圖像生成王者擴散模型

    他們確定了最佳的時間離散化(time discretization),對采樣過程應用了更高階的Runge–Kutta方法,并在三個預訓練模型上評估不同的方法,分析了隨機性在采樣過程中的有用性。
    的頭像 發表于 06-06 10:54 ?1265次閱讀

    擴散模型和其在文本生成圖像任務上的應用

    擴散過程有一個顯著特性,我們可以對任意 進行采樣。為了證明該性質需要使用參數重整化技巧:假設要從高斯分布 中采樣 時,可以先從 采樣出 ,然后計算 ,這樣可以解決梯度無法回傳問題。
    的頭像 發表于 08-03 15:34 ?2897次閱讀

    蒸餾無分類器指導擴散模型的方法

    去噪擴散概率模型(DDPM)在圖像生成、音頻合成、分子生成和似然估計領域都已經實現了 SOTA 性能。同時無分類器(classifier-f
    的頭像 發表于 10-13 10:35 ?1250次閱讀

    基于文本到圖像模型的可控文本到視頻生成

    1. 論文信息 2. 引言 ? 大規模擴散模型在文本到圖像合成方面取得了巨大的突破,并在創意應用方面取得了成功。一些工作試圖在視頻領域復制這個成功,即在野外世界建模高維復雜視頻分布。然而,訓練這樣
    的頭像 發表于 06-14 10:39 ?1008次閱讀
    基于文本到<b class='flag-5'>圖像</b><b class='flag-5'>模型</b>的可控文本到視頻<b class='flag-5'>生成</b>

    如何加速生成2 PyTorch擴散模型

    加速生成2 PyTorch擴散模型
    的頭像 發表于 09-04 16:09 ?1146次閱讀
    如何加速<b class='flag-5'>生成</b>2 PyTorch<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>

    DDFM:首個使用擴散模型進行多模態圖像融合的方法

    近來去噪擴散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進步,通過對一張noise-corrupted
    的頭像 發表于 09-19 16:02 ?5073次閱讀
    DDFM:首個使用<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>進行多模態<b class='flag-5'>圖像</b>融合的方法

    基于DiAD擴散模型的多類異常檢測工作

    現有的基于計算機視覺的工業異常檢測技術包括基于特征的、基于重構的和基于合成的技術。最近,擴散模型因其強大的生成能力而聞名,因此本文作者希望通過擴散
    的頭像 發表于 01-08 14:55 ?1539次閱讀
    基于DiAD<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的多類異常檢測工作

    KOALA人工智能圖像生成模型問世

    近日,韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成
    的頭像 發表于 03-05 10:46 ?836次閱讀

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示
    的頭像 發表于 01-03 10:38 ?403次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質量<b class='flag-5'>圖像</b>
    太阳城百家乐的破解| 百家乐官网怎么完才能嬴| 大发888网页游戏平台| 做生意属虎的朝向| 百家乐官网类游戏网站| 大发888娱| 真人百家乐娱乐场| 百家乐官网赢输| 百家乐官网技术方式| 大发888bet下载| 百家乐网上真钱娱乐场| 卢克索百家乐官网的玩法技巧和规则 | 网络百家乐游戏机怎么破解| 百家乐官网龙虎扑克牌游戏技巧打| 黄龙县| 全讯网新2开户| 澳门百家乐有赢钱的吗| 战神百家乐官网的玩法技巧和规则 | 巴西百家乐官网的玩法技巧和规则| 百家乐官网发牌的介绍| 天将娱乐城开户| 恒丰百家乐的玩法技巧和规则| 百家乐赢钱好公式| 狮威百家乐官网赌场娱乐网规则 | 大发888dafa8668| 百家乐娱乐官网网| 百家乐娱乐城彩金| 百家乐官网玩的技巧| 网上百家乐官网靠谱吗| 菲律宾云顶国际| 水果机榨汁机| 百家乐网上漏洞| 百家乐麻关于博彩投注| 百家乐官网作弊手段| 瑞丰国际娱乐场| 大发888娱乐场下载 游戏平台| 利澳百家乐的玩法技巧和规则| 百家乐波音平台导航网| 百家乐官网技巧方法| 百家乐官网的注码技巧| 宝格丽百家乐官网娱乐城|