動(dòng)動(dòng)鼠標(biāo),讓圖片變「活」,成為你想要的模樣。
在 AIGC 的神奇世界里,我們可以在圖像上通過「拖曳」的方式,改變并合成自己想要的圖像。比如讓一頭獅子轉(zhuǎn)頭并張嘴:
實(shí)現(xiàn)這一效果的研究出自華人一作領(lǐng)銜的「Drag Your GAN」論文,于上個(gè)月放出并已被 SIGGRAPH 2023 會(huì)議接收。 一個(gè)多月過去了,該研究團(tuán)隊(duì)于近日放出了官方代碼。短短三天時(shí)間,Star 量便已突破了 23k,足可見其火爆程度。 GitHub 地址:https://github.com/XingangPan/DragGAN 無獨(dú)有偶,今日又一項(xiàng)類似的研究 —— DragDiffusion 進(jìn)入了人們的視線。此前的 DragGAN 實(shí)現(xiàn)了基于點(diǎn)的交互式圖像編輯,并取得像素級(jí)精度的編輯效果。但是也有不足,DragGAN 是基于生成對(duì)抗網(wǎng)絡(luò)(GAN),通用性會(huì)受到預(yù)訓(xùn)練 GAN 模型容量的限制。 在新研究中,新加坡國立大學(xué)和字節(jié)跳動(dòng)的幾位研究者將這類編輯框架擴(kuò)展到了擴(kuò)散模型,提出了 DragDiffusion。他們利用大規(guī)模預(yù)訓(xùn)練擴(kuò)散模型,極大提升了基于點(diǎn)的交互式編輯在現(xiàn)實(shí)世界場景中的適用性。 雖然現(xiàn)在大多數(shù)基于擴(kuò)散的圖像編輯方法都適用于文本嵌入,但 DragDiffusion 優(yōu)化了擴(kuò)散潛在表示,實(shí)現(xiàn)了精確的空間控制。
論文地址:https://arxiv.org/abs/2306.14435
項(xiàng)目地址:https://yujun-shi.github.io/projects/dragdiffusion.html
研究者表示,擴(kuò)散模型以迭代方式生成圖像,而「一步」優(yōu)化擴(kuò)散潛在表示足以生成連貫結(jié)果,使 DragDiffusion 高效完成了高質(zhì)量編輯。 他們?cè)诟鞣N具有挑戰(zhàn)性的場景(如多對(duì)象、不同對(duì)象類別)下進(jìn)行了廣泛實(shí)驗(yàn),驗(yàn)證了 DragDiffusion 的可塑性和通用性。相關(guān)代碼也將很快放出、 下面我們看看 DragDiffusion 效果如何。 首先,我們想讓下圖中的小貓咪的頭再抬高一點(diǎn),用戶只需將紅色的點(diǎn)拖拽至藍(lán)色的點(diǎn)就可以了:
接下來,我們想讓山峰變得再高一點(diǎn),也沒有問題,拖拽紅色關(guān)鍵點(diǎn)就可以了:
還想讓雕塑的頭像轉(zhuǎn)個(gè)頭,拖拽一下就能辦到:
讓岸邊的花,開的范圍更廣一點(diǎn):
方法介紹 本文提出的 DRAGDIFFUSION 旨在優(yōu)化特定的擴(kuò)散潛變量,以實(shí)現(xiàn)可交互的、基于點(diǎn)的圖像編輯。 為了實(shí)現(xiàn)這一目標(biāo),該研究首先在擴(kuò)散模型的基礎(chǔ)上微調(diào) LoRA,以重建用戶輸入圖像。這樣做可以保證輸入、輸出圖像的風(fēng)格保持一致。 接下來,研究者對(duì)輸入圖像采用 DDIM inversion(這是一種探索擴(kuò)散模型的逆變換和潛在空間操作的方法),以獲得特定步驟的擴(kuò)散潛變量。 在編輯過程中,研究者反復(fù)運(yùn)用動(dòng)作監(jiān)督和點(diǎn)跟蹤,以優(yōu)化先前獲得的第 t 步擴(kuò)散潛變量,從而將處理點(diǎn)的內(nèi)容「拖拽(drag)」到目標(biāo)位置。編輯過程還應(yīng)用了正則化項(xiàng),以確保圖像的未掩碼區(qū)域保持不變。 最后,通過 DDIM 對(duì)優(yōu)化后的第 t 步潛變量進(jìn)行去噪,得到編輯后的結(jié)果。總體概覽圖如下所示: 實(shí)驗(yàn)結(jié)果 給定一張輸入圖像,DRAGDIFFUSION 將關(guān)鍵點(diǎn)(紅色)的內(nèi)容「拖拽」到相應(yīng)的目標(biāo)點(diǎn)(藍(lán)色)。例如在圖(1)中,將小狗的頭轉(zhuǎn)過來,圖(7)將老虎的嘴巴合上等等。 ? 下面是更多示例演示。如圖(4)將山峰變高,圖(7)將筆頭變大等等。
-
開源
+關(guān)注
關(guān)注
3文章
3408瀏覽量
42714 -
模型
+關(guān)注
關(guān)注
1文章
3313瀏覽量
49233
原文標(biāo)題:DragGAN重磅開源!擴(kuò)散模型版的DragDiffusion也來了!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
adxl加速度mems測(cè)量低頻振動(dòng)的效果如何?
如何實(shí)現(xiàn)在圖標(biāo)圖像中實(shí)現(xiàn)一個(gè)點(diǎn),效果如下圖
LabVIEW中圖像濾波Vi以及實(shí)現(xiàn)效果如何實(shí)現(xiàn)
VL53L1水下使用效果如何?
ESP-NOW作為STA連接到WiFi時(shí),在不同信道上的傳輸效果如何?
空調(diào)制熱效果如何?空調(diào)制熱多少度最合適?
電銷機(jī)器人的使用效果如何?
i9-9900K開蓋 使用了釬焊散熱后實(shí)際效果如何
EE-26:AD184x Sigma Delta轉(zhuǎn)換器:它們使用直流輸入的效果如何?
![EE-26:AD184x Sigma Delta轉(zhuǎn)換器:它們使用直流輸入的<b class='flag-5'>效果如</b>何?](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
Go項(xiàng)目中引入中間件的目的和效果如何
Catalinbread Formula No 5效果器開源
![Catalinbread Formula No 5<b class='flag-5'>效果</b>器<b class='flag-5'>開源</b>](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
評(píng)論