3D AI生成出新玩法了:只要45秒,單
機器之心專欄
機器之心編輯部
45 秒單張圖片變 3D,無需大量 3D 數據和逐物體優化。
3D AI 生成最近發展得如火如荼,不少最新工作都能夠從一句話 / 一張圖生成高質量的三維模型。然而從去年下半年的 和 到最新的 ,絕大多數工作都通過對每個物體進行優化的方式來生成 3D 模型。這種方式使得現有的 3D AI 生成方法都非常耗時,譬如 的作者就曾在知乎上表示方法目前的主要局限之一便是生成時間太慢了!
“一般而言,使用 - 生成一張圖片在 PC 上只需要幾秒鐘,哪怕微調 LoRA 也很快;然而,我們生成一個 3D 物體需要數個小時,尤其是分辨率越高越慢。這主要是因為我們本質上還是借助于隨機梯度下降來優化 3D 表示(NeRF 或 Mesh)的參數,這樣的優化過程需要很多步的迭代,并且對 GPU 的顯存也有一定要求。我們最終展示的效果是 512 分辨率的結果,這些結果的優化確實非常耗時,所以目前個人使用者還是很難在 PC 上直接使用我們的算法?!?/p>
高昂的推斷成本不僅使得研究者的實驗迭代變慢,也阻礙了 3D AIGC 技術對于很多實時應用的商業落地和推廣。
然而就在最近,來自 UCSD 等機構的研究者發布了一項最新工作,One-2-3-45,它擺脫了逐物體優化的生成范式,能夠在 45 秒內從任意單張圖片 / 文本生成 3D 紋理網格,且在測試時無需針對每個物體進行優化。
Page:
:
Code:
Demo:
單張圖片生成 3D
通過與現有的文生圖模型(如 DALL-E2)結合,One-2-3-45 也支持從任意文本生成 3D 模型。
文本生成 3D
論文一發布,就被推特大佬 AK 宣傳轉發,并受到網友的廣泛關注。
網友 Xin Kong 評論到:“這是最好的時代,也是最壞的時代。這可能是 3D 擴散生成中的 NGP 時刻。30 分鐘 ->45 秒,無分數蒸餾,2D 視圖到 3D 是必經之路!”
方法
由于 3D 數據的稀缺性,學術界最近的絕大多數 3D AI 生成工作都通過利用 2D 擴散生成模型來指導 3D 表示(如 NeRF)的優化,從而實現 3D 內容生成。One-2-3-45 沒有遵循這個范式,而是先利用 2D 擴散模型生成多視角圖像,然后希望利用這些多視角圖像來重建 3D 模型。
具體而言,One-2-3-45 利用了一個基于視角控制的 2D 擴散生成模型,。該模型通過微調 ,實現了輸入單張圖片和一個相機的相對位姿變換,便能夠預測該物體在變換后的視角下的對應圖像的能力。
通過借助這類 2D 擴散生成模型,我們能夠從一張圖片預測生成對應的多視角圖像。
一個很自然的想法,便是將這些多視角圖像傳給經典的基于 NeRF 的重建方法來生成 3D 模型。然而研究者發現這樣并不能生成高質量的 3D 模型(如下圖所示)。
這其實是因為網絡預測的多視角圖像具有潛在的不一致性。然而對于基于 NeRF 的優化類重建方法,一些微小的不一致便已足以使得方法崩潰。
如上圖所示,通過將預測的多視角圖像與真實數據進行對比,研究者發現 預測的多視角圖像雖然不具備像素級別的高精確度(PSNR 不高)。但整體輪廓(mIoU)以及語義 / 感知相似性(CLIP 相似度)都很高,尤其當相機相對位姿變換較小時。這些結果說明了用網絡預測的多視角圖像進行三維重建的可能性。
在 One-2-3-45 中,研究者使用了基于 cost 的可泛化 NeRF 類的方法來實現三維重建。這類方法將多視角圖像作為輸入,在訓練后能夠直接推斷 3D 內容而無需額外優化。由于這類方法通過從訓練數據學習了有關多視角預測不一致性的先驗知識,他們更有希望能從不一致的多視角預測中生成 3D 模型。
One-2-3-45 方法流程圖
具體來說,One-2-3-45 首先通過對多視角圖像抽取 2D 圖像特征,并通過相機位姿來構建 3D cost 。然后 One-2-3-45 通過 3D 卷積神經網絡來從 3D cost 推斷輸入多視角圖像對應的潛在 3D 幾何,并最后通過 MLP 來預測物體的 SDF 和顏色,進行體積渲染。
通過結合 2D 擴散生成模型和基于 cost 的可泛化 NeRF,One-2-3-45 能夠在一次前向傳播中生成 3D 模型。擺脫了耗時的逐物體 3D 優化后,One-2-3-45 生成一個高質量 3D 紋理網格的時間從數小時降到了 45 秒!
然而在實現這個想法的過程中,研究人員卻遇到了一些具體的挑戰:
1. 現有的可泛化 NeRF 方法大都是將具有一致性的多視角圖像作為輸入(渲染自真實物體)。但如何將這類方法擴展到不完全一致的多視角預測上呢?
2. 現有的可泛化 NeRF 方法很多都專注于前景區域的重建。但在 3D 生成的問題中,我們希望得到 360 度的完整模型。
3. 由于 采用了球坐標系來描述相對相機位姿。為了提供多視角圖像的相機位姿給重建模塊,我們需要得到輸入圖片對應的相機俯仰角()。
為了解決這些挑戰,研究者提出了一系列關鍵的訓練策略(如分階段預測多視角圖像)和一個俯仰角預測模塊。詳情請參考原論文。
研究者還特別指出由于重建模塊主要依賴于局部的對應關系(),因此其只需少量的數據進行訓練,并具有很強的可泛化性。
與現有 3D AI 生成方法的比較
研究者表示,得益于 “2D 多視角預測 + 3D 可泛化重建” 的技術路線,One-2-3-45 與現有的 3D AI 生成方法相比,除了推斷時間顯著降低外,還在輸入的多樣性、輸出的幾何表示、結果的 3D 一致性、與輸入的相似性,以及所需的 3D 數據規模上,具有多方面的優勢。
具體來說,許多基于逐物體優化的方法雖然能生成高質量 3D 內容,但目前只支持文字生成 3D(如 , 和 )。而 One-2-3-45 既支持文字生成 3D 也支持圖片生成 3D。下圖展示了 One-2-3-45 與現有的主要圖生 3D 的方法的對比。
與現有圖生 3D 方法的比較
可以看到一些基于 NeRF 優化的方法(如 和 3D Fuse)雖然從新視角合成的角度上得到了還不錯的結果,但 NeRF 所輸出的幾何質量卻不盡人意。類似地,-E 的原生輸出是稀疏點云,在經過后處理重建后仍易存在部分區域破碎缺失的問題。而 One-2-3-45 通過預測 SDF 來提取網格,輸出的幾何質量要更具優勢。
另外一個重要的點便是現有方法的輸出沒有完全遵循()輸入圖片的指示。比如對于第一列的背包,+SD 生成的背包只有一條背帶;Shap-E 生成的背包沒有背帶。對于第二列的單只滅火器,Shap-E 和 -E 都預測了兩個兩個連體的滅火器。對于第四列的凳子,可以看到只有 One-2-3-45 和 保留了輸入圖片的椅腿結構。但需要注意的是, 生成的所有 3D 內容在具體風格和細節上均與輸入圖片有較大出入。
此外,研究者還指出基于逐物體優化的方法通常會遇到 3D 一致性的挑戰。他們生成的 3D 模型通常會出現多面現象(或者 問題)。比如在上圖中, 生成了一個雙面背包。相比之下,One-2-3-45 生成結果的 3D 一致性要好很多。
研究者還提到了 的 -E 和 Shap-E 在訓練時用到了數百萬級別的內部 3D 數據。由于 3D 數據的稀缺性,這樣的訓練數據規模目前對于很多研究者 / 機構來說還是比較嚴苛的條件。
與現有文生 3D 方法的比較
可以看到除了之前提過的問題外,現有的文生 3D 方法對輸入文本的把握能力并不是很強。比如,對于輸入文本 “一棵空心的大樹”,“一只有綠腿的橙色凳子”,“一頂哈瓦那風格菠蘿形狀的帽子” 以及 “一只木頭質地的蘑菇” 等,現有方法都無法生成精確對應的 3D 內容。相比之下,One-2-3-45 所采納的在 2D 生成對應圖片再提升到 3D 似乎是一條能夠對輸入文本有更加精確控制的路線。
結語
One-2-3-45 提出了 “2D 多視角預測 + 3D 可泛化重建” 這樣一項新穎的 3D AI 生成玩法,并在許多方面都展示出了其優越性。雖然目前 One-2-3-45 的生成質量可能還比不上部分基于逐物體優化的文生 3D 模型,但這個新玩法的探索和提高空間可能是充滿潛力的。
? THE END