高保真 3D 頭部重建在許多場景中都有廣泛的應用,例如 AR/VR、醫(yī)療、電影制作等。盡管大量的工作已經(jīng)使用 LightStage 等專業(yè)硬件實現(xiàn)了出色的重建效果,從單一或稀疏視角的單目圖像估計高精細的面部模型仍然是一個具有挑戰(zhàn)性的任務。 本文中,我們將介紹來自達摩院的CVPR2023最新的頭部重建論文,該工作在單圖頭部重建榜單REALY上取得正臉、側(cè)臉雙榜第一,并在其他多個數(shù)據(jù)集中取得了SOTA的效果。
論文題目:A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images
(資料圖片)
論文地址:https://arxiv.org/abs/2302.14434
項目主頁:HRN
ModelScope (demo) : ModelScope 魔搭社區(qū)
受限于 3DMM 的低維表征,大多數(shù)基于 3DMM 的頭部重建方法無法恢復高頻面部細節(jié),如皺紋、酒窩等。一些方法嘗試引入細節(jié)貼圖或非線性操作,結(jié)果仍然不理想。 為此,我們在本文中提出了一種新穎的層次化表征網(wǎng)絡 (HRN),以實現(xiàn)單圖的高精細頭部重建。 具體來說,我們對頭部幾何細節(jié)進行了解耦并引入了層次表征來實現(xiàn)精細的頭部建模。 同時,結(jié)合面部細節(jié)的3D先驗,提高重建結(jié)果的準確性和真實性。 我們還提出了一個de-retouching模塊,以實現(xiàn)更好的幾何和紋理解耦。 值得注意的是,通過考慮不同視圖的細節(jié)一致性,我們的框架可以擴展到多視圖重建。 在兩個單視圖和兩個多視圖頭部重建基準上的大量實驗表明,我們的方法在重建精度和視覺效果方面優(yōu)于現(xiàn)有方法。
現(xiàn)有的一些方法 [1、2、3] 嘗試通過預測displacement map來捕捉高頻面部細節(jié),例如皺紋等,并取得了不錯的效果。但是,displacement map由于其定義方式,無法對更大尺度的細節(jié)進行建模,例如下巴、臉頰的輪廓細節(jié)等。為此,我們將頭部的幾何進行拆解,并分別用不同的表征分別對其進行表示,如上圖所示。具體的,我們將頭部幾何拆分為低頻部分、中頻細節(jié)以及高頻細節(jié):
低頻部分描述了頭部的整體骨架(胖瘦、五官位置及大致形狀),對于這個部分,我們使用現(xiàn)有的參數(shù)化3DMM方法,利用低維的系數(shù)及對應形狀基進行表征。中頻部分描述了頭部骨架基礎(chǔ)上的較大尺度的細節(jié)(如肌肉走向、面部輪廓等),該部分我們利用在UV空間的3通道的deformation map作為表征,其描述了每個頂點在低頻基礎(chǔ)上的xyz三方向上的形變。高頻部分描述了頭部的小尺度的細節(jié),比如皺紋等,該部分我們利用displacement map進行像素尺度上的細節(jié)建模。總體來說,我們將頭部幾何拆分為三個部分,并根據(jù)其尺度大小及細節(jié)特征,引入了三種層次化的表征,分別從頭部、頂點、像素三個不同顆粒度進行建模,實現(xiàn)頭部的精準化、精細化重建。
在HRN (hierarchical representation network) 網(wǎng)絡結(jié)構(gòu)中,我們整體采用了coarse-to-fine的框架,首先,我們利用現(xiàn)有的3DMM-based方法deep3d[4],預測頭部的低頻幾何部分(圖2藍色區(qū)域),同時,我們可以獲得對應的position map以及texture map,這兩者將作為細節(jié)預測的輸入。而后,我們分別利用兩個串聯(lián)的pix2pix網(wǎng)絡,預測deformation map以及displacement map(圖2綠色區(qū)域)。最后,我們結(jié)合預測的精細化幾何、光照、優(yōu)化后漫反射貼圖,進行可微分渲染,得到重建后的頭部圖像(圖2紫色區(qū)域)。通過將中頻、高頻的渲染頭部分別與原圖計算損失,可引導頭部的幾何形變,從而獲得對應的幾何細節(jié)。在此整體流程中,我們還引入了一些新穎的模塊和損失函數(shù),來提升建模精度。
盡管可以使用重建損失從單個圖像中粗略地重建面部細節(jié),但由于其本質(zhì)是個高度ill-posed的任務,僅從單圖獲取的細節(jié)存在模糊性和歧義性。 添加額外的正則化可能有助于縮小解空間,但也會導致細節(jié)準確性和保真度嚴重下降。 為了解決這個問題,我們從真實3D數(shù)據(jù)中獲取真實的頭部3D細節(jié),從而作為先驗信息引導網(wǎng)絡的預測。如上圖,我們利用提出的網(wǎng)絡結(jié)構(gòu),對真實的3D mesh進行擬合,從而獲得deformation map以及displacement map的groud-truth。而后,我們在網(wǎng)絡訓練中,引入判別器網(wǎng)絡,用真實的分布引導細節(jié)圖的生成。消融實驗表明,引入3D細節(jié)先驗可使預測的頭部幾何更加的平滑、真實。
頭部圖像是幾何、光照和面部漫反射率組合的結(jié)果。 之前的工作假設(shè)面部漫反射率是平滑的,并使用 3DMM 的低頻反照率對其進行建模。 然而,實際皮膚紋理充滿了高頻細節(jié),如痣、疤痕、雀斑和其他瑕疵,這給幾何細節(jié)學習帶來了歧義,尤其是在單視圖頭部重建任務中。 受[5]的啟發(fā),我們提出了一個De-Retouching模塊,旨在生成具有高頻細節(jié)的面部反照率,并促進更精確的幾何和外觀解耦。我們首先從FFHQ數(shù)據(jù)集中收集了10, 000張頭部圖像,并訓練了一個retouching網(wǎng)絡G,去除頭部的瑕疵等高頻細節(jié)。給定頭部紋理 T" ,我們首先使用 G 去除其紋理細節(jié)并得到 T0,如上圖所示。而后,我們旨在將紋理細節(jié)烘焙到粗糙的反照率 A0 中以獲得優(yōu)化后的反照率 A" 用于渲染 . 我們假設(shè)從 A0 到 T0 的光照應該與從 A" 到 T" 的光照一致,如:
其中 S 表示shading,⊙ 表示逐元素矩陣乘法。 然后我們可以求解方程并獲得 A" 為:
其中 ?(T0) 避免了 0 附近的值爆炸,默認情況下 ε = 1e?6。 與 A0 相比,優(yōu)化后的反照率 A" 包含更多高頻紋理細節(jié),這減輕了幾何和紋理之間的歧義,尤其是在單視圖頭部重建任務中。
我們提出了一種新穎的輪廓感知損失 L_con 來實現(xiàn)面部輪廓的精確建模。 L_con 作用在中頻幾何M1 (figure 2)上,旨在拉動邊緣的頂點以對齊面部輪廓。 如上圖所示,我們首先將 M1 的頂點投影到圖像空間中。 然后我們使用預訓練的面部摳圖網(wǎng)絡 [6] 預測面部掩碼M_face 并進行后處理以獲得每一行的左側(cè)和右側(cè)點。 給定頂點 p 和 M_face 上對應的投影點 p",我們得到向量 l_p 和 r_p(從 p" 到水平方向的邊緣點)。 那么L_con可以描述為:
可以看到,L_con 懲罰了頭部 soft margin 之外的頂點(如上圖中的藍色和灰色點)并將它們拉到頭部輪廓,同時保持頭部內(nèi)部的頂點不動。我們只關(guān)注面部輪廓的下部以避免頭發(fā)的干擾。 與常見的分割損失相比,L_con 給出了更直接的頭部輪廓優(yōu)化方向,也更容易訓練。消融研究也證實了 Lcon 在提升重建輪廓精度中的有效性。
歸功于層次化建模以及3D先驗引導,我們可以輕易地將HRN適用于多視角頭部重建任務中。通過添加不同視角之間的幾何一致性,我們可以使用兩到三個少量的視角完成整體面部幾何的精確建模。 上圖顯示了 MV-HRN 的流程。 我們假設(shè)頭部低頻部分和中頻細節(jié)在不同視圖之間是一致的,而照明、姿態(tài)、表情和高頻細節(jié)等應該是視角相關(guān)的。 因此,我們引入了一個標準空間以及視角獨立空間,分別對共享的固有面部形狀以及每個視圖的姿勢、光照、表情和高頻細節(jié)等進行建模。 通過擬合過程,在不同視角圖像的監(jiān)督下,臉型逐漸被限制在更小、更準確的空間內(nèi)。 實驗表明,MV-HRN 在短時間內(nèi)(不到一分鐘)僅給出少量(2~5)個圖像視圖即可實現(xiàn)準確重建。
可以看出,無論是在單圖,還是多圖重建中,我們的方法在幾何的精確性上以及細節(jié)的還原度上都相比于現(xiàn)有方法有較大提升。
同樣,在與真實mesh的平均誤差等定量指標的對比中,我們的方法也在多個單圖、多圖頭部重建benchmark中超越了現(xiàn)有的SOTA方法。
[1] Anpei Chen, Zhang Chen, Guli Zhang, Kenny Mitchell, and Jingyi Yu. Photo-realistic facial details synthesis from single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9429–9439, 2019. 1, 6
[2] Yudong Guo, Juyong Zhang, Jianfei Cai, Boyi Jiang, and Jianmin Zheng. Cnn-based real-time dense face reconstruction with inverse-rendered photo-realistic face images. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2018. 1
[3] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 1
[4] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019. 2, 4, 6
[5] Biwen Lei, Xiefan Guo, Hongyu Yang, Miaomiao Cui, Xuansong Xie, and Di Huang. Abpn: Adaptive blend pyramid network for real-time local retouching of ultra highresolution photo. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2108–2117, 2022. 2, 5
[6] Jinlin Liu, Yuan Yao, Wendi Hou, Miaomiao Cui, Xuansong Xie, Changshui Zhang, and Xian-sheng Hua. Boosting semantic human matting with coarse annotations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8563–8572, 2020. 4
另外給大家介紹下CV域上的開源免費模型,歡迎大家體驗、下載(大部分手機端即可體驗):
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
ModelScope 魔搭社區(qū)https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
關(guān)鍵詞: