來源:新浪VR
據外媒消息,Facebook的AR/ 研發團隊Reality Labs發表了一項關于超逼真實時虛擬化身方法的詳細研究,擴展了該公司之前稱為“Codec Avatars”的工作。
Facebook現實實驗室已經創建了一個系統,能夠實時為虛擬頭像提供動畫處理,能夠通過硬件實現前所未有的保真度,通過頭顯內部的三個標準攝像頭,可以捕捉用戶的眼睛和嘴巴,該系統能夠比以前的方法更準確地表示特定個體復雜面部表情的細微差別。
這項研究的重點不僅僅是將攝像頭固定在頭顯上,還在于使用傳入圖像來驅動用戶的虛擬表情。解決方案在很大程度上依賴于機器學習和計算機視覺。其中一位作者說:“我們的系統是實時運行的,它適用于各種各樣的表情,包括鼓起的臉頰、咬嘴唇、來回晃動的舌頭,以及像皺紋這樣的細節,這些細節在以前的方法中很難被精確地描繪出來。”
該小組還發表了他們的完整研究論文,深入研究了系統背后的方法和數學。 “通過多視圖圖像翻譯進行VR面部動畫”的作品發表在《ACM Transactions on Graphics》上,該雜志自稱為“圖形領域中最重要的同行評審期刊”。該論文由Shih-En Wei,Jason Saragih,Tomas Simon,Adam W。 Harley,Stephen Lombardi,Michal Perdoch,Alexander Hypes,Dawei Wang,Hernan Badino,Yaser Sheikh共同撰寫。
這篇論文解釋了該項目如何涉及到創建兩個獨立的實驗頭顯,一個“訓練”頭顯和一個“跟蹤”頭顯。
這款訓練頭顯的體積更大,使用了9個攝像頭,可以捕捉到受試者臉部和眼睛的更大范圍的視野。這樣做可以更容易地找到輸入圖像和用戶先前捕獲的數字掃描之間的“對應”(決定輸入圖像的哪些部分表示化身的哪些部分)。該論文稱,這一過程是“通過自我管理多視圖圖像翻譯自動發現的,不需要手工注釋或域之間的一一對應。”
一旦建立了對應關系,就可以使用“跟蹤”頭顯。 它的三個攝像頭對準了“訓練”頭顯上九個攝像頭中的三個。 由于從“訓練”頭顯收集的數據可以更好地理解這三個攝像機的視圖,這使得輸入能夠準確地驅動虛擬化身的動畫。
本文著重研究了該系統的精度。以前的方法生成逼真的輸出,但是用戶實際的面部表情與表現形式相比,在關鍵區域的準確性會下降,尤其是在極端表情以及眼睛和嘴巴動作之間的關系時。
當你回過頭來看看實際發生的情況時,你會發現這項工作令人印象深刻,對于一個面部被頭顯遮擋的用戶來說,極其近距離的相機鏡頭被用來精確地重建一張沒有被遮蓋的面部圖像。
盡管這種方法令人印象深刻,但仍然存在著一些主要障礙。對用戶進行詳細的初步掃描,以及最初需要使用“訓練”頭顯,這就需要一些類似于“掃描中心”的東西,用戶可以去那里掃描和訓練他們的化身(你在那里的時候也可以捕捉到一個定制的HRTF)。在虛擬現實成為社會交流方式的重要組成部分之前,這樣的中心似乎不太可行的。然而,先進的傳感技術和在這一工作之上的自動通信建設的不斷改進,最終可能帶來一個可行的在家工作過程。