CVPR 2022 Oral | 2D視頻有3D體驗!華盛頓大學&Google:對單目視頻中人物進行自由視角渲染!作者 : Chung-Yi Weng (翁仲毅)(轉貼)
CVPR 2022 Oral | 視頻有3D體驗!華盛頓大學 & Google:對單目視頻中人物進行自由視角渲染!作者 : Chung-Yi Weng (翁仲毅)
美國華盛頓大學和Goggle 的研究人員在2022年 1月提交了一份最新成果,並榮獲國際頂尖電腦視覺與模式辨識 (IEEE Computer Vision and Pattern Recognition) CVPR 2022年會議
論文的收錄並於大會上發表創新技術。
這篇論文的第一作者 Chung-Yi Weng (翁仲毅)是來自台灣、目前在華盛頓大學就讀的博士生。
HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
Chung-Yi Weng, Brian Curless, Pratul Srinivasan,
Jonathan T. Barron, Ira Kemelmacher-Shlizerman
CVPR, 2022 oral, 3% out of ~8k papers
project page / arXiv / video
Combining NeRF with pose estimation lets you use a monocular video to do free-viewpoint rendering of a human
https://grail.cs.washington.edu/projects/humannerf/
HumanNeRF,一種自由視角的渲染方法,適用於給定的、人類進行複雜身體運動的單目視頻,例如YouTube上的視頻。該方法可以在任何一幀暫停視頻,並從任意的新攝像機視角甚至是該特定幀和身體姿態的完整360度攝像機路徑渲染對象。這項任務特別具有挑戰性,因為它需要合成身體的逼真細節,從不同的相機角度看,輸入視頻中可能不存在這些細節,還要合成精細的細節,如布的褶皺和麵部外觀。
這篇介紹了一種自由視角的渲染方法--HumanNeRF--它適用於一個給定的單眼視訊,該視訊中的人正在進行複雜的身體運動,例如YouTube上的視訊。我們的方法可以在任何一幀暫停視訊,並從任意的新錄影機視點或甚至是該特定幀和身體姿勢的全360度錄影機路徑渲染主體。這項任務特別具有挑戰性,因為它需要合成身體的逼真細節,從不同的錄影機角度看,輸入的視訊中可能不存在這些細節,同時還要合成精細的細節,如布的褶皺和面部表情。我們的方法優化了人在典型T型姿勢下的體積表示,並與運動場配合,通過後向扭曲將估計的典型表示映射到視訊的每一幀。運動場被分解為骨骼的剛性和非剛性運動,由深度網絡産生。我們展示了比以前的工作有顯著的性能改進,以及在具有挑戰性的非控制性捕捉場景中,從單眼視訊中自由視角渲染人類的令人信服的例子。
《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》
論文位址:
http://arxiv.org/abs/2201.04127
-----------------------------------------------
"华盛顿大学 | HumanNeRF:单目视频中移动人物的自由视点渲染(CVPR2022)"
https://chowdera.com/2022/03/202203141304413638.html
华盛顿大学 | HumanNeRF:单目视频中移动人物的自由视点渲染(CVPR2022)
2022-03-14 13:04:58 【智源社区】
论文标题: HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
论文链接:
http://arxiv.org/abs/2201.04127
主页链接:
https://grail.cs.washington.edu/projects/humannerf/
作者单位:华盛顿大学 & Google研究院
我们引入了一种自由视点渲染方法——HumanNeRF——它适用于人类执行复杂身体运动的给定单目视频,例如:来自 YouTube 的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点甚至是该特定帧和身体姿势的完整 360 度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的逼真细节,从输入视频中可能不存在的各种摄像机角度看,以及合成精细的细节,如布料褶皱和面部外观。我们的方法优化了典型 T 姿势中人的体积表示,与运动场相一致,该运动场通过向后扭曲将估计的规范表示映射到视频的每一帧。运动场被分解为由深度网络产生的骨骼刚性和非刚性运动。我们展示了与先前工作相比的显着性能改进,以及在具有挑战性的不受控制的捕获场景中移动人类的单目视频的自由视点渲染示例。
版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/15540
-----------------------------------------------
CVPR 2022 NeRF 的論文
這次主要盤點一下CVPR 2022中與NeRF相關的論文(1、Mip-NeRF;
2、Point-NeRF; 3、Human-NeRF; 4、Urban-NeRF; 5、Block-NeRF; 6、Raw-NeRF)。
NeRF是 2020 年 ECCV 上獲得最佳論文榮譽提名的工作,其影響力是十分巨大的。 NeRF 將隱式表達推上了一個新的高度,僅用 2D 的 posed images 作為監督,即可表示複雜的三維場景,在新視角合成這一任務上的表現是非常 impressive 的。 目前 NeRF 的熱度依舊不減,其表達方面的優勢在諸多方面都有收益,後續我們會一一介紹。
1、Mip-NeRF 360 (谷歌、哈佛大學)
簡介
NeRF在小範圍內渲染效果尚好,但它們在 「無界 」場景中卻舉步維艱。 在這種情況下,原有的NeRF的模型往往會產生模糊或低解析度的渲染,可能會表現出偽影。 本文提出了 「mip-NeRF
360」(改進了mip-NeRF),它使用非線性場景參數化、在線蒸餾和一種新型的基於失真的正則器來克服無邊界場景帶來的挑戰。
與mip-NeRF相比,MSE減少了54%,並且能夠為高度複雜、無邊界的真實世界場景產生真實的合成視圖和精準的深度圖。
視頻(中文字幕):
Mip-NeRF 360(中文字幕)
專案位址:
Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance
Fieldsjonbarron.info/mipnerf360/
2、Point-NeRF(南加州大學、Adobe研究院)
簡介
像 NeRF 這樣的體積神經渲染方法會生成高質量的視圖合成結果,但會針對每個場景進行優化,從而導致重建時間過長。
另一方面,深度多視圖立體方法可以通過直接網路推理快速重建場景幾何。 Point-NeRF 結合了這兩種方法的優點,通過使用具有相關神經特徵的神經 3D 點雲來類比輻射場。 Point-NeRF 可以通過在基於光線行進的渲染管道中聚合場景表面附近的神經點特徵來有效地渲染。
此外,Point-NeRF 可以通過直接推斷預訓練的深度網路來初始化,以生成神經點雲;這個點雲可以被微調以超過 NeRF 的視覺質量,訓練時間快 30 倍。
專案位址:
Point-NeRFxharlie.github.io/projects/project_sites/pointnerf/index.html
論文連結:https:// arxiv.org/pdf/2201.0884 5.pdf
3、Human NeRF (華盛頓大學、谷歌)
簡介
介紹了一種自由視點渲染方法——HumanNeRF——它適用於人類執行複雜身體運動的給定單目視頻,例如來自 YouTube 的視頻。 其可以在任何幀暫停視頻並從任意新的攝像機視點甚至是針對該特定幀和身體姿勢的完整 360 度攝像機路徑渲染主體。 這項任務特別具有挑戰性,因為它需要合成身體的逼真細節,從輸入視頻中可能不存在的各種攝像機角度看,以及合成精細的細節,如布料褶皺和面部外觀。
該方法優化了典型 T 姿勢中人的體積表示,與運動場相一致,該運動場通過向後扭曲將估計的規範表示映射到視頻的每一幀。
運動場被分解為由深度網路產生的骨骼剛性和非剛性運動。 論文展示了與先前工作相比的顯著性能改進,以及在具有挑戰性的不受控制的捕獲場景中移動人類的單目視頻的自由視點渲染示例。
視頻(無需字幕):
Human NeRF 華盛頓大學、谷歌
專案位址:
論文連結:https:// arxiv.org/abs/2201.0412 7
4、Urban NeRF(谷歌)
簡介
這項工作的目標是從掃描平臺捕獲的數據中執行
3D 重建和新穎的視圖合成,這些平臺通常用於城市戶外環境(例如街景)中的世界地圖繪製。 給定一系列由相機和掃描器在戶外場景中移動獲得的 RGB 姿勢圖像和雷射雷達掃描,其生成了一個模型,可以從中提取 3D 表面並合成新的 RGB 圖像。 論文擴展了神經輻射場,該方法已被證明可以在受控環境中為小場景合成逼真的新穎圖像,以及利用異步捕獲的鐳射雷達數據的新方法,以解決捕獲圖像之間的曝光變化,以及利用預測的圖像分割來監督指向天空的光線的密度。
這三個擴展中的每一個都在街景數據的實驗中提供了顯著的性能改進。 與傳統方法(例如~COLMAP)和最近的神經表示(例如~Mip-NeRF,也就是上面的第一篇論文)相比,該系統產生最先進的 3D 表面重建並合成更高品質的新視圖。
視頻(無需字幕):
Urban NeRF(谷歌)
專案位址:
https://urban-radiance-fields.github.io/urban-radiance-fields.github.io/
論文連結:https:// arxiv.org/abs/2111.1464 3
5、Block-NeRF(UC伯克利,Waymo,谷歌)
簡介
作者提出了 Block-NeRF,一種可以表示大規模環境的神經輻射場的變體。
具體來說,其證明,當縮放 NeRF 以渲染跨越多個街區的城市規模場景時,將場景分解為單獨訓練的 NeRF 至關重要。 這種分解將渲染時間與場景大小分離,使渲染能夠擴展到任意大的環境,並允許對環境進行逐塊更新。 論文採用了幾項架構更改,以使 NeRF 對在不同環境條件下數月捕獲的數據具有魯棒性。 其為每個單獨的 NeRF 添加了外觀嵌入、學習姿勢細化和可控曝光,並引入了一種用於對齊相鄰 NeRF 之間外觀的程式,以便它們可以無縫組合。 論文從 280 萬張圖像中構建了一個 Block-NeRF 網格,以創建迄今為止最大的神經場景表示,能夠渲染舊金山的整個社區。
視頻(中文字幕):
Block-NeRF(中文字幕)
專案位址:
Block-NeRFwaymo.com/intl/zh-cn/research/block-nerf/
論文連結:https:// arxiv.org/abs/2202.0526 3
6、Raw NeRF(谷歌)
簡介
神經輻射場 (NeRF) 是一種從姿勢輸入圖像的集合中合成高品質新視圖的技術。
與大多數視圖合成方法一樣,NeRF 使用色調映射低動態範圍(LDR)作為輸入;這些圖像已由有損相機管道處理,該管道可以平滑細節、剪輯高光並扭曲原始感測器數據的簡單雜訊分佈。 作者將 NeRF 修改為直接在線性原始圖像上進行訓練,保留場景的完整動態範圍。 通過從生成的
NeRF 渲染原始輸出圖像,其可以執行新穎的高動態範圍 (HDR) 檢視合成任務。 除了改變相機視角之外,還可以在事後操縱焦點、曝光和色調映射。
儘管單個原始圖像看起來比經過后處理的圖像雜訊大得多,論文證明瞭 NeRF 對原始雜訊的零均值分佈具有高度魯棒性。
當針對許多嘈雜的原始輸入 (25-200) 進行優化時,NeRF 生成的場景表示非常準確,以至於其渲染的新穎視圖優於在相同寬基線輸入圖像上運行的專用單圖像和多圖像深度原始降噪器。 RawNeRF可以從在近黑暗中捕獲的極其嘈雜的圖像中重建場景。
視頻(中文字幕):
專案位址:
NeRF in the Dark (RawNeRF)bmild.github.io/rawnerf/index.html
論文連結:https:// arxiv.org/abs/2111.1367
-----------------------------------------------
作者丨維克多
編輯丨岑峰
來自CVPR 2022程序主席的消息:
除非疫情發生重大變化,否則2022年的會議將開放線下參會,不能旅行的人,可以選擇在線參會。近幾天,有關簽證的消息將會發送給各位作者。
CVPR是人工智慧領域的頂級會議,今年的會議將於6月19日~23日在美國路易斯安那州紐奧良舉辦。據悉,它是該州最大的城市,重要繁忙的美國大型港口之一。一些著名的景點包括法屬區皇家街、傑克遜廣場、聖路易斯大教堂、奧杜邦公園和杜蘭大學等等。所以,如能線下參會,學術討論之餘,也感受異國風情。
在人工智慧領域,CVPR已經「當選」最頂級會議。據2021谷歌學術期刊與會議影響力榜單。CVPR在綜合榜單中排名第四,超過了《柳葉刀》 ,僅次於《Science》。對於此排名,有學者François Fleuret「表示」:一篇CVPR相當於86%篇《Nature》;LeCun回復道:2篇ICLR相當於一篇《Nature》。
2020年疫情發生後,該會議搬到線上,曾一度被各位用戶吐槽「網站卡得要死,有時還404」;2021年的會議也因疫情被迫線上召開。如果順利的話,2022年CVPR組委會將重啟線下,為學者提供沉浸式的交流環境,不容錯過。或許是受CVPR決定的影響,ICML也開始討論會議形式,目前來看混合(線上-線下)模式或許成為主流。據統計,CVPR2022一共接收了2067篇論文。有效投稿量數據尚未放出。不過按照20%左右的接收率推算,可能會有接近萬篇的投稿。
目前所給出的接收論文編號連結為:
https://drive.google.com/file/d/15JFhfPboKdUcIH9LdbCMUFmGq_JhaxhC/view
從2016年至今,CVPR的投稿數量幾乎呈指數級增長。CVPR 2018相較於CVPR 2017投稿量增長了 23%;CVPR 2019 相較於CVPR 2018 投稿量更是一下子增長了56%。當時CVPR 2019 的程序主席、UIUC 教授 Derek Hoiem 曾開玩笑說,「按照這個指數增長速度,只需要到2028年,CVPR 就可以收到 108 億篇投稿,全地球平均每個人都至少有一篇論文投稿,其中包括了老人和小孩。」相比去年,CVPR 2022為學術論文設置了「社交媒體靜默期」,在此期間,任何由作者主動發起的對論文的社交媒體宣傳都被視為違反政策。這項規定的宗旨是解決同行評審過程中,因為作者機構被曝光後產生的偏見問題。而且,如下,真的有作者因為提前宣傳而被拒。2022組委會的這一決定,在某種程度上說明,在拓展人脈、和研究同一個課題的學者深入討論方面,線下交流是如何都不能替代的。
畢竟參加學術會議的收穫往往不止於見牛人、聽報告、學功力、長技能,很多時候它能夠給參會者一種「學者」的身份,來觀察不同的文化,不同的人群,甚至觀察我們自己。單純從收益方面考慮,如果和論文研究的時間點契合,去這樣的場合宣傳自己的研究是有益無害的。詢問對方感興趣的話題,和不同的人找共同的興趣點,是非常有意思的事情。
在很多領域,其實有相當一部分人在研究相對比較冷門主題。參加學術會議,現場發言不僅能夠讓更多人知道你的工作,如果口才過硬還能把「學術路人」拉到你的陣營,努力讓自己的學術成果表現得更有價值。
而從學生的角度而言,雲會議可能會讓學生們無法獲得切身的參會體驗,得不到很好的鍛鍊。學術會議的目的在於思想的交流,你一個思想,我一個思想,經過交流就分別擁有兩個思想了。實際上,本科生、研究生、博士生在學術會議上的交流和訴求可能各有側重點:本科生對未來的研究方向尚未確定,如果讓他們有更多機會在學術會議現場與大牛面對面交流,對於培養下一代學術新人有著無比珍貴的意義。對於研究生來說,參加學術會議能夠鍛鍊口才,讓自己的學術成果得到同行的指正、指導和認可,不僅如此,還可以結實一些國外的教授,積累人脈。如果你未來打算在國外讀博,也是一次了解國外情況,認識大佬的好機會,沒準之後申請的老闆就認識某個去這次會議的教授......
至於博士生,
將會是他們開始在學術界嶄露頭角,向學術界展示自己的研究成果的絕佳機會。如果恰好能夠在會議上碰到志同道合的人,說不定還能意外收穫一份滿意的工作或者「收割」到一群創業導師和夥伴。
留言
張貼留言