【CNMO科技消息】近日,苹果公司发布了一项名为SHARP(Sharp Monocular View Synthesis)的开源人工智能模型,该技术仅需一张普通2D照片,即可在不到一秒内生成具备真实尺度感的高保真3D场景。相关研究成果以论文《Sharp Monocular View Synthesis in Less Than a Second》形式公开,并已在GitHub、Hugging Face及苹果官方项目页面同步上线,引发开发者社区广泛关注。

据苹果研究人员介绍,SHARP通过单次神经网络前向推理,在标准GPU上快速回归出一个基于3D高斯点阵(3D Gaussian Splatting)的场景表示。该表示不仅保留了原始图像的色彩与光照细节,还能支持实时渲染,从邻近视角生成高分辨率、视觉连贯的新视图。尤为关键的是,该模型输出的3D结构具有度量一致性,即包含真实世界中的绝对尺度信息,可支持符合物理规律的相机移动。

传统3D高斯重建方法通常依赖数十甚至上百张多视角图像进行优化,而SHARP仅凭单张图像即可完成重建,其背后依托于在大量合成与真实数据上训练所得的深度与几何先验知识。模型首先估计初始深度图,再结合学习到的场景结构规律,一次性预测数百万个3D高斯点的位置、颜色与协方差参数。不过,SHARP目前主要适用于原拍摄视角附近的视点合成,尚无法可靠生成完全未见过的场景区域。
