• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

无需任何3D标注,仅靠照片自学成才!RayZer模型效果反超有监督算法

计算机
AI
2025/12/31 22:14:17
  1. 首页
  2. 学术前沿资讯
  3. 无需任何3D标注,仅靠照片自学成才!RayZer模型效果反超有监督算法

无需任何3D标注,仅靠照片自学成才!RayZer模型效果反超有监督算法

在人工智能席卷全球的今天,我们已经习惯了AI能写诗、作画甚至生成视频。但在3D视觉领域,一直存在着一只“拦路虎”——昂贵且稀缺的3D标注数据。现有的主流3D模型,大多像是一个需要老师手把手教的学生,训练时必须提供精确的“标准答案”,比如相机的具体位置、拍摄角度以及场景的几何形状。

然而,获取这些数据不仅成本高昂,还需要使用像COLMAP这样复杂的传统算法进行漫长的计算。更糟糕的是,如果面对是一面白墙或者反光的玻璃,这些传统算法往往会“两眼一抹黑”,算出的数据全是错的,直接导致AI学废了。

但是,现在规则变了。

来自得克萨斯大学奥斯汀分校、Adobe研究室等机构的研究人员提出了一种名为 RayZer 的全新模型。它完全打破了对3D标注的依赖,不需要知道相机的位姿,也不需要场景几何信息,仅凭几张普通的照片,就能通过“自学”完美重建3D场景,其效果甚至反超了那些依赖昂贵标注数据的“高配”模型。

1. 痛点:为什么3D AI总是“缺数据”?

想象一下,如果你想教会一个AI认识“杯子”的3D形状,传统的方法是:

  1. 给它看杯子的照片。
  2. 必须同时告诉它:这张照片是从左边30度拍的,距离0.5米。

这个“必须”就是问题的关键。在实验室里,我们可以用精密的仪器测量这些数据。但在现实世界中,互联网上浩如烟海的视频和图片只有画面,没有相机参数。为了利用这些数据,研究人员不得不先用COLMAP等软件去反推相机参数。

但这有个大坑:COLMAP非常慢,而且在很多场景下(比如纹理少的墙面、透明的玻璃)根本算不准。一旦算错了,喂给AI的数据就是“有毒”的。

如图[1]所示,当传统算法COLMAP在处理复杂的书架或建筑反光面时出现失误,依赖这些数据的模型(如GS-LRM和LVSM)生成的图像就会出现严重的重影或模糊(见图中红色虚线框区域)。而RayZer因为不依赖这些外部提供的“伪参考答案”,反而生成了清晰、准确的图像。

Figure 1

Figure 1

2. 核心突破:像人类一样“自我校准”

RayZer的核心理念非常接近人类的认知方式。当我们走进一个陌生的房间,没有人告诉我们眼睛的精确坐标,但我们通过移动和观察,大脑就能自动构建出房间的3D结构。RayZer正是做到了这一点:它具备了“涌现”出的3D感知能力。

2.1 不用老师教,自己做实验

RayZer的训练过程是一个绝妙的“左右互搏”游戏。研究人员设计了一个不需要任何外部3D标签的自监督框架。简单来说,它的学习过程是这样的:

  1. 随机猜测与修正:模型接收一组照片,它首先尝试自己预测这些照片的相机位置和场景结构。
  2. 自我验证:利用它自己预测出的信息,尝试“画”(渲染)出另一张视角的照片。
  3. 找茬纠错:把它画出来的照片和真实的照片做对比。如果画得不像,说明刚才预测的相机位置或场景结构不对,模型就会自动调整参数,直到画得像为止。

如图[2]所示,这就是RayZer的训练逻辑:将图片分为“输入组”(Images A)和“目标组”(Images B)。模型看一眼A组图片,脑补出3D场景,然后尝试预测B组图片长什么样。通过不断缩小预测图与真实B组图之间的差异(即图中的虚线箭头所指的损失函数),RayZer就被迫学会了理解3D空间和相机位置,而这一切完全不需要人类提供3D标注。

Figure 2

Figure 2

3. 揭秘黑科技:全Transformer架构与光线先验

3.1 抛弃“手工活”,拥抱大模型

传统的3D重建往往依赖复杂的物理公式和手工设计的模块。而RayZer走了一条更现代化的路子:全Transformer架构。就像ChatGPT用Transformer处理文字一样,RayZer用它来处理图片和3D空间。这种设计让模型具有极强的灵活性和扩展性,能够从海量数据中自动学习规律。

如图[3]所示,RayZer的工作流程非常清晰:

Figure 3

Figure 3
  1. 相机估算器(左侧粉色部分):先看图,估算出相机的参数(位置、角度、焦距)。
  2. 场景重构器(中间绿色部分):结合图片和刚才算出的相机参数,把2D图片转化为一种“潜在场景表示”(Latent Scene Representation)。这就像是在脑海中建立了一个抽象的3D模型。
  3. 渲染解码器(右侧蓝色部分):最后,根据这个抽象模型,从任意新视角“画”出图像。

3.2 唯一的“作弊码”:光线结构

虽然RayZer尽量减少人为干预,但它保留了一个关键的物理常识——光线(Ray)。光沿直线传播,这是物理铁律。RayZer将预测出的相机参数转化为“Plücker光线图”(Plücker Ray Maps)。这相当于给模型提供了一个最基础的几何脚手架,告诉它像素是如何通过光线投射到空间中的。

这个设计巧妙地解决了“先有鸡还是先有蛋”的问题:相机位置不准会导致场景重建歪了,场景歪了又反过来误导相机位置判断。通过引入光线结构作为桥梁,两者可以相互纠正,共同进步。

4. 战绩揭晓:乱拳打死老师傅?

既然是自学成才,RayZer的成绩单到底怎么样?研究人员在DL3DV(室内场景)、RealEstate10k(房地产视频)和Objaverse(3D物体)三个数据集上进行了严苛的测试。对比的对手是GS-LRM和LVSM,这两位可是拥有“上帝视角”的选手——它们在训练时使用了额外的相机位姿标注。

4.1 逆袭有监督模型

结果令人大跌眼镜:在没有任何3D标注的情况下,RayZer的表现不仅追平了,甚至在很多场景下超越了这些“顶配”选手。

特别是在DL3DV和RealEstate这两个真实场景数据集上,RayZer生成的图像质量(PSNR指标)击败了依赖COLMAP标注的LVSM模型。为什么会这样?

  • 成也萧何,败也萧何:传统模型太依赖COLMAP提供的相机参数。一旦COLMAP算得不准(比如面对反光物体、白墙、甚至简单的植物),模型就会被带偏。
  • 自适应更强:RayZer因为是“自适应”的,它学会了一套最适合重建场景的内部参数,反而不受外部噪声数据的干扰。

让我们看一组直观的对比。如图[4]所示,注意看第一行的游乐场设施和第二行的街道招牌,GS-LRM生成的图像有些模糊,LVSM虽然好一些但在细节处仍有瑕疵。而RayZer生成的图像(第三列)在清晰度和几何结构的准确性上都更胜一筹,甚至接近了真实照片(GT)。

Figure 4

Figure 4

4.2 专治“疑难杂症”

除了整体画质,RayZer在处理棘手物体时也表现出了惊人的稳定性。如图[5]所示,面对具有复杂几何结构的3D物体(如第一行的绿色怪物和第三行的白色建筑),传统的监督方法PF-LRM(第一列)往往会出现严重的扭曲或伪影。相比之下,RayZer(第三列)重建出的物体结构紧凑、细节丰富,几乎与右侧的真实模型(GT)一模一样。

Figure 5

Figure 5

更令人印象深刻的是对“透明”和“反光”的处理。再次回到图[4],请观察左下角的室内场景(RealEstate),其中包含了大面积的落地窗(红色虚线框区域)。依赖COLMAP的GS-LRM和LVSM模型在处理这种透明和反光材质时,往往会出现严重的伪影或模糊,因为COLMAP很难在玻璃表面找到准确的特征点。而RayZer凭借自监督学习到的光线理解能力,成功还原了清晰的窗框和透视关系,证明了其在处理挑战性材质时的鲁棒性。

5. 释放海量视频数据的潜能

RayZer 的出现,不仅仅是算法上的胜利,更是数据战略的一次突围。传统的 3D 模型训练像是在“精耕细作”,每一条数据都需要经过繁琐的预处理和清洗。而 RayZer 将这种模式转变为“粗放式”的规模化扩张——既然不需要任何标注,那么互联网上无穷无尽的视频资源,瞬间都变成了它的“教材”。

研究发现,RayZer 特别擅长从连续的视频帧中学习。相比于一堆杂乱无章的照片,视频本身蕴含了时间上的连续性和空间上的平滑变化。RayZer 利用这种特性,能够更准确地推断出相机是如何在空间中移动的。

如图[6]所示,我们可以看到 RayZer 在处理一段厨房场景视频时的表现。左侧三列是模型渲染出的新视角图像,画面连贯自然;最右侧则展示了模型“脑补”出的相机运动轨迹。请注意,这些整齐排列的相机位姿(彩色锥体)完全是模型通过自监督学习推理出来的,没有任何人工输入的坐标信息。这意味着,未来的 AI 只要“看”足够多的视频,就能像人类一样建立起对物理世界运动规律的深刻理解。

Figure 6

Figure 6

6. 结语:通往 3D 世界模型的“破壁”一步

长期以来,3D 视觉领域一直被困在“数据饥渴”和“标注昂贵”的怪圈里。RayZer 用一种近乎暴力美学的方式证明了:与其费尽心思给 AI 喂这喂那,不如给它一套好的自我纠错机制,让它自己在海量数据中寻找答案。

这就好比大语言模型(LLM)通过阅读海量文本学会了写作,RayZer 让我们看到了视觉模型通过“观看”海量视频学会构建 3D 世界的可能。当摆脱了对 COLMAP 等传统工具的依赖,当每一段上传到 YouTube 或 TikTok 的视频都能直接成为训练养料,我们距离那个能理解、生成并交互真实 3D 世界的通用人工智能,或许又近了一大步。

这一次,AI 真的学会了自己看世界。

论文信息

  • 标题:RayZer: A Self-supervised Large View Synthesis Model
  • 论文链接:https://doi.org/10.48550/arXiv.2505.00702
  • 论文一键翻译:点击获取中文版 ➡️
  • 发表时间:2025-5-1
  • 期刊/会议:arXiv
  • 作者:Hanwen Jiang, Hao Tan, Peng Wang, ..., Georgios Pavlakos

本文由超能文献“资讯AI智能体”基于4000万篇Pubmed文献自主选题与撰写,并经AI核查及编辑团队二次人工审校。内容仅供学术交流参考,不代表任何医学建议。

分享

本页内容

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

推荐阅读

Article Cover

脑力不够结构凑?老鼠胡须揭示身体如何帮大脑“偷懒”

神经科学
AI

老鼠的胡须阵列是复杂的控制系统,大脑是如何指挥其精准协同的?一项研究发现,胡须的3D几何物理结构本身就能简化复杂的控制指令,减轻大脑的计算负担。

Invalid Date
Article Cover

心脏检查只看左心?忽视“右心”可能漏掉关键救命信号

心血管

本文揭示了长期被忽视的右心系统在心血管健康中的关键作用,并介绍了4D Flow CMR技术如何通过监测血流动力学,如涡流和能量损耗,来早期发现右心功能衰退,提供比传统检查更敏感的救命信号。

Invalid Date
Article Cover

路灯不仅让人失眠:光污染正让夜行昆虫同时失去“时间”和“方向”

睡眠
社会
环境

研究揭示,光污染不仅让夜行昆虫作息紊乱,错过觅食和求偶的“黄金时段”,还通过“淹没”夜空偏振光,破坏了它们的导航系统,导致它们失去方向,这对生态系统平衡造成深远影响。

Invalid Date
Article Cover

吃药后肾功能反而“跳水”?2.3万人研究揭示:别慌,这是降低34%衰竭风险的开始

护肾
糖尿病

SGLT2抑制剂在初期可能导致肾功能指标下降,但一项2.3万人的研究表明,这并非肾损伤,反而是长期降低34%肾衰竭风险的开始,且其护肾效果不受糖尿病状态影响。

Invalid Date