发布日期:2026-06-14 11:17 点击次数:60


裁剪|Panda
今天,由李飞飞链接创立的空间智能公司 World Labs 在合并天发布了三篇本事论文!

三篇论文分别由公司里面实习生主导完成,盘考地方差异,但分享合并个中枢命题:借助已在海量图片数据上历练熟谙的 2D 生成模子,裁减 3D 内容生成的难度门槛。

值得提神的是,正如 World Labs 链接首创东说念主 Justin Johnson 所言,尽管该公司此前已有用果展示,但这三篇论文确是该公司的首批论文(first-ever papers)。

回到这三篇论文的主题:3D 内容生成。这是一个持久以来「提及来肤浅、作念起来极难」的领域。
实践宇宙是三维的,但历练数据绝掀开阔是二维的(包括像片、视频、图像),而不是带有体积、深度和装束关系的齐全空间结构。一朝转入三维,历练数据骤减,几何一致性的堤防变得指数级复杂。
曩昔数年,盘考者们依然找到了一条可行旅途:不从新历练 3D 生成模子,而是将 2D 扩散模子的浩大先验智商转移到 3D 生成任务中。
World Labs 此次发布的三篇论文,分别从不同角度延长了这条念念路。

三项盘考的具体切入点各有侧重:
World Tracing 科罚的是「从单张图像规复可见名义之外的齐全三维几何」问题;
Modality Forcing 探索的是「怎么让一个文生图模子同期具备深度感知和 3D 推贤达商」;
Flex4DHuman 则将问题延长到时期维度,尝试从普通单目视频中栽植出可合成的动态 4D 东说念主体。
值得提神的是,就在论文发布的合并天,World Labs 链接首创东说念主 Christoph Lassner 在酬酢媒体上通知因病将离开公司,为这场学术亮相增添了一点东说念主事变局的注脚。

底下我就来具体望望 World Labs 的首批论文。
World Tracing
让每一个像素,都指向一个齐全的 3D 宇宙
如若你手中只好一张像片,你能从中规复若干三维信息?
学问告诉咱们:很有限。像片仅仅实践宇宙在某一时刻、某一视角下的投影,深度信息丢失,装束面后方的空间王人备缺席。现时主流的单图转 3D 圭臬,经常靠近一个两难逆境:要么作念深度算计(精准但只可规复可见名义);要么作念生成补全(瞎想力丰富但为止通常偏离原始图像的视觉细节)。
World Tracing 有计算试图同期消解这两种过失。

论文标题:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
论文地址:https://arxiv.org/abs/2606.13652
技俩地址:https://haoz19.github.io/world-tracing-page/
论文由 Hao Zhang 主导,团队成员包括 World Labs 链接首创东说念主 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等东说念主。

中枢念念路是:将每一个输入像素视为一条射线,沿着这条射线揣度一组有序的三维坐标点——第 0 层是可见名义,之后各层瓜代是沿该射线地方的被装束几何体。论文将这种示意称为「pixel-aligned multilayer geometry representation」(像素对王人的多层几何示意),具体完满为一个多层 XYZ 坐标张量(multilayer XYZ stack)。

换句话说,World Tracing 给每个像素对应的不仅仅一个三维点,而是一叠有序的三维点,记载了这条视野穿越场景所经过的总计几何层:第 0 层是径直可见的名义,更深的层则冉冉揭示被出路物体装束的心事几何体。
九游体育中国官网入口这就像是把相机比作一支铅笔:普通深度算计只可画出物体的综合线,而 World Tracing 试丹青出这支铅笔穿透纸张时,另一面的边幅。
揣度这种「深度堆叠」自身是极高难度的任务,因为装束面的几何信息压根莫得出目下图像中,模子必须依赖对实践宇宙空间结构的「学问」来进行推断。
为此,盘考团队罗致了扩散模子来对这组有序深度值建模。扩散模子自然稳健处理带有不祥情味的散布式揣度,而非给出单一详情谜底。
更枢纽的是,通盘揣渡过程弥远对王人于原始输入图像的像素坐标。可见名义的深度被精准地「锚定」在图像信息中,而不行见部分的补全则在这个按捺框架下进行生成。这使得最终的三维重建既诚笃于输入图像,又具备齐全的空间结构。
论文中展示的案例覆盖了静态物体、室表里场景,乃至动态宇宙建模。团队还发布了论文代码、技俩主页和 Hugging Face 在线演示,让外界能够径直测试这套圭臬对随性图像的处理效果。

关于 World Labs 这么以「空间智能」为中枢居品地方的公司来说,World Tracing 的意旨在于:它提供了一种从单张图像启航、径直规复丰富三维结构的本事旅途,而不需要多视角输入或雀跃的三维数据标注。这与 Marble 居品「从图像生成可探索三维宇宙」的中枢痛快高度一致。
Modality Forcing
一个模子,同期表现颜料、笔墨和深度
深度算计和图像生成,在传统上是两个王人备独处的任务,分别需要特意的数据集和独处历练的模子。前者需要精准的深度标注(LiDAR 扫描或双目视觉),后者依赖海量图文对。两套任务的数据限制出入悬殊——图像生成模子见过数十亿张图片,而深度模子的历练数据量经常仅仅零头。
这种分歧称,催生了一个当然的问题:能否让依然在海量图文数据上历练熟谙的文生图模子,径直学会对深度的感知?
Modality Forcing 给出了一个肯定的复兴,并走得更远。

论文标题:Modality Forcing for Scalable Spatial Generation
论文地址:https://arxiv.org/abs/2606.13676
技俩地址:https://modality-forcing.github.io/
这篇由 Bardienus Duisterhof 主导的 World Labs 实习盘考,中枢观念是:文生图是一种可彭胀的 3D 推理预历练宗旨,只消用对历练战略,合并个模子不错在 RGBD 生成、深度算计和深度要求图像生成三项任务之间开脱切换。

论文建议的圭臬名为「Modality Forcing」,其中枢思制是:给 RGB 和深度两种模态分别分派独处的扩散噪声时期步(per-modality noise levels)。

历练时,RGB 和深度各自被加入不同进度的噪声,同期接纳各自独处的耗损监督;推理时,只需固定某一模态的噪声步为 0(即视为已知要求),对另一模态齐全去噪,便可完满图像→深度(I2D)或深度→图像(D2I)的要求生成;两者均加噪则为链接生成。
由于深度在像素空间(而非 VAE 隐空间)中径直扩散,模子不错从仅含寥落深度标注的真正宇宙数据中学习,不再局限于依赖密集标注的合成数据集。
这种念念路的上风在于:不需要异常引入独处的深度收集,也不需要为每个任务单独遐想架构分支。一个预历练的文生图模子,通过 Modality Forcing 微调之后,就具备了对场景几何的径直感知智商。
从本事旅途来看,Modality Forcing 与连年来流行的多任务扩散模子盘考(如 Marigold、Depth Pro、Lotus 等)地方一致,但其专有之处在于对「生成」与「感知」两类任务的长入处理。深度算计经常被视为一个判别任务(给定图像,输出深度值),而文生图是一个生成任务。
Modality Forcing 的孝敬在于证据:这两种任务之间的界限比瞎想中无极得多;生成智商的积聚,不错径直转换为感知智商的栽植,反之也是。
对 World Labs 来说,这项盘考的意旨延长到居品层面:Marble 的 3D 宇宙生成需要对场景深度的精准表现。一个同期具备生成和感知智商的长入模子,关注世界杯!,2026世界杯文字直播将使 3D 宇宙的构建愈加自洽,幸免深度算计模块和生成模块之间的累积差错。
Flex4DHuman
从一段手机视频,「升维」出可合成的动态东说念主体
如若说前两篇论文处理的是静态或通用场景,Flex4DHuman 则将挑战聚焦于一个更具体但雷同蹙迫的子问题:怎么从一段普通的单目视频(比如手机拍摄的日常视频),重建转移态东说念主体的齐全四维结构,即三维空间+时期维度。
这个问题的难点在于「单目」两个字。多目次像系统不错通过视差径直测量三维坐标,但单目视频丢失了这种几何按捺。从单目视频重建瓦解中的三维东说念主体,本色上是一个欠按捺问题:合并段视频序列,表面上对应无数种可能的三维瓦解轨迹。此前的圭臬大多依赖优化过程,盘算推算耗时,且难以泛化到历练集之外的姿态和外不雅。
Flex4DHuman 由 Yipeng Wang 担任技俩负责东说念主,第一作家为 Jen-Hao Cheng,使命在 World Labs 实习时间完成。

论文标题:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
论文地址:https://arxiv.org/abs/2606.13655
技俩地址:https://andy-cheng.github.io/Flex4DHuman/

圭臬以阿里巴巴的 Wan 2.1(一个 1.3B 参数的文本生成视频 DiT)为基础进行微调,中枢编削只好一处:将原有的时空位置编码替换为一套五轴位置编码(five-axis positional encoding),在原有的空间坐标和帧序索引之外,异常引入视角槽索引和一语气 SE(3) 相对相机几何,使模子在提神力机制里面径直感知相机之间的相对位姿关系。

这个遐想带来了一个枢纽上风:不需要骨架算计(skeleton)、深度图或法线图等显式几何先验,仅凭相对相机姿态就能开动多视角视频的同步生成。这与此前主流圭臬(如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染)形成明白对比。
给定一段单目参考视频和宗旨相机姿态,模子径直输出在时期上同步、视角上一致的多视角视频序列;再将这些多视角视频送入 FreeTimeGS 重建管线,即可得到动态 4D 高斯示意(4D Gaussian Splats)。
这套历程将视频扩散模子的浩大外不雅先验与 4D 高斯的高效渲染智商联接起来,使得从一段舞蹈视频或行走视频启航,不错将其中的东说念主物「升维」为齐全的动态 4D 金钱,再合成进随性 3D 场景。这关于数字内容创作、编造制片和 AR/VR 应器具有径直价值。

论文还考证了圭臬超出东说念主体的泛化性:合并个模子经过极少微调后,不错实践到多物种动物的多视角生成,在跨物种零样本测试中仍保抓较强性能,标明圭臬的中枢遐想不依赖东说念主体特有的几何假定。
论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与雷同基于单目参考视频的 Diffuman4D-mono-skeleton 比较,Flex4DHuman 在 DNA-Rendering 上 PSNR 栽植约 9.3 dB;在零样本的 ActorsHQ 测试集上,PSNR 也卓绝敌手约 3.4 dB。
从更宏不雅的视角来看,Flex4DHuman 代表了「2D 视频数据赋能 3D 宇宙建模」这一本事道路的一个典型样本。手机视频是东说念主类日常坐蓐最多的数据步地,如若能够高效地从中索求四维信息,将极大彭胀 3D 宇宙模子的历练数据起首。
联创 Christoph Lassner 通知下野
就在三篇论文发布的合并天,World Labs 链接首创东说念主 Christoph Lassner 在 X 平台发帖,通知我方将离开公司,开启下一段旅程。

Lassner 是 World Labs 四位链接首创东说念主之一,另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他持久从事盘算推算机视觉与盘算推算机图形学交叉领域的盘考,专注于从 2D 图像和视频中规复可用的三维内容。
在加入 World Labs 之前,Lassner 的干事轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 使命,该公司后被亚马逊收购,专注于基于图像的三维东说念主体建模;在亚马逊时间,他主导建筑了 Amazon Halo 智高手环的三维体型估算系统,用户仅需手机自拍,即可获取精准的三维躯壳模子。而后,他先后在 Meta Reality Labs Research 和 Epic Games 主抓盘考团队,深耕神经渲染和 NeRF(神经放射场)关系本事,2022 年 Meta Connect 大会上展示的及时放射场渲染演示,恰是他所在团队的效果之一。他还建筑了 Pulsar 渲染器,一种基于球体基元的可微分渲染器,其后成为 PyTorch3D 的后端组件之一,在学术界得到闲居专揽。

Lassner 于 2024 年头与李飞飞等东说念主共同创立 World Labs。公司于同庚 9 月从隐身状况中走出,以约 10 亿好意思元估值完成 2.3 亿好意思元融资,投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月,World Labs 完成了由 Autodesk 领投的 10 亿好意思元新一轮融资,估值跃升至约 50 亿好意思元。
三篇论文的致谢列表中均出现了 Lassner 的名字,这意味着他在任时间积极参与了这些实习盘考技俩。
关于下野的原因,Lassner 在公开声明中作念了坦诚的证据:曩昔几个月里,他资格了数起个东说念主事故,其中包括一次变成多处骨折和脑颤动的有时,目下仍在规复中。这段强制休息的时期让他有契机再行注视我方的处境,并作念出了退出日常运营职务的决定。他同期示意,将接续以参谋人身份撑抓公司,并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中给以的表现和撑抓抒发了感谢。
在向公司里面团队发送的信件中,Lassner 写说念,他「敬佩 World Labs 以及咱们正在构建的奇迹的蹙迫性」,公司目下所处的强盛位置让他确信此刻是交棒的合应时机。他示意,我方下一步的谋划尚不解确,但「对行将到来的事感到兴奋」。
结语
三篇论文同日亮相,对 World Labs 而言是一个值得记载的时期节点。这家公司自 2024 年创立以来,主要以本事博客和居品的步地与公众碰面:Marble 宇宙模子的内测与公测、World API 的怒放、Spark 2.0……而此次是公司初次以 arXiv 预印本步地隆重发表学术论文。
此次的集体亮相,链接首创东说念主 Justin Johnson 在 X 上的批驳简略最能证据其布景意涵:「3D 是一个令东说念主兴奋的领域,咱们仍在摸索正确的任务界说、问题步地、模子架构,以及最好的彭胀方式。咱们在这里分享一些想法,由一批出色的实习生主导完成。」
语气温和,但地方很澄莹:World Labs 正在将「空间智能」的盘考道路推向更深处,并适意在这一过程中与学术社分辨享我方的念念考。
文中视频流畅:https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ2026世界杯数据统计