
Yann LeCun 押注的世界模型路线文昌橡塑胶,匹圳黑马也已提前落子。
他们是视启未来,做出全球视觉大模型—— Grounding DINO、DINO-X ——的那支团队。
他们并不满足于「看见世界」,而是正努力把 AI 进步向「预见未来」的能力边界。
现在,他们押注的是隐空间世界模型。
要知道,LeCun 为了这条技术路线,离开 Meta、创办 AMI Labs,完成 10.3 亿美元融资,创下欧洲史上大种子轮纪录。
不同于主流世界模型预测下帧画面长什么样,隐空间世界模型要求 AI 在抽象的表征空间里,学习动作和世界状态变化之间的因果规律。
5 月 15 日,在 2026 全球人工智能终端展暨七届圳人工智能展览会举办的「AGI 前夜:大模型的觉醒时刻」论坛上,视启未来创始人张磊,是在主题演讲中直言:
做世界模型很难,做隐空间世界模型难,但我们会知难而进。
隐空间世界模型为什么是难的那条路?难在哪里?
做出来又意味着什么?
「隐空间世界模型很难,但我们定要做」
随着人工智能加速从数字世界走向物理世界,智能体面临的核心任务已经变了。
不仅要「看见」,而且要「预见」——理解因果关系,把握时空动态,在稀疏反馈与复杂约束下完成规划、决策与学习。
强化学习提供了从交互经验中学习的基本范式。看大语言模型这边,从 ChatGPT 应用强化学习,到 o 系列模型以及 coding 能力的突破,本质上都是系列强化学习法应用的突破。
但物理世界的样本率低、安全约束严、交互成本、环境不可重置,单纯依赖在线试错的法,难以扩展到真实场景。
△AI 生成
张磊的判断是,真正的智能,不能只停留在「看到当前状态就输出动作」的层面。
如果没有对未来状态的预想、对行动后果的预判,智能体就法在物理世界中持续展开决策链条,也难以真正进入现实环境。
这正是世界模型的意义所在:让 AI 从经验数据中学习动作、状态与结果之间的因果关系,在行动前先「想象」下步可能发生什么,为强化学习提供可扩展的内部预演空间。
在张磊看来,当前各种世界模型路线都在不同向上进得很快。但对于机器人和物理智能而言,个核心挑战仍然存在:
模型学到的究竟是像素相关,还是可用于规划和控制的物理规律与因果关系?
模型在像素层面学习,很容易被纹理、光照、背景等细节干扰,学习率低下,不利于学习真实的因果关系和物理规律。
这正是 LeCun 说「在输入空间做预测是糟糕的」的原因,也是隐空间世界模型的出发点。
Latent 表征的价值在于,它可以把维、冗余的视觉输入压缩成抽象的状态表示,过滤掉大量与决策关的像素细节,把学习放到本质的变化规律上。
可以说,表征学习是世界模型中为核心的问题。
换句话说,隐空间世界模型不执着于「未来画面长什么样」,而关注「世界状态如何演化」,因此适学习物理规律和因果关系。
但视启发现,现有的隐空间案还差了关键的步。
大多数 latent 表征虽然脱离了像素,却并不真正「理解物体」。
如果模型不知道场景里哪些是立物体、物体之间是什么关系、哪些变化来自视角、哪些变化来自交互,那么它要直接在隐空间中学习物理规律,难度仍然非常。
原因很简单:物理规律本质上并不作用在像素上,而是作用在物体、结构和关系上。
我们这里也做了张图,便大理解:
△AI 生成
张磊认为,latent 表征须具备理解物体的能力,才能好地学习物理规律。
视启的解法是把物体理解能力引入 latent 表征学习中,通过 2D 感知、3D 表征、分割和语义理解,让 latent 表征具备「世界由哪些物体构成、它们处于什么空间位置、具有什么语义属」的基础认知,再进步学习动作驱动下的状态转移和物理演化。
通过引入物体理解的结构信息,模型可以地对数据进行压缩文昌橡塑胶,从海量数据中学到内在的、为本质的规律。
这样,模型学习的不再是黑盒式表征,而是个具对象、空间和物理的结构化 latent 世界。
因此,视启将自己的路线称为「视觉原生世界模型」,这也是他们和其他隐空间世界模型的关键区别。
为了实现真正可落地的物理世界模型,张磊认为,这类模型需要同时具备三个核心特征:
Object-Centric,以物体为中心。
表征不能停留在像素层面,要具备对物体的理解能力,能够识别世界由哪些对象构成、它们之间如何交互。只有这样,模型才有可能从海量数据中学习到稳定、可泛化的物理规律,而不是停留在表面的视觉相关上。
Action-Aligned,跨本体动作对齐。
把人手动作、机械臂操作以及不同机器人本体的数据对齐到统表示空间,从而地利用大量人类交互数据,帮助机器人快学会如何与环境互动。
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
Causality-Driven,因果驱动。
世界模型要学的,是「执行某个动作之后,世界状态将如何变化」。只有具备这种因果建模能力,世界模型才能真正与强化学习结,支持机器人在与环境持续交互中不断提升决策、学习和泛化能力。
张磊说,视启对向的判断始终正确,只是赛道的热闹程度,确实出了当初的预想。
不过,这反而印证了视启坚守隐空间路线的前瞻——在所有人都往像素空间冲的时候,视启已经在难、也正确的向上积累了先发优势。
从全球视觉大模型,到视觉原生世界模型
张磊对于世界模型的见地,并非空穴来风。
背后是视启长期构建的以物体为中心的视觉理解能力,也是这支团队数年的积累。
视启未来,其核心团队来自粤港澳大湾区数字经济研究院计机视觉与机器人研究中心(IDEA CVR)孵化的DINO-X 团队。
团队已连续出 DINO、Grounding DINO、DINO-X 等代表工作,持续动开放世界目标检测与物体视觉理解的发展。
Grounding DINO 已成为开放集检测的重要里程碑之,而 DINO-X 则是面向开放世界物体理解的全球先视觉大模型。
今年 4 月,谷歌 DeepMind 发表的 Vision Banana 论文中,也多处提到视启未来的 DINO-X 模型。
这篇论文的署名作者包括何恺明和谢赛宁,PVC管道管件粘结胶在 SA-CO/Gold instance segmentation 任务上,强调 DINO-X 是 zero-shot transfer 物体理解的全球 SOTA。
此外,DINO 系列论文也广泛被 Meta 的 SAM2/SAM3、阿里的 Qwen 系列、字节的 Seed 系列引用。这反映出视觉物体理解基模门槛,依赖强大的视觉基座大模型预训练能力。
自 2023 年以来,视启未来凭借 Grounding-DINO 与 DINO-X 系列,在开放物体理解榜单上保持了长的连续先时间。
有趣的是,DINO 的意思是「恐龙」,恐龙也是这个团队各种模型的标志。
他们还有个基于视觉提示做物体检测的模型 T-Rex2 (ECCV 2024),就是恐龙族的霸龙。
DINO 系列解决的核心问题,正是 Object-Centric 世界模型需要的底层能力:让机器真正「看懂」世界由哪些物体构成、它们在哪里、它们之间是什么关系。
视启未来的路线,强调面向真实世界交互的 Object-Centric 表征能力,即围绕「物体是什么、在哪里、如何被引用、如何与环境发生关系」建立统建模能力。
在此基础上,视启未来不仅在 2D 物体检测与分割,3D 物体理解与语义理解上建立了显著优势,也持续向 3D 动作理解延伸,形成了从看见物体,到理解物体,再到理解动作与物体交互的完整能力栈。
从这个意义上说,视启做世界模型并不是转型,而是在其原有技术基础上的顺势延伸。
单个模型的成功还能归因于机会,那么连续做出 Grounding DINO、DINO-X 等这样的全球先物体理解视觉基座大模型,多说明的是团队底层能力已经成型。
对做基础模型的团队来说,这意味着它不仅会「做模型」,掌握了数据组织、预训练范式、能力迁移和任务扩展的系统法,这恰恰是基模训练能力有说服力的体现。
这种能力已经开始在产品上体现。5 月 15 日,视启未来联百度智能云在 2026 全球人工智能终端展上正式发布EgoTwin——全球新的质量 Ego 人手 3D 对齐引擎。
如果说视觉原生世界模型是视启未来的长期技术路线,那么 EgoTwin 就是这条路线在具身智能数据层面的个产品化抓手。
EgoTwin 直击行业卡脖子的难题——把人手操作数据转化为机器人能用的训练数据,数据采集率是行业主流案的 3.75 倍。
重要的是,EgoTwin 并不只是个数据采集工具:它面把人类 Ego 操作转化为机器人可学习的数据资产,另面也为世界模型提供 Action-Aligned 的训练底座,成为「数据引擎—模型迭代—本体落地」闭环的步。
大的愿景,张磊直言:世界模型将成为物理世界 AI 的核心基础设施。
在他看来,数字世界中,大语言模型正在承担类似于 OS(操作系统)的角,底层是 GPU 力,中间是大语言模型,上层是各种各样的 Agent。
这条路已经被充分验证,论是 Coding 域还是其他 Agent 形态,都已经证明走得通。
物理世界里,同样的范式变化正在发生。只不过,物理世界的基础设施除了力之外,还会加入机器人本体。
在这层之上,张磊带的世界模型团队正在通 Learning From Experience 的范式,机器人在学习过程中可以变得加自主、加,由此获得强的物理任务技能。
英伟达科学 Jim Fan 年初说,下个词预测是种预训练范式,现在我们正在经历二次范式转变:下个物理状态预测。
他预言,2026 年将被载入史册,成为世界模型为机器人技术奠定真正基础的年。
张磊支持这个判断,同时强调点:视觉,是物理智能主要的信息入口,也是通向世界模型的关键优势向。
视启未来长期积累的检测、识别、分割、跟踪、3D 物体理解,3D 动作理解与开放世界感知能力,不仅让机器好地「看见」世界,也为其进步建模世界、预演未来、支撑行动提供了坚实基础。
世界目标,吸引世界人才
要做世界的模型,先得有世界的团队。
视启未来创始人兼 CEO张磊,是这支团队重要的底。
张磊博士,师承人工智能奠基人张钹院士,并曾长期在计机科学与人工智能域世界、美国国工程院外籍院士沈向洋先生下工作。
作为 IEEE Fellow,他累计发表 200 余篇顶会议和期刊论文,Google Scholar 总引用已过 7.3 万次。
他曾在微软亚洲研究院、微软总部研究院及计机视觉相关产品部门任席研究员,带研究组从事计机视觉基础研究,及其在大规模图像分析、物体检测、视觉语言多模态理解面的应用,研究成果被广泛用于微软应搜索及认知服务云计平台。
值得提的是,在张磊进行博士造之前,是国内早批参与室内移动机器人研究的人员之。
绕了个大圈,从机器人到计机视觉,再从视觉回到机器人,这条轨迹并非偶然,而是他对物理世界 AI 判断的贯逻辑在驱动。
2021 年,张磊加入 IDEA 研究院,带团队研发 DINO-X 视觉大模型,为机器赋予物体理解能力。
随后其孵化视启未来,将这套能力向世界模型赛道。
视启未来还邀请了张钹院士、沈向洋院士担任科学顾问。团队核心成员主要来自清华大学、微软、腾讯等顶校与国内外科技大厂。
据视启透露,团队中约 50 具有清华背景,约 20 拥有智能驾驶相关经验,80 为 90 后青年人才, 具备海外或国内头部科技企业经历。
近期,视启在北京进步吸引了多位国内机器人和强化学习向的优秀年轻法人才加入。
他们的主动选择加入,本身就是种投票——投的是视启在世界模型向上的技术判断,也是他们对这支团队能够再创辉煌的信心。
做世界模型很难,做隐空间世界模型难。
曾经做出世界视觉大模型的视启团队,正把同样的信念,押注在隐空间世界模型上。
张磊和他的视启未来,正走在将隐空间世界模型贯彻到底、知难而进的路上。
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
