21世纪经济报道记者董静怡上海报道
随着单一模态的进化触及边界,AI的演进路径是什么?
7月26日,在2025世界人工智能大会(WAIC)主论坛上,商汤科技董事长兼CEO徐立发表了题为《人工智能的十年演进》的主旨演讲,他表示,AI的发展经历了从感知智能到生成式智能的跨越,而下一阶段的突破将依赖于AI对现实世界的主动探索与交互。
徐立开篇即抛出人工智能领域的核心命题:智能的起源。人类智能源于与物理世界的持续交互,而机器智能长期受限于人类知识的有限供给。
2011至2012年,以CNN、ResNet为代表的深度学习算法推动感知AI爆发,但这类模型依赖人工标注数据,泛化能力有限。2017-2018年,Transformer架构的兴起让AI学会从自然语言中提取知识。
徐立指出,GPT-3处理的文本量相当于人类十万年的创作积累,“正是自然语言的高知识密度,促成了模型的强大泛化与通用能力,成为当今通用AI 发展的关键基石。”
然而危机已然显现。徐立预警,当前自然语言数据或将在2027-2028年耗尽,而视觉数据虽丰富却难以有效提炼知识。
“事实上是其产生速度远落后于算力增长速度,造成模型数据需求的‘倒挂’。”徐立表示。
当互联网存量知识消耗殆尽,AI将如何继续进化?徐立将目光投向人类的学习方式——通过与物理世界的交互获得认知。
“当前机器人及具身智能的潜在瓶颈,正在于对此类高质量数据采集的巨大需求。”徐立表示,人类智能的进化源于与物理世界的持续互动,而非单纯的语言或视觉输入,因此,AI的下一阶段发展需要突破“主动交互数据稀缺”的难题。
真实环境的交互成本极高,传统解决方案依赖模拟器,但存在“模拟与现实差距”(Sim-to-Real Gap)。徐立举例说明,当前视频生成模型可能产生违反物理规律的画面,如车辆“幽灵穿越”或响应延迟导致的时空错乱。这些缺陷使得生成数据难以直接应用于现实场景。
徐立表示,需要强大的现实世界理解模型+深度3D理解模型来协同提升该能力。商汤推出“开悟”世界模型。徐立表示,“开悟”世界模型也是视频生成模型,但它考虑了时间、空间的一致性,可以为AI训练提供高质量模拟数据。
“我们也期待和大家一起经历AI发展的三个变化,感知世界,进而更好地理解世界生成世界,最后与现实的硬件交互来改变我们的世界。”徐立表示。