NSP 范式崛起:AI 从 “预测下一词” 到 “建模物理世界” 的认知跃迁

长期以来,以ChatGPT为代表的人工智能模型深陷“预测下一词”的范式桎梏。这类模型通过学习海量文本的统计规律生成连贯表达,却始终无法真正理解物理世界的运行逻辑,如同能背诵菜谱却不懂烹饪原理的学徒。2025年以来,以智源悟界·Emu3.5为代表的Next-State Prediction(NSP)范式崛起,标志着AI正实现从“符号拼接”到“世界建模”的认知跃迁,开启了理解物理规律的全新阶段。

NSP范式的核心突破在于将训练目标从“预测下一个文本符号”升级为“预测世界的下一个状态”。传统大语言模型聚焦离散的文本Token,而NSP模型通过统一编码视频、图像、文本等多模态数据,构建动态的世界表征。视频作为核心训练载体,天然蕴含时间、空间、物理、因果和意图五大关键要素,模型为最小化预测误差,被迫超越像素模仿,内隐学习重力、摩擦力等底层物理规律。智源Emu3.5通过10万亿多模态Token的训练,已能在内部模拟杯子滑落的轨迹、物体碰撞的声响等真实物理场景,形成了对世界的动态认知。

这种认知跃迁让AI实现了从“感知”到“规划”的能力升级。传统模型仅能被动响应输入,而NSP范式赋予AI“三思而后行”的预判能力。在自动驾驶领域,基于NSP的世界模型可提前模拟复杂路况下的车辆运动轨迹,优化避险决策;工业场景中,这类模型能通过预测机械部件的磨损状态,提前两周预警故障并规划维护方案。这种“理解—预测—规划”的完整闭环,彻底改变了AI作为“工具辅助”的定位,使其成为具备主动决策能力的智能主体。

NSP范式的崛起也重塑了AI领域的竞争格局。行业共识已从“参数规模竞赛”转向“世界理解能力比拼”,国内外科技巨头纷纷布局相关技术。智源研究院的研究表明,NSP模型的跨场景泛化能力远超传统模型,能将在一种环境中习得的物理规律迁移到全新场景,如同人类可在陌生房间轻松开门。这种通用性为具身智能、多智能体协同等前沿领域奠定了基础,推动人形机器人从实验室走向工业生产,多智能体团队协作攻克复杂科研任务。

当然,NSP范式仍面临算力消耗巨大、伦理安全等挑战,但这并不妨碍其成为AGI的核心探索方向。从“预测下一词”到“建模物理世界”,NSP范式不仅是技术架构的革新,更是AI认知逻辑的重构。当人工智能开始真正理解我们所处的物理世界,人机协同将突破数字边界,在科研创新、产业升级等领域释放无限可能,开启人机共生的全新纪元。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。