告别人工标注!大模型新玩法,让机器学会 “无师自通”
在大模型发展初期,人工标注是绕不开的“基础设施”。专业标注员逐句标注文本、逐帧标注图像,为模型构建训练“题库”,不仅耗时耗力、成本高昂,还难以覆盖小众领域与动态场景,成为制约模型规模化进化的瓶颈。如今,随着自监督学习与自我进化框架的突破,大模型正告别对人工标注的依赖,迈入“无师自通”的新阶段。
大模型的“无师自通”,核心是构建闭环的自我学习机制。不同于传统监督学习依赖人工提供的“标准答案”,新范式让模型具备自我生成、自我评估、自我优化的能力。NeurIPS 2025上发布的MM-UPT框架,就为多模态大模型搭建了无监督进化路径,通过“多数投票”自奖励机制,让模型在无标签数据中完成自我提升。

这一技术路径巧妙破解了“无标注如何学”的难题。模型针对同一问题生成多个答案,通过群体共识筛选出“伪标签”作为评估标准,对契合共识的答案给予正奖励,反之则给予负奖励,再借助强化学习算法更新参数。在MathVista基准测试中,基于该框架的模型准确率从66.3%提升至72.9%,性能逼近依赖标准答案的监督学习方法。
数据“自产自销”能力更让自我学习形成可持续循环。MM-UPT框架设计了上下文合成与直接合成两种策略,模型可基于现有样本举一反三生成新问题,或仅通过图像独立创造全新任务,构建源源不断的无标签“题库”。实验证明,仅用模型自生成的数据训练,性能便媲美人类创建的数据集,甚至在部分任务上更优。

前沿研究进一步弥补了自我学习的偏差漏洞。东京大学团队提出的Self-Harmony框架,通过“求解器-重构器”双角色协同,规避了单一视角导致的“回声室”效应,在数学推理任务中,将Llama-3.1-8B模型准确率从60.5%提升至91.6%。这类技术让模型的自我学习更精准、更稳定。
大模型“无师自通”的突破,不仅降低了AI研发门槛,更拓展了应用边界。从冷门学科的知识挖掘到动态场景的实时适配,模型无需人工干预即可持续进化。未来,随着生成质量控制技术的完善,大模型或将真正实现自主迭代,开启人工智能普惠化的全新篇章。
