《IQuest-Coder-V1 开源:中国量化基金的 AI 编程突破》

IQuest-Coder-V1 开源:中国量化基金的 AI 编程突破

2026 年 1 月 4 日,九坤投资旗下至知创新研究院正式开源IQuest-Coder-V1系列 AI 编程 Agent 模型,涵盖 7B、14B、40B 三个参数版本。这是国内量化基金首次向产业界输出自研编程大模型,打破了 AI 编程工具由科技巨头主导的格局,为量化投资、企业级软件工程等场景提供了高效、定制化的协同开发方案。

一、 研发背景:量化投资催生的编程需求

量化投资的核心是通过海量数据挖掘与复杂算法构建交易策略,其研发流程涉及高频因子编写、回测系统开发、风控模型迭代等大量编程任务,对代码的准确性、高效性和可维护性要求极高。
传统编程模式存在两大痛点:
  1. 领域壁垒高:量化策略涉及金融工程、统计学、计算机科学等多领域知识,普通编程模型难以理解量化场景的专业逻辑。

  2. 开发效率低:策略迭代周期短,人工编写、调试代码的流程繁琐,难以匹配量化投资 “快速试错、快速落地” 的节奏。

为此,至知创新研究院基于量化投资的真实研发场景,历时两年打造了 IQuest-Coder-V1,实现 “专业场景理解 + 高效代码生成 + 全流程调试” 的闭环能力。

最新科技资讯:AI、核聚变等领域突破 (3).png

二、 核心技术创新:三大突破重塑编程 Agent 能力

1. 项目生命周期 triplet 数据构造

不同于通用编程模型基于单一代码片段训练,IQuest-Coder-V1 采用 **“需求 - 代码 - 反馈” triplet 数据范式 **,数据全部来源于九坤投资真实的量化策略研发流程:
  • 需求侧:收录量化研究员的自然语言策略描述(如 “构建基于分钟线的动量因子,剔除停牌股票影响”);

  • 代码侧:匹配对应的 Python/C++ 策略代码、回测脚本;

  • 反馈侧:标注代码的回测效果、Bug 修复记录、性能优化建议。

这种数据构造方式让模型深度理解 “需求到落地” 的完整链路,而非仅生成语法正确但不符合业务逻辑的代码。

2. 代码流多阶段训练框架

模型采用 **“预训练 - 精调 - 对齐” 三阶段训练流程 **,针对性强化编程核心能力:
  1. 预训练阶段:基于万亿级代码语料夯实基础编程能力,重点学习量化投资常用的 Pandas、NumPy、TensorFlow 等库的调用逻辑;

  2. 精调阶段:引入九坤内部的策略代码库,让模型适配量化场景的代码风格与算法逻辑;

  3. 对齐阶段:通过强化学习优化模型输出,使其生成的代码更符合研究员的阅读习惯,且能直接对接回测系统。

3. 多模态交互与调试能力

IQuest-Coder-V1 支持自然语言 - 代码 - 图表多模态交互,研究员只需输入策略的自然语言描述,模型即可生成完整代码,并自动输出回测结果的可视化图表;若代码运行出错,模型能根据报错信息自主定位问题并修复,实现 “一次输入,全程无忧”。

最新科技资讯:AI、核聚变等领域突破 (5).png

三、 实验性能:真实软件工程测试表现突出

在至知创新研究院搭建的量化编程基准测试集(涵盖 1000 个真实策略开发任务)中,IQuest-Coder-V1 的核心指标显著优于主流开源编程模型:
测试指标IQuest-Coder-V1(40B)主流开源编程模型提升幅度
代码一次性通过率82.7%65.3%17.4%
策略回测效果达标率78.9%59.2%19.7%
平均开发耗时12 分钟45 分钟降低 73.3%

在通用编程基准测试(如 HumanEval、MBPP)中,IQuest-Coder-V1 的 40B 版本也达到了国际开源模型的先进水平,证明其在量化场景之外的通用编程能力。

最新科技资讯:AI、核聚变等领域突破 (4).png

四、 开源价值与行业影响

  1. 打破量化技术壁垒:开源后,中小量化机构、科研团队可直接使用该模型降低策略研发成本,无需投入巨资自研编程工具。

  2. 推动 AI 编程场景化落地:IQuest-Coder-V1 的 “场景定制化” 研发思路,为金融、医疗、工业等垂直领域的 AI 编程模型提供了参考范式。

  3. 赋能企业级软件工程:模型支持企业内部系统的代码生成、维护与优化,尤其适用于需要结合业务逻辑的定制化开发场景。

目前,IQuest-Coder-V1 的代码与模型权重已在 Hugging Face、GitHub 等平台开源,至知创新研究院还同步发布了配套的训练与部署教程,助力开发者快速上手。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。