量化基金+大模型=?
在半年前,面对这道算术题,大部分人都会回答DeepSeek,但随着一篇研究论文的发表,一个新的答案出现了,那就是念空科技。
5月15日,量化私募念空科技向国际顶会NIPS投递了与上海交大计算机学院合作的大模型研究论文,探讨“自适应混合训练方法论”。
这次的故事,不是量化私募砸钱投大模型获得了如何丰厚的回报,而是念空科技“以身入局”,做出了大模型底层理论的研究成果,成为首家闯入NIPS的中国量化机构。
在念空之前,DeepSeek是唯一一家量化私募孵化进行大模型底层理论研究且发表研究成果的公司。相较于“前辈”,念空更进了一步。
在DeepSeek基础上,念空提出了一种全新的更优的训练方法,帮助大模型提升训练效率,是量化行业少有的真正的大模型创新性研究。
从技术层面来看,DeepSeek提出了强化学习的重要性,而念空科技董事长王啸及其团队发现,相比于DeepSeek先进行一段时间的集中SFT(监督微调),再进行集中RL(强化学习)的做法,将SFT与RL交替进行的方式,能够得到更好的训练效果。
一直以来,量化行业都被称为AI的孵化器,念空的技术创新,则实现了让AI更好地反哺量化行业。
王啸发现,“在过往AI在金融数据上的应用经验中,金融数据存在数量较少、信噪比低且不稳定的特点,传统机器学习和深度学习算法更多是对数据集的拟合,拟合效果完全取决于数据集的信息含量和数据的稳定性,这决定了传统机器学习和深度学习等AI算法在金融和互联网数据上的应用难点存在巨大的差异。”
实际上,王啸在ChatGPT出现时,便一早意识到大模型可能会给金融数据的预测带来帮助,“大模型和传统机器学习完全不同,大模型可带来超过子任务数据本身的信息,且具备跨模态理解能力。”
不仅在技术上有革新,对于产学研结合而言,念空和上海交大计算机学院的合作同样意义重大。
学术界存在算力和工程经验相对缺乏的痛点,但具备人才、理论研究和课题方向的优势,能更好地聚焦底层技术突破,产业界则有丰富的资源和场景推动应用落地,二者实现共赢。
大模型作为AI时代最重要的创新,势必要经历研究“走出”高校,研发“走进”高校的阶段,抓住科技创新的“浪潮”,跳出闭门造车的传统研究模式。
一个公司的基因常常决定它今后的命运,和学界紧密联系,才能有机会真正成为大模型行业的“摇篮”。撒出一个小小的学术“种子”,却能在不同领域、不同产业落地开花,改变普通人生活的方方面面。
在量化行业,一直没有出现一个成熟的大模型应用,念空科技通过走“产学研”的路径,在大模型量化投资上或将成为“第一个吃螃蟹的人”。
王啸告诉,如果想将AI更好地在金融领域应用,就必须了解大模型底层是如何运作的。
在王啸及其团队的大模型训练经验中,他们意识到所有垂直领域的训练工作的核心框架基本一致,所以很容易将一个垂直领域的训练框架移植到另一个领域。
一个动作侧面证明了念空还有更大的“野心”——念空科技同时还孵化并成立了AllMind(全频思维),未来的主要工作是对大模型底层算法和工程技术进行研究的同时,更注重包括但不限于金融场景的垂直应用。
量化之于大模型,所能发挥的能量可能远超想象。在市场越来越关注应用侧的大背景下,念空或将从金融AI出发,带动大模型应用向前一步。
技术信仰和应用为王并行,才能在重构全球AI竞争格局中,帮助中国大模型行业释放出潜力、喷发出生命力。
企业加高校的组合,还能让中国基础大模型能力往前再冲一冲,很大一个原因是中国业界累积的数据和语料是独有的优势。
对于一家量化机构而言,持续投入底层理论研究并不是一件投资回报率明确的事情,需要技术驱动的长周期投入,而念空长期坚定选择深耕这一领域,足以体现其战略眼光。
从2019年开始,念空科技已将Transformer的算法应用在实盘产品组合中,这种全链条的智能化也大幅提升了策略开发效率。
从全球范围来看,随着AI大模型竞争加剧,对AI算法就有长期的经验积累的量化行业的“挺身而出”是站位需要。与此同时,国际量化巨头在大模型投资方面,仍处于摸索、试验和辅助阶段,念空的选择也是顺应市场变化,为实现“弯道超车”提前做好准备。
AI技术还能给量化投资带来多少可能性?念空科技在探索大模型上还有多大潜力?带着这些疑问,和念空科技创始人王啸进行了对谈,以下为访谈精编:
01
念空做大模型:有准备之仗
:作为一家全球对冲基金公司,念空是怎么开启自己的AI之路的?为什么会出一篇大模型领域的论文?
王啸:最早2017年的时候,我们成立了一个三个人的AI团队,用一些机器学习的算法在金融数据上做尝试。
第一个项目是在期货上面,但期货数据的量特别少,而机器学习的算法运用在数据量很少的样本上的时候,很容易过拟合,得不到一个好的结果。
2018年,应用到股票上时,发现效果非常好,因为股票的数据量比期货要大很多。到了2019年,我们把线上的实盘模型90%都转变成了神经网络的算法,也就是Transformer。2021年,我们规模达到了百亿,也是因为机器学习和神经网络算法上,整个全流程的应用做得比较好。
2023年是另外一个节点,当时OpenAI出来,我意识到大模型可能对金融数据的预测是有帮助的,因为大模型可带来超过子任务数据本身的信息,且具备跨模态理解能力。
我们过去应用AI的这些算法,绝大部分监督训练都是对历史数据的拟合,但是大模型的核心逻辑是不一样的,所以我们认为它可能是另一个可以预测金融市场走势的模型。
今年DeepSeek的出现不仅带来了智能平权,也揭露了强化学习的重要性,而以前的大模型更多是关注在预训练的监督微调。
由于我们对大模型一直以来具备一定的认知,且有相当的算法和算力的积累,所以今年我们做了大模型的基础理论研究,也就是这篇论文。
:听上去念空在做的研究非常前沿,能不能解释一下到底什么是有别于DeepSeek的“自适应混合训练后方法论”?
王啸:从DeepSeek的训练方法可以看到,他们的方式更像是集中一段时间学习刷题(SFT),再集中一段时间参加考试,对考试结果进行思考总结(RL)。
而我们从人类的学习方法的经验得到启发,如果高频地在刷题和考试经验总结之间切换,可能更有利于学习成绩(推理能力)的提高。
所以我们设计了一种step by step切换SFT和RL的训练方法,在下一个step训练之前根据我们设计的自适应的算法决定下一个step用SFT还是RL。
最终我们实验发现,在三个不同的公开数据集上,我们提出的新的训练框架明显优于单独的SFT、单独的RL以及简单混合SFT和RL,证明我们提出的新的框架是当下更优的后训练方式。
:我们注意到,这篇论文是和上海交大计算机学院合作的,为什么会选择和高校“共创”?
王啸:如果想用大模型去做垂直领域的训练工作的话,你首先得了解大模型训练的所有训练细节,这也是我们做这篇论文的出发点,而为什么和高校合作,是因为学术界和产业界在大模型研究上各有所长和所短,产学结合有取长补短的作用,真正赋能国内人工智能基础研究。
:这篇论文的成果其实非常难得和珍贵,因为很多AI公司现在已经退出了底层大模型的研究。
王啸:对,但更值得关注的事情在于——退出了,然后呢?
像通义千问3的参数量只有DeepSeek的三分之一,但它能力已经超过DeepSeek。这种参数量更少,但能力更强的模型会越来越多,且都是开源的。
以后大部分公司的最大竞争力在于如何用好这些大模型,如何更好地训练它。
大模型就像一个通用型天才,智商非常高,但是即便这样一个人,没有正确的方法教他如何做投资、做量化的话,他也做不到“零帧起手”。
而这一切的基础都是先要充分理解大模型的底层原理,而理解大模型底层原理最好的方法不是看一千篇论文,而是直接上手实践。
:在这篇论文的合作过程中,念空和上海交大计算机学院是“互补”的角色吗?
王啸:对高校而言,他们有科研能力,但资源和算力不足,比如很多高校的算力不足以做大规模强化学习的训练,此外他们也缺乏数据,而我们有更多的工程经验和算力,但是可能没有形成一篇论文的学术经验,双方扬长避短、合作共赢。
:目前念空是否有自研大模型?还是使用开源第三方?
王啸:我们有自研的垂直大模型,是在通义千问3的基础上微调得来的。在做一些理论研究的时候,基本是用千问的模型在上面做训练和实验。
02
始于金融AI,不止于金融AI
:目前念空的AI团队规模如何?
王啸:整个团队的话,大概是几十个AI工程师,70%至80%是从高校自己培养起的,只有少部分是社招过来的。
:大模型工程师的招聘上,选择在学校从零培养似乎是行业共性。相当于从学校开始培养对量化行业的应用能力。
王啸:对,因为我们公司内部的平台完全是IT团队写的,所以不管是生产一个因子特征,还是做这个模型的训练,都是在一个非常规范和一体化的框架里面做事情。
所以对方如果有能力的话,在公司实习6个月以上,他就可以当我们公司的熟手,因为已经完全熟悉我们公司的研究工具。
:念空还成立了独立的AI公司Allmind(全频思维),和公司内部AI团队的分工是怎样的?为什么要单独创立Allmind?
王啸:AllMind的AI团队和念空的AI团队在工作内容上有显著分工。
念空的AI团队主要的工作内容是利用机器学习以及深度学习算法对金融数据进行拟合,场景比较垂直,主要负责具体问题的技术研究和模型优化。
AllMind的主要工作更多是围绕大模型进行,包括大模型训练算法优化和工程技术的研究,高质量CoT数据生产方向的学术探索,包括大模型通用领域的研究工作也有金融场景的垂直应用,希望在AI的基础研究有所突破从而辐射到包括金融在内的更多领域,为业务提供更多的可能性和想象空间。
由于念空是量化私募基金,盈利企业,而AllMind更着眼于大模型的基础学术研究和应用,短期内并不以盈利为目的,且两家公司工作内容完全不同,所以单独创立AllMind。
:不限于金融场景的其他垂直应用研究,念空计划如何着手?
王啸:由于AllMind在大模型所涉及的算法和工程技术有一定的经验和认知积累,以及我们利用大模型在金融数据上SFT和RL的后训练经验,让我们意识到所有垂直领域的训练工作的核心框架基本一致,所以很容易将一个垂直领域的训练框架移植到另一个领域。
比如所有领域都需要优质的prompt和CoT数据,都需要先做SFT让模型获得某个领域的基本认知后再进行强化学习,都需要一个正确且高效的Reward Model。
AllMind短期内会着眼于训练一个基于金融数据的专项大模型,也会着眼于解决当前大模型存在的一些痛点,比如提升大模型的逻辑推理能力,减轻大模型的幻觉问题,探索大模型是否能进行自主创新。在未来还会和学术及产业界合作,在新材料、医药研发、AI助手等领域尝试大模型的应用。
:念空的金融大模型技术已经取得成绩了,未来会考虑推出面向大众的普惠金融应用吗?毕竟这是一个很大的市场,目前也没有看到特别好的产品出现。
王啸:我们确实在做一个比较垂直的项目,这个项目可以给普通的投资者使用,可以更好地帮助中小投资者做好交易。
03
AI会改写传统量化历史吗?
:量化交易模型是否与AI模型有关联?是如何关联的?
王啸:量化做的事情其实就是对未来做预测,预测未来的一个前提是总结过去的经验。比如过去五年A股市场有什么规律,然后应用这些规律来赚钱,这是量化的底层逻辑。
如何总结过去?两种方法,一种是线性模型,一种是利用AI算法的非线性模型。
把所有的影响因子加起来,在没有任何拟合工具的前提下,进行线性的相加,这就是普通的多因子体系。
另外一种方式,将过去五年的基础数据以及一些特征通过机器学习和深度学习算法进行训练,然后让模型对过去五年的规律,做一个总结和归纳,这是非线性模型。
传统的量化公司用的AI技术,通常体现在最底层的AI算法,对过去的历史做一个拟合和归纳总结。
而我们现在认为除了直接用机器虚席算法拟合以外,直接用大模型进行预测也是未来可行的一条路。
:怎么评价一个量化模型的好坏?因子的多与少重要吗?
王啸:所谓的量化模型或者说量化的预测模型,它其实归根结底都只分为两种,一种是以统计驱动的,一种是以逻辑驱动的。
如果说只有两个因子,但那两个是逻辑驱动的因子,那么就算是只有两个其实都可能是有用的。
但是如果那两个因子是基于统计,比如用机器学习挖掘,或者一些数据的拟合,然后在历史中统计一下,那这两个因子就很危险。
从数量上看,也并不是越多越好。和2000个因子相比,10个因子肯定不够;但和2000个因子相比,2万个因子就一定更好吗?噪音也可能增多。
:大模型的幻觉问题会影响量化过程吗?
王啸:量化行业里面有一个指标叫IC,IC就是正确答案和你预测的答案之间的相关性,如果完全正确,IC就是100%。实际上,比如选股的阿尔法模型,它的IC可能只有15%至20%,也就是说它的预测其实并没那么准确。
那些不准的部分也可以认为是幻觉,但是量化交易,并不需要胜率是100%,胜率就算只有49%,也是可能赚钱的。重要的是模型开发完成后进行长期跟踪,及时剔除失效的模型。
:所以说其实应用AI也并不是一定能提升业绩?
王啸:用AI不但不一定会提升业绩,可能会让业绩变得很差。
你可能在训练的数据里面拟合得非常好,你以为拟合出了一个非常聪明的模型,但是如果过拟合的话,你把它运用到未来的数据里面以后,它可能完全是错误的,就会让你亏很多钱。
:看来要做一个量化大模型的护城河还是很高的,就连传统的互联网大厂似乎都鲜少涉足这个领域。
王啸:这个问题就是互联网用AI和金融用AI的最大的差异。
我们招过很多从互联网过来的AI工程师,让他们用AI算法得到一个AI模型,去预测股票的收益率,但是我们发现10个工程师里面起码8个都会失败。
互联网的数据量非常大且很稳定,在互联网行业用AI技术他们可能“得心应手”,但金融数据就完全不是一码事了。
金融数据很少,而且很不稳定,且信噪比非常低。
比如你学习了过去5年的市场环境,发现了一条规律:股票连涨三天了以后,第四天还会涨。也许牛市是这样的,但可能未来三年是熊市,这个规律就失效了。
所以在互联网行业训练大语言模型,它的难点是如何解决算法和工程问题,因为它要连接尽可能多的GPU和服务器进行高效的大规模训练。
金融行业不存在把GPU连起来的问题,一台服务器其实就已经足够用来做训练了。但是你不能把它训练得太好,因为如果把一些不正确的规律拟合得太好的话,未来行情如果不重复或者截然相反时,你可能就会亏钱。
所以金融大模型的难点是如何在过拟合和欠拟合之间找到平衡点。