当前位置: 首页 » 资讯 » 新科技 » 正文

首个信贷多模态评测基准背后的产业与学术对话:寻找金融领域的ImageNet

IP属地 中国·北京 编辑:冯璃月 TechWeb 时间:2026-02-06 14:10:45

2月5日,围绕“信贷多模态AI如何定标准”,奇富科技举办了一场聚焦产业与学术前沿的直播讨论。直播中,奇富科技联合复旦大学、华南理工大学研究人员近期发布的首个面向信贷场景的多模态评测基准FCMBench-V1.0成为核心议题。该评测基准源自真实信贷业务场景,围绕多模态感知、推理与决策等关键环节设计评估任务,并同步开源数据集与评测工具,试图为金融AI建立一把可被广泛认可的“尺子”。

“信贷多模态AI如何定标准”主题直播现场

在这场对话中,来自产业一线与学术前沿的三位嘉宾,从不同视角指向了同一个问题:如果没有统一标准,金融AI很难真正落地。

作为奇富科技多模态负责人,杨叶辉博士首先从产业实践谈起。他用“锄头与土地”做比喻,形象阐释了AI与应用场景之间的关系:AI是工具,而金融、医疗这样的高门槛行业则是足够“肥沃”的土地。正因为金融业务对隐私、安全与合规有着天然的高要求,模型能力是否真的可靠,不能只靠“自说自话”。

奇富科技多模态负责人杨叶辉直播分享现场

“评测先行,本质上是在做一把尺子。”杨叶辉指出,当前金融机构在选择模型和方案时,常常陷入“不同模型分别声称得到了95分和98分,到底哪个好?”的困惑。没有统一、公平、公开的评测体系,决策就容易失焦。FCMBench的价值,正在于把模型拉到同一条起跑线上,让能力在真实业务条件下接受检验。

为此,FCMBench在设计上强调“实战性”。从合规前提下重构数据体系,到任务层面对真实业务流程的映射,再到对光线、角度、反光等十余种真实干扰场景的模拟,评测直指金融风控中最具挑战性的推理问题。比如,职业信息与异常流水之间的矛盾识别,正是检验大模型是否具备金融推理能力的关键一环。杨叶辉坦言,做评测基准并非短期收益项目,但从长期看,行业共识和开源力量的形成终将反哺业务本身。

华南理工大学许言午教授则从跨行业经验出发,为金融AI的发展提供了另一种参照。他指出,很多人直觉上觉得AI在金融领域“存在感不强”,其实并不准确。AI早已深度参与保险定价、资产评估和量化交易,只是这些价值并不直接呈现在ToC产品中,因此“看不见”。

华南理工大学长聘教授,人工智能与数字经济广东省实验室(琶洲实验室)研究员许言午直播分享现场

对比医疗AI长达十余年的研发与审批周期,许言午认为,金融行业更短的业务迭代周期,反而为模型评测和更新提供了现实土壤。他将数据集的发展分为三个阶段:先夯实数据质量,再通过学术与赛事运营形成影响力,最终获得行业层面的官方认可,成为类似托福、雅思那样的“准入门槛”。在他看来,FCMBench正处在一个极具潜力的起点。

从更宏观的视角出发,复旦大学陈涛教授将讨论拉回到AI发展史本身。他指出,深度学习真正的分水岭,并不只是算法突破,而是ImageNet的出现,让评测尺度第一次实现了数量级跃迁,终结了小数据集时代“各说各话”的局面。

复旦大学人事处副处长、教授、博士生导师,上海创智学院导师陈涛直播分享现场

“金融AI现在正处在类似的阶段。”陈涛强调,从数据规模、任务覆盖度到评测设计的系统性来看,FCMBench已经是目前国内金融领域,乃至国际金融AI研究中规模最大、最具权威性、同时也是少有的统一评测基准。更重要的是,它并非为某一家机构服务,而是以行业共识为目标,定义了真正有价值的问题边界。

在陈涛看来,好的数据集本身就是对“好问题”的定义。重要的是,金融AI不能停留在通用模型的预训练与微调阶段,而应构建内生的金融思维链,让模型天然理解利率、规则与风险,实现安全可信的推理能力。这也是学界与产业必须协同解决的问题。

在总结环节,主持人、36氪高级内容总监杨轩表示,奇富科技率先迈出了关键一步,但要让金融AI真正走向规模化、规范化发展,仍有赖于产业、学界与研究机构的持续共建。她也在直播中向行业发出邀请,期待更多伙伴参与到数据集测试、评测与赛事中来,让这个“金融领域的ImageNet”,在协同中不断校准,在共识中真正成型。(果青)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。