当前位置：首页 » 资讯 » 新科技 » 正文

腾讯重磅出击！finLLM-Eval 助力金融大模型精准评测，告别数据幻觉！

IP属地中国·北京 编辑：陆辰风 Chinaz 时间：2026-01-20 10:28:10

在人工智能迅速发展的今天，金融行业对数据的准确性和安全性提出了更高的要求。腾讯最近宣布开源了一款名为 finLLM-eval 的评测工具，专为大模型在金融场景中的应用而设计。这一工具在行业内首次引入了无 GroundTruth 的金融数据准确性评测方法，填补了当前市场上对大模型金融领域评测的空白，旨在推动 AI 技术在高风险、高要求的金融领域的安全落地。
finLLM-eval 的核心能力包括多个模块，尤其突出的是逻辑一致性与事实准确性评测模块。该模块不仅提供完整的工程代码和示例评测集，还支持用户自定义评测集，能够自动化输出模型表现的详细信息。用户将获得包括总分、错误点分布、千字幻觉率等在内的完整评测报告，帮助他们深入了解模型的实际表现。
此外，finLLM-eval 还具备端到端金融数据准确性对比模块。这个技术方案的最大亮点在于，它能够在无 GroundTruth 的情况下，基于真实用户的问答自动提取金融事实的三要素 ——“标的 × 时间 × 指标”，并通过内部金融数据库进行验证，省去了人工标注的繁琐。
更为智能的是，finLLM-eval 引入了 AgentAsJudger 的自动化评测机制。整个评测过程无需人工干预，AI Agent 能自动提取事实点与逻辑链，并与相关内容或金融数据库进行比对，准确率高达 96% 以上。这一创新不仅提高了评测效率，也确保了评测结果的可靠性。
展望未来，项目团队计划不断迭代 finLLM-eval，未来将支持非金融指标的数据核验及结果归因等能力，助力金融科技的不断发展与完善。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI渗透率超50%，我国家电企业加速布局未来产业

龙虾风暴下的国产大模型厂商：搭上火箭的Kimi与港股双雄的盛宴

“上架新链接，下架旧链接”，部分电商平台竟这样规避“价保”义务

网贷马甲乱象③｜起底“租机贷”灰色产业链：至少九成客户奔着变现来的︱315守护消费

从“一场秀”到“一条链”，票根经济带动“为兴趣买单、为认同付费”

澎湃回声｜γ-氨基丁酸“助高”营销乱象续：淘宝开展自查工作，下架相关产品

全站最新

AI渗透率超50%，我国家电企业加速布局未来产业

龙虾风暴下的国产大模型厂商：搭上火箭的Kimi与港股双雄的盛宴

“上架新链接，下架旧链接”，部分电商平台竟这样规避“价保”义务

网贷马甲乱象③｜起底“租机贷”灰色产业链：至少九成客户奔着变现来的︱315守护消费

热门推荐

AI渗透率超50%，我国家电企业加速布局未来产业

龙虾风暴下的国产大模型厂商：搭上火箭的Kimi与港股双雄的盛宴

“上架新链接，下架旧链接”，部分电商平台竟这样规避“价保”义务

网贷马甲乱象③｜起底“租机贷”灰色产业链：至少九成客户奔着变现来的︱315守护消费

从“一场秀”到“一条链”，票根经济带动“为兴趣买单、为认同付费”

澎湃回声｜γ-氨基丁酸“助高”营销乱象续：淘宝开展自查工作，下架相关产品

99元电竞鼠标，60g轻量化能有多爽？

上观315·它答非所问，我气到抓狂！消费者不解：AI客服怎成了沟通屏障？

扬州消费者保护“AI助手”上线

从“一场秀”到“一条链”，票根经济带动“为兴趣买单、为认同付费”

追踪｜阿里健康大药房海外店已下架Joybaby相关商品

上观315·街采魔都人：AI客服，是方便还是添堵？

小米新一代SU7“靛石绿”实车进店，本月见

在AWE17万平米展区里，不只有激进的追觅也有龙虾热

千问AI眼镜亮相AWE，将上线实况对话、同声克隆翻译功能