当前位置: 首页 » 资讯 » 新科技 » 正文

腾讯重磅出击!finLLM-Eval 助力金融大模型精准评测,告别数据幻觉!

IP属地 中国·北京 编辑:陆辰风 Chinaz 时间:2026-01-20 10:28:10

在人工智能迅速发展的今天,金融行业对数据的准确性和安全性提出了更高的要求。腾讯最近宣布开源了一款名为 finLLM-eval 的评测工具,专为大模型在金融场景中的应用而设计。这一工具在行业内首次引入了无 GroundTruth 的金融数据准确性评测方法,填补了当前市场上对大模型金融领域评测的空白,旨在推动 AI 技术在高风险、高要求的金融领域的安全落地。

finLLM-eval 的核心能力包括多个模块,尤其突出的是逻辑一致性与事实准确性评测模块。该模块不仅提供完整的工程代码和示例评测集,还支持用户自定义评测集,能够自动化输出模型表现的详细信息。用户将获得包括总分、错误点分布、千字幻觉率等在内的完整评测报告,帮助他们深入了解模型的实际表现。

此外,finLLM-eval 还具备端到端金融数据准确性对比模块。这个技术方案的最大亮点在于,它能够在无 GroundTruth 的情况下,基于真实用户的问答自动提取金融事实的三要素 ——“标的 × 时间 × 指标”,并通过内部金融数据库进行验证,省去了人工标注的繁琐。

更为智能的是,finLLM-eval 引入了 AgentAsJudger 的自动化评测机制。整个评测过程无需人工干预,AI Agent 能自动提取事实点与逻辑链,并与相关内容或金融数据库进行比对,准确率高达 96% 以上。这一创新不仅提高了评测效率,也确保了评测结果的可靠性。

展望未来,项目团队计划不断迭代 finLLM-eval,未来将支持非金融指标的数据核验及结果归因等能力,助力金融科技的不断发展与完善。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新