锦缎
每当我们翻阅财报时,可能只想或许关键的财务信息,但总是受到财报中纷繁复杂的业务表述、冗长的管理层发言的干扰,需要耗费大量精力去甄别有用的财务信息。
特别是港股美股,国内的大多数金融软件,都是基于国内市场财务准则构建的信息展示,面对非标财务报表,总会出现部分摘取科目的错误。
进入AI大模型时代之后,这样的财务研究障碍或将被攻克毕竟模型最擅长的,就是语言文字的总结归纳和数据的计算。
本文之中,我们即着手对六大国内主流大模型进行评测,用以探究下其财报分析能力,究竟发展到什么水平,又存在怎样的问题?
阅读提示:鉴于评测内容过于硬核与篇幅较长,获取最终评测结果可直接拉至文报告底部结论部分。
01 评测对象、逻辑与标准
评测对象我们挑选了国内主流的6大模型:
深度求索(DeepSeek-R1)
阿里千问(Qwen3-235B-A22B)
腾讯混元(Hunyuan-T1)
月之暗面(Kimi-K1.5)
百度文心(ERNIE-X1-Turbo)
智谱(GLM-4-Plus)
评测逻辑方面,我们采取了分层进阶的问题构建,要想成为一个优秀的AI财务分析师,必须具备多层次的能力。
因此,我们设计了四个层级的测试,六个维度的问题,从基础到高级,逐步深入:
第一层:基础信息提取
AI必须具备的最基本的能力,模型必须能够准确读取财报。如果数据提取都出现错误,那么分析将变得毫无意义。
第二层:分析计算与核验
计算是模型最擅长做的事情,但模型还要会使用数据,从阅读器成长为分析员。
第三层:归纳推理与洞察
模型需要看得更深。要能超越字面信息,发现文字背后隐藏的逻辑。因此围绕第三层,我们设计了两个考核维度,分别是高效的归纳和提炼能力以及敏锐的风险和情感识别能力。
第四层:战略总结与外部知识整合
顶尖的分析需要行业视野,因此要理解企业的战略表述。同时知识库中有限的内容是不够的,模型需要连接外部世界,进行横向比较。为此我们同样设计了两个考核维度:企业策略与定位的识别和外部信息搜索与整合。
标准层面,我们对每一个模型都输入相同的prompt(后文中有详细提示词信息),来保持规则的统一。
02 六项财务分析能力横评
1)精准的数据提取能力模型基础功底,精准才是王道
模型能否像一位严谨的会计师,从PDF财报中分毫不差地提取关键财务数据、特定费用项目以及管理层提到的业务成就。此项能力的表现,直接决定了后续所有分析的可靠性。我们将重点考察其准确率和稳定性。
prompt:
Test1.1:请根据提供的美团-2025年第1季度财务报告,提取以下关键财务数据,以表格形式返回结果:1.营业总收入;2.营业成本;3.净利润。
Test1.2:请找出并列出以下费用项目的具体金额,以表格形式返回结果:1.研发费用;2.销售及市场推广费用。
Test1.3:请仔细阅读美团-2025年第1季度财务报告中的业务回顾及展望部分,总结出管理层提到的本季度最重要的三个业务亮点或成就。|
评测结论:
本文评测的所有模型都顺利完成了指定核心财务数据和特定项目费用的提取。
其中,ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B,还贴心地将财报中的单位由千元转变为亿元,更加贴合用户习惯。
对于非财务关键信息,模型的聚焦点则略有不同,但大多集中于核心本地商业收入和利润的强劲增长、闪购和即时零售业务的快速发展、餐饮外卖业务的持续优化以及骑手权益保障体系的升级等方面。
2)严谨的计算与核验能力不只会计数,更要会解释
在提取数据后,模型能否扮演审计员的角色?这包括两个层面:
一是能否运用正确的公式,基于提取的数据计算出毛利率、流动比率等核心财务指标并解释其含义;
二是在面对管理层的业绩声明时,能否独立进行数据核查,判断其真伪。这是对模型逻辑推理和批判性思维的直接考验。
prompt:
Test2.1:根据美团-2025年第1季度财务报告中的数据,计算该公司的毛利率。请列出计算公式、使用的具体数据,并解释这个毛利率数值反映了公司怎样的盈利能力。
Test2.2:请使用美团-2025年第1季度财务报告中的资产负债表数据,计算该公司的流动比率。请说明你使用了哪些数据进行计算,并解释该比率所揭示的公司短期偿债风险。
Test2.3:管理层在报告中声称核心本地商业的经营利润率同比提升3.2个百分点至21.0%。请根据财报数据核实这一说法的准确性,并说明你的判断依据。
评测结论:
六个模型中,仅有Kimi-K1.5未能通过这一项测试。
Kimi-K1.5明明已经获取到正确的营业收入和营业成本,但在计算时却出现错误,正确答案应为37.4477,而该模型得出的答案为37.49。
图:Kimi-K1.5计算毛利率
与此同时,Kimi-K1.5在计算流动比率时,将简明综合财务状况表中的现金及现金等价物错误识别为流动资产总额,导致另一处计算错误。
图:Kimi-K1.5计算流动比率
而财务比率的解释,各模型均给出了上述财务比率的定义以及短期偿债能力稳健的结论。
除此之外,不同模型给出的其他信息也有所不同:
DeepSeek-R1:美团资产结构的优势、风险揭示和需关注的隐患;
ERNIE-X1-Turbo和GLM-4-Plus:未给出其他多余信息;
Hunyuan-T1:安全边际充足、资产流动性结构优势、流动负债可控及潜在风险点;
Kimi-K1.5:盈利能力较强、成本控制有效、业务结构优化等盈利能力反映;
Qwen3-235B-A22B:盈利能力、成本控制能力的解释及行业对比。
数据核验方面,各模型均正确计算了2024年和2025年第一季度的经营利润率,验证了提示词中的给定说法。
值得注意的是,DeepSeek-R1还给出了业务意义,而Hunyuan-T1则附带了潜在风险提示。
3)高效的归纳与提炼能力从复制粘贴到提炼精华
财报信息繁杂,能否为不同受众提炼核心要点,是衡量AI效率的关键。
本项能力考察模型能否像一位资深编辑,既能为普通投资者撰写一份通俗易懂的200字业绩摘要,也能精准概括出管理层在讨论与分析部分提到的主要挑战。
我们将评估其摘要的准确性、完整性和信息价值。
prompt:
Test3.1:请面向一位普通的国内投资者,用不超过200字,总结这份财务报告最重要的三个结论。
Test3.2:请总结管理层讨论及分析部分提到的公司面临的主要挑战。
评测结论:
整体表现摘要方面,各模型都能够准确地以数据为支撑给出正确结论。
其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B能够将结论分条进行罗列,结构层次相比另外两个模型将结论放到一段话中更加清晰。
DeepSeek-R1还展现出了另外一个亮点,即使用赚钱能力飙升、家底厚抗风险等通俗易懂的语言风格。
特定章节摘要方面,各模型都展现出了良好的信息定位准确性和归纳与条理性,能够准确定位原文位置并对公司面临的挑战进行逻辑归纳与分类,以清晰的分点阐述形式呈现,具备较强的可读性。
其中,DeepSeek-R1、ERNIE-X1-Turbo和Qwen3-235B-A22B都在回答过程中展示了相关数据,使其结论更具说服力,而DeepSeek-R1还额外标注了信息来源。
对于信息全面性,GLM-4-Plus虽然给出了多种答案,但由于缺乏具体依据支撑,内容略显空洞;而ERNIE-X1-Turbo则一如既往地延续了简练的回答风格。
4)敏锐的风险与情感识别能力读懂字里行间的弦外之音
顶尖的分析师能读出字里行间的意思。我们通过本项能力,测试模型是否具备这种高级认知能力。
它能否识别出财报中未明说但隐含的业务风险;能否综合业绩和管理层措辞,对整份报告传递出的整体情绪基调(乐观、谨慎、悲观)做出准确判断。
prompt:
Test4.1:财报是否暗示了任何其他潜在的业务风险?请举例说明。
Test4.2:综合整份财报的业绩数据和管理层的措辞,你认为这份报告向投资者传递的整体基调是乐观、谨慎还是悲观?请给出你的判断,并提供至少2个理由。
评测结论:
在分析潜在业务风险时,除Kimi-K1.5以外的模型都能够根据财报中提及的说法分条列举潜在风险。
Kimi-K1.5则从宏观角度出发,根据美团的主营业务进行分析,并未注重于财报中隐藏的信息。
图:Kimi-K1.5分析潜在业务风险
此外,Kimi-K1.5在最初的回答中一次给出了50种风险,令人疑惑。
DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B给出的回答最为清晰,使用固定的结构并明确给出信息来源,令用户一目了然,快速明确风险。
DeepSeek-R1首先按照风险种类-驱动事件-财报原文-风险点的结构进行阐述,此后给出财报中未明示但可推导的风险,最后给出结论和针对投资者的建议。
图:DeepSeek-R1分析潜在业务风险
Hunyuan-T1和Qwen3-235B-A22B也采用了类似的回答结构,在准确把握核心矛盾的同时展现了强大的推理能力。
ERNIE-X1-Turbo和GLM-4-Plus采取了分段论述的方式,在每段中阐述了风险的产生原因和财报中的论据出处,内容完整但扩展内容不够丰富,结构相比上述三个模型不够清晰。
整体情绪判断任务中,六个模型给出的整体基调均为乐观。
但DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都直接或间接采用了谨慎乐观的说法。
GLM-4-Plus和Kimi-K1.5虽然识别出了报告中提及的风险和挑战,但认为瑕不掩瑜。
ERNIE-X1-Turbo的回答中则没有提到任何悲观因素。
由此可知,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B通读全文并把控整体情绪的同时,对于细节的理解和大局观都要略胜一筹,具备兼顾事实和情感的平衡能力,其结论也更加立体和可信。
5)企业策略与定位推断能力需要知识储备的综合题
这是从数据到洞察的飞跃。
模型能否结合财报数据和自身知识,扮演战略分析师,识别竞争格局;我们要求模型基于毛利率和研发投入等数据,推断公司的竞争策略(是成本领先还是技术驱动),并综合各项信息,评估其在行业中的市场地位(是领导者还是挑战者)。
prompt:
Test5.1:请根据美团-2025年第1季度财务报告中对其业务的描述,并结合你的通用知识,列出该公司所在行业的主要竞争对手(至少两家)。
Test5.2:请分析报告中的毛利率(Gross Margin)和研发费用占收入的比例。基于这两个数据,并与你所知的该行业典型水平进行比较,推断该公司更可能采取哪种竞争策略:是成本领先策略(追求高效率和低成本),还是差异化/技术驱动策略(追求产品独特性和高附加值)?请说明你的推理过程。
Test5.3:综合整份财务报告(包括其收入增长率、利润率水平以及管理层的讨论),请对该公司在本行业中的市场地位给出一个综合评估。你认为它更接近于行业领导者、强有力的挑战者,还是一个特定的利基市场参与者?请提供至少两点证据来支持你的结论:
1.一个来自财务数据(例如:高于/低于行业平均的利润率或增长率)。
2.一个来自管理层讨论与分析部分的定性描述。
评测结论:
在识别竞争格局时,本文测试的六个模型均能准确列出当前市场中最主要的竞争对手(饿了么、抖音本地生活服务和京东到家),并将具体业务线进行对应。
证明AI具备将财报中的业务描述与知识库中的现实世界商业实体进行精准匹配。
不过,各模型给出的回答思路有所不同。
DeepSeek-R1、GLM-4-Plus、Hunyuan-T1和Qwen3-235B-A22B先列出竞争对手,再给出其竞争领域和依据。
ERNIE-X1-Turbo和Kimi-K1.5先列出竞争领域,再给出主要竞争对手和竞争关系。
其中,DeepSeek-R1和Hunyuan-T1在给出依据时引用了财报原文,使答案更具备说服力;其他模型则更多根据通用知识库中的内容进行回答。
此外,Qwen3-235B-A22B和Kimi-K1.5分别注意到国际竞争对手和自有外卖系统,是意外的亮点。
推断竞争策略则是本次测评中难度最高的一项任务,需要AI模型完成数据提取-外部知识比对-商业理论应用-逻辑推理的完整闭环。
数据提取方面,GLM-4-Plus使用了假设数据,从而导致后续分析中使用的毛利率数据错误,其结果不具备参考性;而其余模型都提取到了正确的数据。
图:GLM-4-Plus推断竞争策略
在推理分析过程中,尽管行业平均数据不具备权威性,但除了ERNIE-X1-Turbo外的模型均以行业平均数据作为参照物进行了外部知识比对,有效提高了分析质量。
图:ERNIE-X1-Turbo推断竞争策略
由于各模型的关注点有所不同,ERNIE-X1-Turbo、Hunyuan-T1和Kimi-K1.5能够基于上述比较和结论,生成一个nuanced的结论,而非从提示词中进行二选一。
至于对市场地位的评估,六个模型通过引用管理层讨论原文、定量分析和定性分析等方式,全部给出了行业领导者的判断,论证过程严密,具备较高的可信度,且模型之间基本不存在能力差异。
6)融合外部知识的联网比对能力能力边界的拓展
最后,我们打破单一文档的限制,考察模型连接现实世界的能力。
它能否通过联网搜索功能,获取竞争对手同一时期的财务数据(如毛利率、流动比率等),并进行准确的横向比较。
prompt:
Test6.1:2025年第1季度,相比京东、阿里、百度和快手,美团的销售毛利率这一指标排名如何?可通过联网搜索获取所需数据,但必须保证数据的准确性,禁止编造或假设数据,禁止使用虚假数据。
Test6.2:2025年第1季度,相比京东、阿里、百度和快手,美团的流动比率这一指标排名如何?可通过联网搜索获取所需数据,但必须保证数据的准确性,禁止编造或假设数据,禁止使用虚假数据.
Test6.3:2025年第1季度,相比京东、阿里、百度和快手,美团的资产负债率这一指标排名如何?可通过联网搜索获取所需数据,但必须保证数据的准确性,禁止编造或假设数据,禁止使用虚假数据。
此项能力直接关系到AI作为智能助手的实用价值。
评测结论:
本次评测的六个模型对于联网信息的搜集能力均不理想。
对于销售毛利率,尚有DeepSeek-R1、ERNIE-X1-Turbo和Hunyuan-T1能够获取五家公司的全部正确数据。
而流动比率和资产负债率则没有任何一个模型能够获取全部正确数据。
DeepSeek-R1和ERNIE-X1-Turbo的信息搜索能力相对最强,均获得10项以上正确数据,前者不存在编造数据的情况,后者出现一次错误数据;
Kimi-K1.5和Qwen3-235B-A22B的信息正确率位于中等水平,在计算流动比率和资产负债率时,存在一定未获取到数据或编造数据的情况;
GLM-4-Plus和HunyuanT1表现较差,尤其是在计算资产负债率时,频繁出现编造数据的情况。
GLM-4-Plus甚至只搜索到了一个与问题毫无联系的网页并编造了5个虚假数据,给用户带来极大困扰。
综上所述,由于AI大模型在联网搜索信息时几乎不会去权威性数据渠道进行查询,而互联网中又充斥着大量的虚假错误信息。
AI在这一领域还有很大的提升空间,在分析财报时会导致严重的错误,因此不建议使用联网搜索功能以获取重要财务数据。
03 结论
为了更加直观地展现评测结果,我们制作了如下表格:
在不考虑联网信息搜索的情况下:
对于专业的投资者或财务分析人士,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都是值得信赖的助理,在提升工作效率的同时,它们还可以提出有价值的洞察;
对于普通用户或学生,ERNIE-X1-Turbo也是不错的选择,完全可以胜任快速获取核心数据和基本信息的功能。
但是,联网信息搜索的准确性对于各模型来说都是现阶段难以跨越的门槛,我们可以接受AI找不到信息,但不能接受AI把假信息当真信息回答。
最后,依旧我们略显主观的评测标准,统计了六大模型的财务分析能力雷达图,供大家参考: