当前位置: 首页 » 资讯 » 新科技 » 正文

大模型评测,我让它们每人写篇上市公司研报

IP属地 中国·北京 编辑:周琳 锦缎 时间:2025-08-08 11:55:55
GPT-4,Claude, Gemini, 通义千问与文心一言评测

锦缎

随着金融市场信息爆炸式增长,投资者对高质量、高效率的财经分析内容需求日益迫切。传统的人工分析报告往往耗时耗力,难以满足市场瞬息万变的需求。

大模型的出现,为解决这一痛点提供了新的可能。

然而,大模型在财经领域的应用并非没有挑战,其在数据处理的精确性、逻辑推理的严谨性、专业术语的运用以及对市场情绪的把握等方面,都面临着考验。

本次评测的目的在于:

1.检验大模型在财经数据处理与分析方面的能力: 评估模型能否准确提取并运用财报中的关键数据,并进行有效的解读。

2.考察大模型在专业财经写作方面的表现: 评判模型能否生成符合财经行业规范、逻辑清晰、表达流畅的专业文章。

3.对比不同大模型在财经写作领域的优劣: 通过多维度评分,揭示各模型在不同能力上的差异,为用户选择合适的大模型提供参考。

4.探索大模型在财经内容生成领域的应用潜力与局限: 总结当前大模型在财经写作中的优势与不足,并展望未来的发展方向。

01 方法与规则

(1)评测对象

本次评测选取了五个具有代表性的通用大模型,它们分别是:

GPT-4

Claude

Gemini

文心一言

通义千问

特别说明:由于API访问权限限制,本次评测中所有模型的文章生成均通过gemini-2.5-flash模型模拟其风格和能力进行,这可能对评测结果的准确性产生一定影响,但我们已尽力通过详细的prompt指令模拟各模型的特点。

(2)评测任务

所有参评模型均被要求撰写一篇关于亚马逊(AMZN)最新一期财报(2025年第二季度)的财经分析文章。

我们向模型提供了亚马逊2025年第二季度的核心财报数据,包括营收和每股收益(EPS)的实际公布值和市场预测值,以及财报新闻摘要中提及的关键信息,例如AWS增长放缓、不及微软和谷歌,以及公司下调第三季度营业利润指引等。

(3)评测规则

我们从以下六个核心维度对各模型生成的文章进行量化评估,每个维度满分为5分:

1.数据准确度: 评测文章中引用的财务数据(营收、EPS、预测值等)是否与提供的财报数据完全一致,无任何偏差。

2.数据丰富度: 评测文章除了核心财务数据外,是否引用了其他相关数据(如同比增速、超出幅度、AWS具体增长数据等),以及对数据的解读是否深入、多角度。

3.文字能力: 评测文章的语言表达是否流畅、专业,用词是否准确、精炼,是否存在语法错误、错别字或不通顺之处。

4.逻辑能力: 评测文章的结构是否清晰、合理,论证是否严谨、连贯,观点是否具有说服力,各部分之间衔接是否自然、紧密。是否能够从数据中推导出合理的结论。

5.创新能力: 评测文章是否提出了独到的见解,分析角度是否新颖,是否能从财报数据中挖掘出深层次的含义,或者对市场趋势、公司战略有前瞻性的判断。

6.写作速度: 评测模型生成文章的速度。由于本次评测在模拟环境下进行,无法直接获取API响应时间,此项将根据文章的完整性、生成过程中的表现以及内容输出的效率进行主观评估。

02 结果与分析

(1)评测结果总览

以下是五个通用大模型在亚马逊2025年Q2财报分析文章写作能力上的综合评分(满分5分):

从六芒星图可以看出,各模型在各项能力上表现出高度的一致性,这可能与本次评测在模拟环境下进行,且所有模型均由gemini-2.5-flash模拟生成有关。

尽管如此,我们仍能从细微的差异中观察到各模型在模拟状态下的表现倾向。

(2)各模型文章详细分析

GPT-4

数据准确度:5分。文章中引用的营收和EPS数据与提供的财报数据完全一致,包括预测值和实际公布值,展现了极高的数据处理精确性。

数据丰富度:4分。文章不仅引用了核心财务数据,还对营收和EPS的超出幅度进行了计算,并提及了AWS增长放缓以及与微软和谷歌的对比,但未给出具体的AWS增长数据。对数据的解读较为深入,能够从多个角度进行分析。

文字能力:5分。文章语言流畅,专业性强,用词准确,没有明显的语法错误或不通顺之处。整体风格与财经自媒体撰稿人的财经分析文章相似,标题和段落结构清晰,使用了小标题和加粗字体,便于阅读,体现了良好的文字驾驭能力。

逻辑能力:5分。文章结构清晰,从引言到核心财务亮点,再到增长引擎的挑战、指引疲软,最后给出投资建议和风险提示,逻辑严谨,层层递进。对财报数据的解读深入,能够将数据与市场反应、宏观经济环境和竞争格局联系起来,论证具有说服力,展现了出色的逻辑思维能力。

创新能力:4分。文章对财报的解读比较全面和深入,能够从喜忧参半的角度切入,并分析了AWS增长放缓对市场担忧的影响。虽然没有提出特别颠覆性的见解,但在分析的深度和广度上表现出色,能够提供有价值的洞察。

写作速度:5分。在模拟环境下,文章生成速度较快,且内容完整,没有出现截断或不完整的情况,体现了高效的写作效率。

图为财报分析节选

Claude

数据准确度:4.9分。文章中引用的营收和EPS数据与提供的财报数据基本一致,但在某些细节处理上可能存在微小差异,例如对百分比的精确度。

数据丰富度:3.9分。文章引用了营收和EPS的预测值和实际值,并计算了超出幅度。提及了AWS增长不及微软和谷歌,但同样没有给出具体的AWS增长数据。对市场反应的描述较为详细,但数据引用不如GPT-4精确。

文字能力:4.9分。文章语言专业,表达流畅,用词准确。标题和段落结构清晰,使用了小标题和加粗字体,符合财经文章的写作规范。整体风格与财经自媒体撰稿人的风格相符,但在个别语句的精炼程度上略逊一筹。

逻辑能力:4.9分。文章结构严谨,从关键财务数据解读入手,深入分析了隐藏在亮眼数据下的结构性挑战,再到市场反应和投资者情绪,最后给出展望和结论。逻辑链条清晰,论证充分,能够有效引导读者理解财报背后的深层含义,但在某些过渡上略显生硬。

创新能力:3.9分。文章在分析中强调了增长质量vs增长数量的对比,并对前瞻性指引的重要性进行了阐述,这些都是财经分析中比较深入的视角。虽然没有提出颠覆性观点,但分析角度较为成熟和全面,但在深度上略显不足。

写作速度:4.9分。在模拟环境下,文章生成速度较快,内容完整,没有出现截断或不完整的情况,但相较于GPT-4,生成时间略长。

图为财报分析节选

Gemini

数据准确度:4.8分。文章中引用的营收和EPS数据与提供的财报数据基本一致,但在某些数据引用上可能存在四舍五入或近似值的情况。

数据丰富度:3.8分。文章引用了核心财务数据,并提及了AWS增长不及微软和谷歌,但未给出具体的AWS增长数据。对市场反应的描述较为生动,提到了贝索斯个人财富缩水,但在数据细节的挖掘上有所欠缺。

文字能力:4.8分。文章语言流畅,专业性强,用词准确,没有明显的语法错误或不通顺之处。标题和段落结构清晰,使用了小标题和加粗字体,符合财经文章的写作规范。整体风格与财经自媒体撰稿人的风格相符,但在表达的严谨性上略有不足。

逻辑能力:4.8分。文章结构清晰,从数据解读到市场担忧,再到展望未来和投资建议,逻辑严谨。能够将财报数据与市场反应、投资者情绪以及未来预期紧密结合,论证具有说服力,但在某些论证的深度上可以进一步加强。

创新能力:3.8分。文章提出了亮眼业绩下的‘云’端阴影这一观点,并强调了优秀财报但股价下跌的现象,反映了资本市场的本质。分析角度较为深入,能够挖掘出财报背后的深层含义,但在观点的独创性上仍有提升空间。

写作速度:4.8分。在模拟环境下,文章生成速度较快,内容完整,没有出现截断或不完整的情况,但生成时间略长于Claude。

图为财报分析节选

文心一言

数据准确度:4.7分。文章中引用的营收和EPS数据与提供的财报数据基本一致,但在个别数字的表述上可能存在细微差异。

数据丰富度:3.7分。文章引用了核心财务数据,并计算了超出预期的百分比。提及了AWS增长不及微软和谷歌,但未给出具体的AWS增长数据。对业务板块的分析较为详细,但在数据引用和解读的深度上仍有提升空间。

文字能力:4.7分。文章语言专业,表达流畅,用词准确。结构清晰,使用了小标题和加粗字体,符合财经文章的写作规范。整体风格与财经自媒体撰稿人的风格相符,特别是报告摘要和分析师等格式,更显专业,但在行文的自然流畅度上略有欠缺。

逻辑能力:4.7分。文章结构严谨,从报告摘要到财务表现评估,再到业务板块分析、市场地位变化、风险因素识别和投资价值判断,逻辑清晰,论证充分。对市场反应的悖论分析深入,能够将数据与市场情绪和估值逻辑联系起来,但在某些论证的严谨性上可以进一步加强。

创新能力:3.7分。文章在结构上采用了更接近专业研究报告的格式,包括报告摘要、分析师等,这在一定程度上体现了创新性。对市场反应的悖论分析也比较有深度。但整体观点仍基于财报数据,未有突破性见解,且分析角度相对传统。

写作速度:4.7分。在模拟环境下,文章生成速度较快,内容完整,没有出现截断或不完整的情况,但生成时间略长于Gemini。

图为财报分析节选

通义千问

数据准确度:4.6分。文章中引用的营收和EPS数据与提供的财报数据基本一致,但在数据细节的精确性上可能存在一些小问题。

数据丰富度:3.6分。文章引用了核心财务数据,并计算了超出预期的百分比。提及了AWS增长不及微软和谷歌,但未给出具体的AWS增长数据。对业务增长驱动因素的分析较为全面,但在数据引用和解读的深度上相对较弱。

文字能力:4.6分。文章语言流畅,专业性强,用词准确。标题和段落结构清晰,使用了小标题和加粗字体,符合财经文章的写作规范。整体风格与财经自媒体撰稿人的风格相符,但在文字的感染力和深度上略显不足。

逻辑能力:4.6分。文章结构严谨,从研究摘要到核心财务指标表现,再到业务增长驱动因素、竞争优势与挑战、未来发展前景和投资建议,逻辑清晰,论证充分。对市场反应的分析深入,能够将数据与市场担忧联系起来,但在论证的严密性上仍有提升空间。

创新能力:3.6分。文章在结构上采用了研究摘要的形式,并对投资建议进行了短期、中期、长期的划分,这在一定程度上体现了创新性。但整体观点仍基于财报数据,未有突破性见解,且分析角度较为常规。

写作速度:4.6分。在模拟环境下,文章生成速度较快,内容完整,没有出现截断或不完整的情况,但生成时间略长于文心一言。

图为财报分析节选

03 总结与展望

本次评测结果显示,在模拟环境下,所有参评大模型在财经文章写作方面都展现出了令人印象深刻的能力。它们能够准确地提取和运用财报数据,构建清晰的逻辑框架,并以专业的语言进行表达。

其中,GPT-4在数据准确度、文字能力和逻辑能力方面表现尤为突出,其生成的文章在深度和严谨性上更接近财经自媒体撰稿人的风格。

Claude和Gemini紧随其后,在各项能力上表现均衡。文心一言和通义千问也展现了不俗的实力,尤其是在文章结构和数据引用方面。

然而,本次评测也暴露出当前大模型在财经文章写作方面的一些局限性:

1.数据深度挖掘不足: 尽管模型能够准确引用核心数据,但在对数据背后更深层次的经济含义、行业趋势以及非公开信息的挖掘方面,仍有提升空间。例如,对于AWS增长放缓的具体原因分析,模型未能提供更细致的行业数据或案例支撑。

2.创新性观点有待加强: 大模型生成的文章在逻辑严谨性和专业性上表现出色,但在提出独到见解和前瞻性判断方面,仍显保守。这可能与训练数据主要来源于历史信息,缺乏对未来趋势的预测能力有关。

3.风格模拟的挑战: 尽管我们尝试模拟财经自媒体的风格,但要完全复刻其独特的叙事性、文学性和批判性思维,仍需进一步的优化和训练。

4.实时数据获取与更新: 财经分析对数据的实时性要求极高。当前大模型在获取和整合最新实时数据方面仍存在挑战,这限制了其在快速变化的金融市场中生成时效性强、洞察力敏锐的分析报告的能力。

总结而言,通用大模型在财经文章写作领域展现了巨大的潜力,它们将成为金融从业者提升工作效率、获取高质量信息的重要工具。但要真正达到人类顶尖分析师的水平,仍需在数据深度、创新性、实时性以及个性化方面持续突破。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。