当前位置: 首页 » 资讯 » 新科技 » 正文

从算力竞赛到“喂数据”竞赛,谁卡住了大模型的脖子?

IP属地 中国·北京 编辑:赵云飞 数据猿 时间:2025-07-09 02:07:27

在过去的一年里,关于大模型的讨论已经从学术研究圈扩展到了产业界,甚至进入了政府的议程。这一趋势也反映在各大上市公司的财报中,越来越多的企业在其年度目标中提及大模型应用。无论是在面对消费者的智能助手,还是在企业级行业应用中的全类模型,人工智能被寄予了重构工作流程的厚望。然而,一个关键问题愈发重要:到底是谁在为AI提供可持续且高效的基础设施?

目前,主流大模型厂商在训练任务中的数据处理规模已从TB级提升至PB级。在这一过程中,数据调度、访问频率、传输稳定性以及读取延迟等因素,成为影响模型效果和商业化效率的关键变量。可以说,大模型的能力上限不仅取决于所使用的数据质量,还取决于数据处理的方式和效率。

为了深入探讨这一话题,于6月30日策划了一场线上直播对话,邀请了中国信通院云计算与大数据研究所高级业务主管田稼丰、华瑞指数云联合创始人兼CTO曹羽中、传神语联副总裁兼研究院院长何征宇共同参与,会议由联合创始人兼主编张艳飞主持。

这场线上圆桌对话,聚焦于大模型技术在实际应用中的数据存储需求、基础设施挑战及合作等核心问题,致力于为行业提供有价值的思路与借鉴。

大模型是否过热?

本次会议先从AI大模型现状开始聊起。目前,全球范围内的AI大模型引发了广泛关注。然而,有人质疑,现阶段的AI大模型是否过热了?尤其是当人们发现,AI大模型有时会出现“幻觉”,给出不准确的答案。现在AI大模型到底能发挥多大的作用?AI大模型的热度是否被夸大了?

在传神语联副总裁何征宇看来,他认同“大模型目前处于过热状态”这个说法。他认为,如今大模型的出现并不能立刻带来颠覆性变革,而是更倾向于大模型是在现有的软件、生态和数据基础上进行优化和改造。“无论是多模态大模型还是大语言模型,它们的价值更多在于加成性,而非颠覆性。”他提到,是大模型融入各行业,而不是大模型取代各个行业,大模型应该是渗透型的,而不是颠覆型的。

中国信通院云计算与大数据研究所高级业务主管田稼丰也提到,大模型与各个行业的结合,是释放其价值的最终形式。不同的行业在大模型的应用上有着各自的特点和挑战。

他提到,如果将行业大致划分为数据原生行业和非数据原生行业。数据原生行业如金融和电信,原本在数据方面的能力就很强,积累了大量高质量的数据。因此,在大模型的落地应用上,这些行业进展就会比较快。相反,一些非数据原生行业,面临数据质量较差、数据采集成本高、多模态处理技术能力不足等问题,这些行业目前还没有找到大模型与行业结合的成熟范式,仍处于探索阶段。

“大模型过热现象普遍存在,主要表现为高估了大模型在短期内的收益,而低估了其长期价值的倾向。若要充分释放大模型的数据价值,需要持续优化数据质量、培训员工能力,并在制度和流程上进行调整。”田稼丰说到,同时也强调,大模型仍处于快速上升期,尚未达到最热阶段。各个行业如农业、制造业、能源和建筑等都在积极探索和建设高质量的信息系统,并尝试将大模型应用于行业中。“我们观察到的,目前较为成熟的应用主要集中在营销、运营和管理等场景,其他场景整体上还比较滞后,总体上处于能力建设阶段。”

对于AI是否过热的问题,华瑞指数云联合创始人兼CTO曹羽中也谈了他的看法:“我的观点是,作为科技创新者,我们不妨乐观一些。科技创新领域的过热并不是坏事,因为它能极大地推动行业进步。历史上,我们也经历过一些技术的超级过热,比如第一代互联网和移动互联网。虽然这些泡沫破裂了,但并没有导致一地鸡毛,反而催生了一个繁荣的信息时代。”

对于以大模型为代表的新一代AI技术,曹羽中认为它的发展之路可能比第一代互联网和移动互联网更长,因为它覆盖的应用范围涉及各行各业。正如其它两位嘉宾所说,目前大多数行业的数据基础还非常薄弱,远未达到支撑AI大规模应用的程度。许多行业甚至连基础的数字化都尚未完成,仍处于信息化的早期阶段。这意味着未来还有巨大的拓展和发展空间,进步的潜力非常大。路还很长,但前景广阔。

AI大模型商用,对数据存储提出了哪些“新刚需”与挑战?

如今,AI大模型的商用化进程正如火如荼推进。大规模的人工智能应用,在各行各业中展示出巨大的潜力,但同时也对数据存储提出了全新的“刚需”和挑战。

曹羽中指出,AI训练需要高性能存储支持,包括高IOPS、低时延、高并行读带宽和高并行写带宽,以提升GPU的利用率。如果这些需求得不到满足,AI训练的效率和GPU利用率将大大降低,导致资源浪费。在未来的AI应用落地过程中,如何构建AI基础设施和数字基础设施仍有许多未知和待探讨的领域。

何征宇也认同这一观点,进入AI和大模型时代后,数据存储面临的最大挑战是带宽问题。然而,他进一步强调,如何高效利用数据,尤其是在推理环节中,也构成了一大挑战,“每个行业真正有价值数据,可能并没有暴露到互联网上和公开的环境来。”此外,还有另外一个问题,即数据存储形式,何征宇提到,向量化存储可能是一种趋势,但更重要的是发展新的数据库形式,这些数据库可以直接与大模型交互。例如,神经网络本质上也是一种数据库,将数据存储在神经网络中,或者设计成神经网络数据库,可以更自然地检索和存储数据。

在谈到传统存储方式时,曹羽中表示,传统存储是为信息化时代设计的,包括块存储、文件存储和对象存储,但这些并不能完全满足未来AI技术设施的需求。他呼吁针对AI特定业务场景,设计新型的数据接口和存储能力。他提到基于神经网络的知识存储和检索尚在研究中,但已有良好前景,尤其在推理发展上,探索多级、全局共享的存储模式将显著降低算力消耗。

与之呼应,田稼丰从数据量及存储扩展性角度出发,指出以meta的Llama 3为例,其在参数数量和训练数据量上虽然不及OpenAI的GPT-3.5,但在公开基准测试中表现更佳,这凸显了训练数据集的重要性。他强调,AI系统的首要需求是具备海量数据的存储能力和良好的扩展性。

在数据带宽和访问效率方面,田稼丰与曹羽中、何征宇不谋而合,认为这对AI集群的可用性至关重要,尤其在推理阶段更为明显。此外,田稼丰还提到存储服务的稳定性在GPU训练过程中极为重要,频繁的检查点操作要求存储服务能够有效保障数据安全。

最后,田稼丰提到成本问题和安全性问题。在大模型训练中,存储成本占整体训练成本的10%至20%,因此优化存储策略以平衡技术与成本是必要的。“最后一个,我想补充的就是安全问题,其实国家出了这个三法,对于安全有些非常明确的一些要求。一方面可能在大模型训练过程中可能会有一些数据窃取,会面临一些相关风险。另一方面,可能有一些新的数据攻击,比如说像数据里加入一些噪音,给你一些加入一些扭曲意识形态的内容,导致这个模型的质量下降,出现幻觉,最终干扰模型最终训练的结果。所以我觉得,数据存储安全性也是一个很重要的考量点。”

数据安全、隐私保护,

如何在模型与存储协同中落地?

在数据驱动时代,数据安全和隐私保护成为AI大模型与数据存储协同落地过程中不可忽视的重要议题。随着大模型在各行业的深入应用,如何在服务客户的过程中确保数据的机密性和完整性,成为企业面临的重大挑战。

一、存储系统的连续性、可靠性与安全性

曹羽中指出,存储系统的连续性和可靠性至关重要。在传统存储领域,企业关键业务和核心业务的数据,如OLTP交易型数据,必须保证极高的可靠性和一致性。但在大数据时代,新兴的存储方案为了满足大数据的需求,可能在连续性保障上有所欠缺,因为它们处理的是离线数据,实时性要求较低。此外,安全性问题也变得更加复杂。在大模型生态圈中,如何保证企业级数据不被未经授权的人通过大模型训练或查询获取,是一个尚未完全解决的问题。曹羽中分享到:“我们的一些实践经验表明,企业内部的重要数据不应全部用于AI训练,即使模型部署在企业内部。关键数据需要脱敏处理,不能直接作为训练集的一部分。”他还提到,在与客户合作时,会将权限管理机制内置到AI代理和MCP(Multi-Cloud Platform)中。通过这样的设计,即使通过代理查询外部数据,也能遵循原有的权限管理,确保数据安全,而不是依赖模型内部的权限管理,这样更为合理。

何征宇补充道,大模型和AI的出现带来了新的安全性挑战。即使进行了脱敏和隐私处理,也很难完全清洁数据,因为目前没有统一的标准。真正企业的核心数据不会被拿去外部进行训练。此外,大模型本身无法有效管理权限,因为数据访问权限经常变化。因此,依赖MCP或其他机制,通过不同接口访问不同数据,定义明确的权限,是行之有效的方法之一。另一种方法是将不同数据存储在不同区域,为大模型设置权限网格,确保数据安全。何征宇还指出,训练过程中的安全控制是最容易出问题的方面。目前,整个行业对数据获取和数据价值保护的重视程度日益提高,数据保护的措施也越来越严格。然而,这种趋势也带来了负面影响,即高质量数据在公开网络上的可获得性将会减少。

二、模型参数问题与技术路径

曹羽中进一步阐述了大模型的参数问题。他认为,当前大模型的参数量之所以如此庞大,部分原因是它实际上压缩了互联网上的知识。尽管这些知识经过压缩,但大模型依然能回答许多与互联网相关的问题。然而,这种压缩是有损的。因此,在企业内部应用大模型时,未必需要将整个互联网的知识都压缩成模型参数。未来企业的应用仍然需要依赖外部数据源,通过结合代理和MCP等方式,将内部和外部数据源串联起来,利用大模型的能力对数据进行解析和决策。从这个角度来看,模型可以更加精炼,而不必依赖庞大的参数。曹羽中指出,从存储的角度来看,大模型的参数量并不需要过于庞大。实际上,小参数与高质量的数据同样能够满足训练需求。曹羽中解释道:“我们更关注大模型与代理(Agent)的结合。这两者如何有效地组合,以实现企业内部数据的读写、解析和决策,是我们研究的重点。”

当然,也存在另一种观点,认为随着模型参数的增加,智能会出现涌现现象。有些人认为,参数量的增加会显著提升AI的智能,甚至有可能使通用人工智能逐渐实现。目前,对通用人工智能的期待仍然寄托在模型参数的扩大上。如果这一方向依然有效,行业将继续朝这个方向努力。这是两个维度的考虑。

何征宇表示:“未来更科学的方式可能是通过小参数模型与企业本地数据结合,既能保证安全性,又能提高实用性。”他还提到,尝试实现数据和推理分离,将客户数据训练到专门的神经网络中,这样可以在确保安全的同时提高实用性。

田稼丰补充道,虽然大模型在赋能业务方面具有巨大潜力,但在一些特定的专业场景中,传统的小模型依然表现出色。例如,在通信行业的反诈应用中,基于传统机器学习和大数据分析的小模型体系已经非常成熟,并且在判断潜在诈骗电话方面效果显著。相比之下,将大模型应用到这些场景中,其效果未必比传统的小模型更好。田稼丰还指出,目前企业在大模型开发和智能应用开发过程中,正走向两条不同的道路。一方面,像OpenAI、阿里和腾讯等公司,依旧追求更大参数量和更多数据量的传统路径,希望将更多知识存储到大模型中。另一方面,随着DeepSeek等新技术的出现,越来越多的企业开始打破高算力和高投入是发展人工智能唯一方式的认知,转而基于开源基模开发自己的L1甚至L2大模型。

这些企业倾向于使用相对较小的数据量和蒸馏模型,再结合自身的知识库进行开发。田稼丰总结道:“我们观察到,很多企业并不需要庞大的参数和数据量,只需结合专业化的知识库和更适合自身AI集群的小模型,便能实现高效且低成本的发展。”

三、企业数据处理变革与数据存储优化

在传统的信息化时代,企业处理数据的过程非常复杂,需要大量的代码和懂业务的人员与程序员共同开发信息系统,以完成数据的增、删、改、查以及生成报表等任务。然而,随着大模型与代理的结合,企业数据处理领域迎来了全新的变革。未来,模型与代理将能够直接访问统一的数据底座,这个底座可能包含数据库和大规模的非结构化数据。通过模型交易的方式,企业能够直接解析并检索这些数据,实现智能决策。这一过程将跳过中间繁琐的步骤,不再需要大量程序员和业务人员共同努力来理解全业务流程并进行复杂编程,从而完成数据处理。

这种转变意味着数据存储厂商需要在更大程度上优化数据通道和管理效率,使得模型和代理能够以最高效的方式直接访问数据,进行解析和决策。

共建“模型+数据”协同生态,

厂商如何形成可持续合作机制?

如今,高质量数据与安全隐私之间的平衡似乎很难把握,尤其是隐私计算和密态计算的推进。在交流中,有嘉宾也提到,目前的阶段可能还没有达到计算层面。大家现在的重点更多是构建自身的高质量数据集,主要供自身模型使用。据了解来看,涉及高质量数据对外开放的案例非常少。这主要是由于数据本身的敏感性,整体机制仍需完善。

田稼丰认为,国家在政策方面的推动至关重要。目前,许多企业不愿意开放自身数据的核心原因在于潜在的风险。政府或国有企业拥有大量定义明确的公共数据,但开放这些数据往往得不到批准。因此,需要在体制和机制上进行创新,让企业愿意开放和利用自己的数据。同时,国家也在持续推动高质量数据的建设,这对各行业的数据智能应用和Agent的开发至关重要。

曹羽中指出,作为AI数据平台的重要基础组件,为了实现大规模应用,需要与AI信息领域的其他组件进行广泛的生态合作。这包括与GPU、AI推理框架、算力调度平台等进行兼容性互认证、平台对接和接口互通。例如,与英伟达的GPU生态进行对接,通过GDS实现框架来访问外部存储的数据。曹羽中还强调,积极参与开源生态,与主流的开源框架进行对接,将数据存储平台嫁接到这些生态中,是实现合作的重要途径。

何征宇则从数据体系的技术生态和物理生态角度出发,强调数据安全和隐私问题需要从最基础的存储层面解决。他认为,技术体系的自主可控是保障数据安全的关键,并提出通过推动原创联盟来促进国产自研技术的发展。此外,何征宇还提到,随着大模型的发展,数据共享方式将变得更加丰富,大模型可以作为数据共享的中介,以更保密和隔离的方式实现数据价值提取。

总之,要共建“模型+数据”协同生态,关键在于政策推动、体制机制创新、高质量数据建设、广泛的生态合作以及技术体系的自主可控。通过这些措施,大模型厂商与数据基础设施厂商可以建立起可持续的合作机制。

Agent是否过热?

今年,除了大模型之外,另一个备受关注的热点就是AI Agent。无论是数据Agent、BI Agent,还是各种客服类Agent,AI Agent的热度都超出了许多人的预期。

一方面,AI Agent的热度确实非常高,但另一方面,这也可能仅仅是其发展的初期阶段。因此,关于AI Agent的定义和理解存在多种观点。到底什么才是真正的AI Agent?它与传统软件甚至IP之间有何不同?

田稼丰认为,AI Agent是一种相对新的形式。“我们对AI Agent的定义是,将大模型的语言理解、内容生成、分析和推理等能力具体化,形成具备感知、记忆、决策和交互能力的智能系统,从而实现流程的自动化和决策的智能化。”田稼丰补充,信息系统的普世化一直是一个永恒的主题。我们希望能让更多用户使用新的系统,比如过去的大数据系统使数据开发人员能够更轻松地进行数据开发。同样,AI Agent的出现可以让更多一线业务人员使用智能系统。例如,在通信领域,网格业务经理可以通过AI Agent进行智能数据分析和决策。这种技术的普及能显著提升工作效率。“虽然目前AI Agent的关注度很高,但也合理。正如曹总所说,科技工作者应该对技术保持乐观的态度。这是我们对AI Agent的整体看法。”

何征宇认为,现在的Agent还处于觉醒阶段,远未达到过热的程度。相对于大模型来说,Agent的应用还显得不够热。事实上,Agent的概念早已被提出,当时的设想非常理想化,与大模型出现后的期望基本一致。“Agent本身被称为智能体,它不仅是完成某项功能的工具,更是具备一定智能,能够主动规划和组合资源来完成任务。理想情况下,比如我计划去广州出差,Agent可以自动查天气、订票、叫车,甚至安排早餐。这些功能通过大模型是可以实现的,只需明确每个动作和参数。然而,当前的Agent未能充分发挥其潜力,主要原因在于缺乏完善的基础设施和友好的接口。”

他提到,MCP是一个很好的开端,但许多服务尚未开放相应接口。只有这些接口开放后,Agent的价值才能真正显现。通过Agent,大模型不仅能处理数据和聊天,还能发挥更大的实用价值。未来,Agent有望成为大模型的主要应用场景,智能地处理各种任务。MCP作为Agent的基础设施,相当于为Agent提供了手脚,而Agent则将大脑与手脚连接起来,实现全面的智能服务。

呼吁和建议

在AI大模型加速落地的背景下,数据安全、隐私保护与存储架构正面临前所未有的挑战。围绕这些关键议题,三位来自产业一线的专家在会议上进行了深入探讨,并提出了面向未来的呼吁。

中国信通院的田稼丰强调,高质量数据建设是当前最紧迫的任务。虽然国家政策持续推动相关工作,但许多企业在理解目标和落地路径上仍显迷茫。他指出,数据资产的构建不能只停留在概念层面,更需明晰标准、制定机制,并推动企业间交流与协作。

传神语联的何征宇则聚焦数据价值的开放。他认为,当前企业对数据的重视程度不断提高,真正有价值的数据,应该在保障归属权和使用权的前提下,通过多样化手段实现“价值开放”,从而激活整个数据生态。

华瑞指数云的曹羽中则系统梳理了AI时代下企业数据基础设施的三层升级需求:

1)构建高性能、可扩展的存储底座,以满足训练和推理的带宽与延迟要求;

2)打通全流程数据管道,避免因数据在多个系统间反复迁移而降低效率;

3)建立新型数据结构,支持AI对生产数据和分析数据的融合使用,实现实时共享和向量化检索。

他指出,企业当前在AI应用上的短板,并非算力不足,而是数据基础设施未跟上AI发展的节奏。随着GPU替代CPU成为核心计算资源,传统的存储架构也亟需变革。

三位专家共同呼吁,AI能否落地,不仅取决于算法和模型,更取决于数据的质量、流通机制和底层设施的协同演进。这不仅是一场技术升级,更是一次组织结构与数据治理能力的深层变革。

综上,AI走到了一个临界点,模型仍在进化,但基础设施开始拖后腿。算力已不稀缺,数据成了瓶颈。它不仅决定了模型能看到什么,也决定了它理解到哪里、落地到多深。过去,数据是存储的内容;现在,它是训练的燃料、决策的依据、系统的接口。

真正的挑战不是“有没有数据”,而是“数据能不能被调动起来”。这需要新的结构,新的制度,和新的合作方式。模型之外,另一个战场正在打开。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新