当前位置: 首页 » 资讯 » 新科技 » 正文

大模型“套壳”争议:自研与借力的边界何在?

IP属地 中国·北京 编辑:苏婉清 时间:2025-07-16 22:16:07

在AI领域,一场关于“原研”与“套壳”的辩论再度升温,这次争议的焦点是华为盘古大模型与阿里云Qwen大模型之间的相似性。回溯至大模型兴起的初期,套壳行为还主要停留在对ChatGPT的简单模仿阶段,一些人通过调用ChatGPT的API,配以中文界面,就在微信等平台上售卖会员服务,从而踏上了AI领域的淘金之路。

然而,即便是那些致力于自主研发大模型的公司,也或多或少地从ChatGPT等模型中汲取灵感。虽然这些公司拥有自己的模型架构,但在微调阶段,它们会利用ChatGPT或GPT-4等对话模型生成的数据来进行优化。这种做法既能保证数据的多样性,又能获取到经过OpenAI精心对齐的高质量数据,已成为行业内一个公开的秘密。

进入2023年,大模型赛道迎来了开源时代,越来越多的创业团队选择借助开源框架进行模型训练。这一趋势不仅促进了技术的交流与迭代,也使得套壳开发变得更加普遍。随着越来越多的团队公开自己的研究成果,争议性的套壳事件也随之增多,频繁登上热搜,随后又往往被相关方澄清。

在AI的进化历程中,各类大模型都可以追溯到同一个鼻祖——2017年Google Brain团队发布的Transformer神经网络架构。而今天,在大型语言模型领域,Decoder-only(如GPT系列)、Encoder-Decoder(如T5)和Encoder-only(如BERT)三大主流Transformer架构依然占据主导地位。其中,以Decoder-only为核心的GPT式架构最受关注,并衍生出了多种变体。

2022年11月,OpenAI基于GPT 3.5推出了ChatGPT,短时间内便吸引了数千万用户,使大型语言模型(LLM)正式走进公众视野,也将GPT架构推上了主流AI架构的宝座。随着ChatGPT打响大模型时代的第一枪,各大厂商纷纷涌入这一赛道。由于ChatGPT无法直接接入国内,一些小作坊看到了套壳牟利的机会,一时间,各种山寨ChatGPT在互联网上泛滥。

这些套壳行为最初往往不涉及任何二次开发,开发者只是简单地对API进行包装并出售。然而,随着监管的加强,这种低劣的套壳手段很快就被打击。例如,“ChatGPT在线”公众号因涉嫌仿冒ChatGPT被罚款6万元,成为首例“ChatGPT套壳”行政处罚案例。

尽管如此,套壳行为并未绝迹。在2023年发布的一些模型中,仍时常出现“GPT味”的回复,引发套壳质疑。例如,讯飞星火大模型曾因涉嫌套壳ChatGPT而引发关注。对此,一些企业解释称,这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆”。另一种可能是,模型研发团队在微调训练过程中主动使用了通过ChatGPT等OpenAI旗下模型构造的数据集,即所谓的“数据蒸馏”。

数据蒸馏是一种高效低成本的知识迁移方式,它用一个强大的“老师模型”生成大量高质量问答数据,然后这些数据被用来训练一个“学生模型”。虽然借力ChatGPT/GPT-4生成训练数据是业内公开的秘密,但直到字节跳动被曝出利用微软的OpenAI API账户生成数据来训练自己的模型后,这一行为才受到广泛关注。虽然字节跳动方面表示这是早期模型探索中的行为,并未计划上线或对外使用,但这一事件仍然引发了关于套壳合规性的讨论。

进入开源时代后,套壳争议再次升级。随着meta开源LLaMA 2,AI行业正式进入开源时代。随后,先后有十余款国产模型通过微调LLaMA 2完成上线。然而,这也引发了关于利用开源模型架构进行二次开发是否构成套壳的争议。例如,百川智能CEO王小川曾回应了外界对旗下开源模型Baichuan-7B套壳LLaMA的质疑,强调他们在技术上有自己的思考。

另一场更汹涌的套壳风波发生在2023年11月,原阿里技术副总裁、深度学习框架Caffe发明者贾扬清在朋友圈中揭露了某家套壳模型的行为。事后证实,该信息直指零一万物旗下的Yi-34B模型。这一事件引发了关于零一万物是否违反了LLaMA开源协议的激烈争论。然而,Hugging Face工程师Arthur Zucker认为,LLaMA的开源协议主要限制了模型权重,而不是模型架构,所以Yi-34B并未违反开源协议。

事实上,利用开源模型架构只是打造新模型的第一步。零一万物在对Yi-34B训练过程的说明中也作出了解释:模型训练过程好比做菜,架构只是决定了做菜的原材料和大致步骤,他们投注了大部分精力在训练方法、数据配比、数据工程、细节参数、训练过程监测等方面的调整。

对于AI行业而言,推动技术开源化的意义之一是停止“重复造轮子”。从零研发一款全新的模型架构并跑通预训练流程需要耗费大量成本。因此,头部企业开源可以减少资源浪费,新入局的团队通过套壳得以快速投入到模型技术迭代和应用场景中。百度CEO李彦宏就曾表示,重新做一个ChatGPT没有多大意义,基于语言大模型开发应用机会很大,但没有必要再重新发明一遍轮子。

然而,随着开源时代的到来,模型开发门槛不断降低,在迎来百模齐放的良好生态之余,也浮现出一些恶劣的套壳行为。例如,2024年5月,斯坦福大学的一个研究团队发布了一个名为LLaMA3V的模型,但随后有网友发现该模型与中国企业面壁智能发布的8B多模态开源小模型MiniCPM-LLaMA3-V 2.59高度重合。在实锤套壳抄袭后,该团队删库跑路。这一事件不仅反映出国产模型凭借其优异性能也成为了被套壳的对象,也再次引发了业界对开源时代套壳合规边界的思考。

对于套壳的道德边界问题,业内存在不同看法。一些人认为,如果一个团队没有以原生模型的名义发表就不能叫套壳,应该叫模型的再应用。而另一些人则认为套壳合规与否在于冠名问题,利用开源技术就需要在技术文档中做出明确说明。同时,法律界人士也表示,目前这一类事情还处于一个灰色地带,如何区分套壳和抄袭的界限、如何证明因为套壳行为导致了不当获利等问题都存在着一定的举证难度。

尽管如此,套壳行为在AI领域依然普遍存在。一些头部企业虽然在其他领域实力雄厚,但在模型领域可能缺少底层的训练逻辑和经验积累。对这些企业而言,充分利用开源技术套壳可以更快完成从数据层面到模型层面的积淀。然而,这也引发了一些关于套壳和自研取舍的讨论。一些算法从业者表示,在保留技术底线基础上能有成果产出是最重要的。

总体而言,开源为AI行业带来了积极影响,促进了技术的交流与迭代。然而,套壳争议也伴随着这一趋势而不断升级。对于从业者而言,用开源技术并不丢人,但重要的是要在技术文档中做出明确说明并避免宣传为自研。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。