“200 家 AI 初创公司中,73% 的产品实际上只是‘套壳’,主要套的还是 ChatGPT、Claude!”
这一结论一出,给 AI 创业圈带来不小的打击与争议。
回想 2023 年,OpenAI CEO Sam Altman 曾直言:“套壳 ChatGPT 注定消亡。”
然而现实恰恰相反:随着 ChatGPT 的爆火,创业热潮一浪接一浪,无数投资拥入,一些公司甚至尚未发布产品就已吸引不小的关注度。
如今,一位软件工程师 Teja Kusireddy 用数据扯开了这场“繁荣”背后的部分真相。他对 200 家 AI 公司进行了逆向工程、反编译代码,并追踪 API 调用,发现许多号称“颠覆性创新”的公司,其核心功能仍依赖第三方服务,只是在外层多套了一层“创新”的壳。市场宣传与实际情况之间的差距令人震惊。
那么,究竟是投资人“完全不懂”,还是 AI 初创公司“太会忽悠”?“自研”与“套壳”的界限如何而定?接下来,我们将通过 Teja Kusireddy 发布的长文,从他的第一视角,看看他用数据揭示的最新发现与结论。


为什么会发起“逆向工程”?
上个月,我掉进了一个意料之外的“兔子洞”,陷入了迷茫——一开始只是一个很简单的问题,最后却让我开始怀疑自己对整个 AI 创业生态的一切认知。
那天是凌晨两点,我在调试一个 webhook 集成时,偶然间发现了点不对劲的东西。
一家声称拥有“自主研发的深度学习基础设施”的公司,竟然每隔几秒就在调用 OpenAI 的 API。
而这家公司,刚刚凭着“我们构建了完全不同的 AI 技术”这一说法,从投资人那里融到了 430 万美元。
就在那一刻,我决定——要彻底查清这件事,到底有多复杂。

调查方法:我是怎么做的
我不想写一篇靠“直觉”发牢骚的热评,我要的是数据,一个真实的数据。
于是,我开始动手搭建工具:
What they market as: Proprietary Neural Retrieval Architecture Step 1: Advanced Semantic Encodingembedding = openai.Embedding.create(input=question,model=text-embedding-ada-002) Step 3: Contextual Synthesiscontext = .join([match.metadata['text']for match in results.matches])# Step 4: Proprietary Language Modelresponse = openai.ChatCompletion.create(model=gpt-4,messages=[{role: system,content: fUse this context: {context}},{role: user,content: question}])return response.choices[0].message.content
这并不是说技术不好——RAG 确实有效。但把它称作 “自研 AI 基础设施”,就像把你的 WordPress 网站叫做 “定制内容管理架构” 一样荒诞。
再来算笔账,这家公司的实际成本(每次查询):
OpenAI 嵌入模型:每 1 K tokens 为 0.0001 美元
Pinecone 查询:每次 0.00004 美元
GPT-4 生成:每 1K tokens 为 0.03 美元
总成本:约 0.002 美元/次查询
而用户实际支付的价格:0.50–2.00 美元/次查询
API 成本利润率高达 250–1000 倍!
我发现 12 家公司代码结构完全一样,另外 23 家公司相似度超过 90%。
唯一的差别只是变量名,以及使用 Pinecone 还是 Weaviate。
有家公司添加了 Redis 缓存,并吹成 “优化引擎”
另一家公司加了重试逻辑,还把它注册商标,叫 “智能故障恢复系统”
一个典型初创公司每月运行 100 万次查询的经济情况:
成本:
OpenAI 嵌入模型:约 100 美元
Pinecone 托管:约 40 美元
GPT-4 生成:约 30,000 美元
总成本:约 30,140 美元/月
收入: 150,000–500,000 美元/月
毛利率:80–94%
这算是糟糕的生意吗?不是,毛利率非常可观。
但它是 “自研 AI” 吗?也不是。
模式 3:所谓“我们微调了自己的模型”,实际上……
微调听起来很厉害,而且在某些情况下确实有用。但我发现的情况是这样的:

真正从零训练模型的公司只占 7%。敬佩!他们的基础设施我都看到了:
AWS SageMaker 或 Google Vertex AI 的训练任务
将训练好的模型文件(模型产物)存储在 S3 桶中。
自定义推理端点
GPU 实例监控
其余大多数公司只是使用 OpenAI 的微调 API,本质上就是——付钱给 OpenAI,把自己的 prompt 和示例保存到他们的系统里。

30 秒教你识别“套壳公司”
如果你想知道我说的是真是假,其实根本不需要我花三周调查,这里有快速识别方法:
现象 1:网络流量
打开 DevTools(F12),切换到 Network 标签页,然后与其 AI 功能交互。如果你看到这些请求:
api.openai.com
api.anthropic.com
api.cohere.ai
那你看到的就是「套壳公司」。他们可能加了一层中间件,但 AI 并不属于他们。
现象 2:响应时间模式

OpenAI 的 API 有一个独特的延迟特征。如果每次响应都在 200–350ms 之间,那就基本可以确定是 OpenAI 的服务。
现象 3:Javascript 打包文件
打开网页源码,搜索以下关键词:
openaianthropicsk-proj-(OpenAI API key 前缀,如果他们不小心泄露)claudecohere
我发现 12 家公司把 API Key 留在前端代码里。我都举报了,但没有一家回应。
现象 4:营销语言矩阵

规律很明显:
具体技术术语 = 可能是真的
模糊的营销词 = 很可能在掩饰
如果他们只会用“先进 AI”、“智能引擎”之类的模糊词,而没有具体技术细节,通常意味着背后有猫腻。

基础设施的真实情况
实际上,AI 初创公司的技术格局大致如下:

为什么这真的很重要?
你可能在想:“管它呢?能用就行。”
你说的部分确实没错,但事情比表面更重要:
对投资人来说:你在资助的是 prompt engineering,而不是 AI 研究。估值得调整。
对客户来说:你支付的是 API 成本加高额溢价。事实上,你可能一个周末就能搭出同样的东西。
对开发者来说:门槛比你想象的低。那个你羡慕的“AI 初创公司”?它的核心技术,你可能在黑客松里就能做出来。
对整个生态来说:当 73% 的“AI 公司”都在夸大或误导自己的技术实力,我们已经处在泡沫状态了。
套壳模式(因为并非所有套壳都是坏事)

聪明的套壳公司并没有撒谎,它们在做的其实是:
特定领域的工作流
更优的用户体验
巧妙的模型编排
有价值的数据管道
它们只是底层使用了 OpenAI,这没有问题。

那 27% 做对了的公司
让我来重点介绍那些诚实做事的公司:
第一类:透明套壳公司
首页直接写着 “Built on GPT-4”。它们卖的是工作流,而不是 AI 本身。案例包括:
法律文档自动化(GPT-4 + 法律模板)
客服路由系统(Claude + 行业知识)
内容工作流(多模型 + 人工审核)
第二类:真正的构建者
这些公司实际在训练模型:
医疗 AI(HIPAA 合规的自托管模型)
金融分析(定制风险模型)
工业自动化(专用计算机视觉模型)
第三类:创新者
在现有基础上构建真正新技术的公司:
多模型投票系统,提高准确性
带记忆的自定义智能体框架
新型检索架构
这些公司会在宣传时候详细讲解它们的架构,因为他们真的自己做了。

我学到了什么(以及你应该知道的)
经过三周对 AI 初创公司的逆向工程,我总结出以下几点:
技术栈本身没那么重要,关键是解决的问题。我发现的一些最棒的产品,“只是”套了层壳。它们有出色的用户体验、解决了真实问题,并且对自己的方式很诚实。
但诚实很重要。一个聪明的套壳公司和一个欺诈公司之间的差别,就是透明度。
AI 热潮正在创造错误的激励。创始人感到压力,被迫宣称“自研 AI”,因为投资人和客户都期望如此。这种状况需要改变。
基于 API 构建并不可耻。每个 iPhone 应用都是“封装 iOS API”的产物,我们不在意。我们关心的是它能不能用。
真正的考验:你能自己做出来吗?
我的评估框架如下:

如果你在 48 小时内能复刻他们的核心技术,他们就是套壳公司。
如果他们对这一点很诚实,那没问题。
如果他们撒谎——赶紧远离。

我的实际建议
对创始人:
诚实说明你的技术栈
在用户体验、数据和行业知识上竞争
不要声称做了你没有做过的事
“Built with GPT-4” 并不是弱点
对投资人:
要求查看架构图
索取 API 账单(OpenAI 发票不会骗人)
合理评估套壳公司
奖励透明度
对客户:
检查网络流量(Network Tab)
询问基础设施细节
不要为 API 调用支付 10 倍溢价
根据效果,而不是技术宣传来评估

那件没人敢明说的事
大多数所谓的“AI 初创公司”,其实是靠 API 成本而不是员工成本运作的服务型公司。
这没什么问题。
但就该叫它本来的名字。
接下来会发生什么?
AI 套壳时代是不可避免的。我们在其他领域经历过同样的周期:
云基础设施(每个创业公司都声称“自建数据中心”)
移动应用(人人都说自己是“原生”,其实是混合开发)
区块链(每家公司都在“基于区块链”开发)
最终,市场会成熟。踏实的开发者会胜出,骗子会被揭穿。
而现在,我们正处在混乱的中间阶段。

最后的思考
在逆向分析了 200 家 AI 初创公司后,我反而对这个领域更乐观,而不是更失望。
那 27% 真正在做技术研发的公司,做得非常出色。
聪明的套壳公司也在解决真正的问题。
即便一些存在误导的公司,也有不错的产品,只是营销需要调整。
但我们需要让关于 AI 基础设施的诚实成为常态。使用 OpenAI 的 API 并不意味着你就不是开发者。撒谎才会让你失去可信度。
做酷产品,解决真实问题,使用任何有效的工具。只是别把你的 prompt 工程吹成“专有神经网络架构”。

调查以来的心路历程
在博客文章的最后,Teja Kusireddy 也分享了他开始调查后的情况:
第 1 周:原以为大约 20–30% 的公司使用第三方 API,但还是太天真了。
第 2 周:有创始人联系他,问“怎么进入了他们的生产环境”。其实,Teja Kusireddy 根本没进去,他看到的一切都在浏览器网络面板里,这些企业只是没想到有人会看。
第 3 周:有两家公司要求 Teja Kusireddy 撤掉发现内容。
昨天:一位 VC 问他是否可以在下一次董事会前审查他们的投资组合公司,Teja Kusireddy 答应了。
Teja Kusireddy 表示,他后面会在 GitHub 上公开分享调查的方法论、完整的爬取基础设施、API 指纹识别技术、可立即运行的检测脚本以及各大 AI API 的响应时间模式等等。
在三周里,Teja Kusireddy 称自己学到的唯一结论是:市场最终会奖励透明,哪怕一开始可能惩罚它。他还透露,自己这篇内容发布之后:
有 7 位创始人私下联系了他,有的防御,有的感激。
三家公司请求帮忙,把营销从“专有 AI”转成“基于顶级 API 开发”。
一位创始人告诉他:“我知道我们在撒谎,投资人希望这样,大家都这么做。我们该怎么停?”
“AI 的淘金热不会结束,但诚实时代必须开始,”Teja Kusireddy 说道,“如果你感兴趣,可以打开你的 DevTools,查看网络面板,自己验证。真相,就在 F12 之下。”





京公网安备 11011402013531号