当前位置: 首页 » 资讯 » 新科技 » 正文

自研变套壳!开发者逆向200家AI公司前端代码、追踪API:146家实则套壳ChatGPT等,多家技术栈都一样,却赚75倍暴利

IP属地 中国·北京 编辑:孙明 CSDN 时间:2025-11-05 20:06:35

“200 家 AI 初创公司中,73% 的产品实际上只是‘套壳’,主要套的还是 ChatGPT、Claude!”

这一结论一出,给 AI 创业圈带来不小的打击与争议。

回想 2023 年,OpenAI CEO Sam Altman 曾直言:“套壳 ChatGPT 注定消亡。”

然而现实恰恰相反:随着 ChatGPT 的爆火,创业热潮一浪接一浪,无数投资拥入,一些公司甚至尚未发布产品就已吸引不小的关注度。

如今,一位软件工程师 Teja Kusireddy 用数据扯开了这场“繁荣”背后的部分真相。他对 200 家 AI 公司进行了逆向工程、反编译代码,并追踪 API 调用,发现许多号称“颠覆性创新”的公司,其核心功能仍依赖第三方服务,只是在外层多套了一层“创新”的壳。市场宣传与实际情况之间的差距令人震惊。

那么,究竟是投资人“完全不懂”,还是 AI 初创公司“太会忽悠”?“自研”与“套壳”的界限如何而定?接下来,我们将通过 Teja Kusireddy 发布的长文,从他的第一视角,看看他用数据揭示的最新发现与结论。

为什么会发起“逆向工程”?

上个月,我掉进了一个意料之外的“兔子洞”,陷入了迷茫——一开始只是一个很简单的问题,最后却让我开始怀疑自己对整个 AI 创业生态的一切认知。

那天是凌晨两点,我在调试一个 webhook 集成时,偶然间发现了点不对劲的东西。

一家声称拥有“自主研发的深度学习基础设施”的公司,竟然每隔几秒就在调用 OpenAI 的 API。

而这家公司,刚刚凭着“我们构建了完全不同的 AI 技术”这一说法,从投资人那里融到了 430 万美元。

就在那一刻,我决定——要彻底查清这件事,到底有多复杂。

调查方法:我是怎么做的

我不想写一篇靠“直觉”发牢骚的热评,我要的是数据,一个真实的数据。

于是,我开始动手搭建工具:

What they market as: Proprietary Neural Retrieval Architecture Step 1: Advanced Semantic Encodingembedding = openai.Embedding.create(input=question,model=text-embedding-ada-002) Step 3: Contextual Synthesiscontext = .join([match.metadata['text']for match in results.matches])# Step 4: Proprietary Language Modelresponse = openai.ChatCompletion.create(model=gpt-4,messages=[{role: system,content: fUse this context: {context}},{role: user,content: question}])return response.choices[0].message.content

这并不是说技术不好——RAG 确实有效。但把它称作 “自研 AI 基础设施”,就像把你的 WordPress 网站叫做 “定制内容管理架构” 一样荒诞。

再来算笔账,这家公司的实际成本(每次查询):

OpenAI 嵌入模型:每 1 K tokens 为 0.0001 美元

Pinecone 查询:每次 0.00004 美元

GPT-4 生成:每 1K tokens 为 0.03 美元

总成本:约 0.002 美元/次查询

而用户实际支付的价格:0.50–2.00 美元/次查询

API 成本利润率高达 250–1000 倍!

我发现 12 家公司代码结构完全一样,另外 23 家公司相似度超过 90%。

唯一的差别只是变量名,以及使用 Pinecone 还是 Weaviate。

有家公司添加了 Redis 缓存,并吹成 “优化引擎”

另一家公司加了重试逻辑,还把它注册商标,叫 “智能故障恢复系统”

一个典型初创公司每月运行 100 万次查询的经济情况:

成本:

OpenAI 嵌入模型:约 100 美元

Pinecone 托管:约 40 美元

GPT-4 生成:约 30,000 美元

总成本:约 30,140 美元/月

收入: 150,000–500,000 美元/月

毛利率:80–94%

这算是糟糕的生意吗?不是,毛利率非常可观。

但它是 “自研 AI” 吗?也不是。

模式 3:所谓“我们微调了自己的模型”,实际上……

微调听起来很厉害,而且在某些情况下确实有用。但我发现的情况是这样的:

真正从零训练模型的公司只占 7%。敬佩!他们的基础设施我都看到了:

AWS SageMaker 或 Google Vertex AI 的训练任务

将训练好的模型文件(模型产物)存储在 S3 桶中。

自定义推理端点

GPU 实例监控

其余大多数公司只是使用 OpenAI 的微调 API,本质上就是——付钱给 OpenAI,把自己的 prompt 和示例保存到他们的系统里。

30 秒教你识别“套壳公司”

如果你想知道我说的是真是假,其实根本不需要我花三周调查,这里有快速识别方法:

现象 1:网络流量

打开 DevTools(F12),切换到 Network 标签页,然后与其 AI 功能交互。如果你看到这些请求:

api.openai.com

api.anthropic.com

api.cohere.ai

那你看到的就是「套壳公司」。他们可能加了一层中间件,但 AI 并不属于他们。

现象 2:响应时间模式

OpenAI 的 API 有一个独特的延迟特征。如果每次响应都在 200–350ms 之间,那就基本可以确定是 OpenAI 的服务。

现象 3:Javascript 打包文件

打开网页源码,搜索以下关键词:

openaianthropicsk-proj-(OpenAI API key 前缀,如果他们不小心泄露)claudecohere

我发现 12 家公司把 API Key 留在前端代码里。我都举报了,但没有一家回应。

现象 4:营销语言矩阵

规律很明显:

具体技术术语 = 可能是真的

模糊的营销词 = 很可能在掩饰

如果他们只会用“先进 AI”、“智能引擎”之类的模糊词,而没有具体技术细节,通常意味着背后有猫腻。

基础设施的真实情况

实际上,AI 初创公司的技术格局大致如下:

为什么这真的很重要?

你可能在想:“管它呢?能用就行。”

你说的部分确实没错,但事情比表面更重要:

对投资人来说:你在资助的是 prompt engineering,而不是 AI 研究。估值得调整。

对客户来说:你支付的是 API 成本加高额溢价。事实上,你可能一个周末就能搭出同样的东西。

对开发者来说:门槛比你想象的低。那个你羡慕的“AI 初创公司”?它的核心技术,你可能在黑客松里就能做出来。

对整个生态来说:当 73% 的“AI 公司”都在夸大或误导自己的技术实力,我们已经处在泡沫状态了。

套壳模式(因为并非所有套壳都是坏事)

聪明的套壳公司并没有撒谎,它们在做的其实是:

特定领域的工作流

更优的用户体验

巧妙的模型编排

有价值的数据管道

它们只是底层使用了 OpenAI,这没有问题。

那 27% 做对了的公司

让我来重点介绍那些诚实做事的公司:

第一类:透明套壳公司

首页直接写着 “Built on GPT-4”。它们卖的是工作流,而不是 AI 本身。案例包括:

法律文档自动化(GPT-4 + 法律模板)

客服路由系统(Claude + 行业知识)

内容工作流(多模型 + 人工审核)

第二类:真正的构建者

这些公司实际在训练模型:

医疗 AI(HIPAA 合规的自托管模型)

金融分析(定制风险模型)

工业自动化(专用计算机视觉模型)

第三类:创新者

在现有基础上构建真正新技术的公司:

多模型投票系统,提高准确性

带记忆的自定义智能体框架

新型检索架构

这些公司会在宣传时候详细讲解它们的架构,因为他们真的自己做了。

我学到了什么(以及你应该知道的)

经过三周对 AI 初创公司的逆向工程,我总结出以下几点:

技术栈本身没那么重要,关键是解决的问题。我发现的一些最棒的产品,“只是”套了层壳。它们有出色的用户体验、解决了真实问题,并且对自己的方式很诚实。

但诚实很重要。一个聪明的套壳公司和一个欺诈公司之间的差别,就是透明度。

AI 热潮正在创造错误的激励。创始人感到压力,被迫宣称“自研 AI”,因为投资人和客户都期望如此。这种状况需要改变。

基于 API 构建并不可耻。每个 iPhone 应用都是“封装 iOS API”的产物,我们不在意。我们关心的是它能不能用。

真正的考验:你能自己做出来吗?

我的评估框架如下:

如果你在 48 小时内能复刻他们的核心技术,他们就是套壳公司。

如果他们对这一点很诚实,那没问题。

如果他们撒谎——赶紧远离。

我的实际建议

对创始人:

诚实说明你的技术栈

在用户体验、数据和行业知识上竞争

不要声称做了你没有做过的事

“Built with GPT-4” 并不是弱点

对投资人:

要求查看架构图

索取 API 账单(OpenAI 发票不会骗人)

合理评估套壳公司

奖励透明度

对客户:

检查网络流量(Network Tab)

询问基础设施细节

不要为 API 调用支付 10 倍溢价

根据效果,而不是技术宣传来评估

那件没人敢明说的事

大多数所谓的“AI 初创公司”,其实是靠 API 成本而不是员工成本运作的服务型公司。

这没什么问题。

但就该叫它本来的名字。

接下来会发生什么?

AI 套壳时代是不可避免的。我们在其他领域经历过同样的周期:

云基础设施(每个创业公司都声称“自建数据中心”)

移动应用(人人都说自己是“原生”,其实是混合开发)

区块链(每家公司都在“基于区块链”开发)

最终,市场会成熟。踏实的开发者会胜出,骗子会被揭穿。

而现在,我们正处在混乱的中间阶段。

最后的思考

在逆向分析了 200 家 AI 初创公司后,我反而对这个领域更乐观,而不是更失望。

那 27% 真正在做技术研发的公司,做得非常出色。

聪明的套壳公司也在解决真正的问题。

即便一些存在误导的公司,也有不错的产品,只是营销需要调整。

但我们需要让关于 AI 基础设施的诚实成为常态。使用 OpenAI 的 API 并不意味着你就不是开发者。撒谎才会让你失去可信度。

做酷产品,解决真实问题,使用任何有效的工具。只是别把你的 prompt 工程吹成“专有神经网络架构”。

调查以来的心路历程

在博客文章的最后,Teja Kusireddy 也分享了他开始调查后的情况:

第 1 周:原以为大约 20–30% 的公司使用第三方 API,但还是太天真了。

第 2 周:有创始人联系他,问“怎么进入了他们的生产环境”。其实,Teja Kusireddy 根本没进去,他看到的一切都在浏览器网络面板里,这些企业只是没想到有人会看。

第 3 周:有两家公司要求 Teja Kusireddy 撤掉发现内容。

昨天:一位 VC 问他是否可以在下一次董事会前审查他们的投资组合公司,Teja Kusireddy 答应了。

Teja Kusireddy 表示,他后面会在 GitHub 上公开分享调查的方法论、完整的爬取基础设施、API 指纹识别技术、可立即运行的检测脚本以及各大 AI API 的响应时间模式等等。

在三周里,Teja Kusireddy 称自己学到的唯一结论是:市场最终会奖励透明,哪怕一开始可能惩罚它。他还透露,自己这篇内容发布之后:

有 7 位创始人私下联系了他,有的防御,有的感激。

三家公司请求帮忙,把营销从“专有 AI”转成“基于顶级 API 开发”。

一位创始人告诉他:“我知道我们在撒谎,投资人希望这样,大家都这么做。我们该怎么停?”

“AI 的淘金热不会结束,但诚实时代必须开始,”Teja Kusireddy 说道,“如果你感兴趣,可以打开你的 DevTools,查看网络面板,自己验证。真相,就在 F12 之下。”

标签: 公司 模型 套壳 技术 初创 逆向 成本 基础设施 实际 用户 创业 模式 投资人 创始人 开发者 数据 代码 智能 模板 体验 工程 系统 问题 速率 文件 架构 面板 法律 时间 情况 客户 产物

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。