当前位置：首页 » 资讯 » 新科技 » 正文

Gemini 3强的可怕，但真让他干活儿他像实习生一样不靠谱

IP属地中国·北京 编辑：吴俊知危 时间：2025-11-22 08:08:45

最近谷歌正式发布 Gemini 3 后，其基准测试成绩断档级领先，大家也是各种前端 vibe coding 玩得不亦乐乎。
但知危比较在意的两个点是，一方面谷歌宣布 Gemini 3 是世界上最好的多模态模型，也强调 Gemini 3 对用户意图的理解，“ 无需过多提示就能获得所需信息 ”，这就让 Gemini 3 的 ToC 属性变得很强。
另一方面，Gemini 3 在编程能力的基准测试上并没有实现对其它模型的断档级领先（甚至这两天内 OpenAI 就拿出了 GPT-5.1 Codex Max 来狙击 Gemini 3 ），谷歌也没有强调 Gemini 3 在幻觉、指令遵循等方面的优势，但这些维度其实才是企业级场景最关心的，否则你在用 AI 编程的时候，不管模型多么博学多才，总会没那么放心，就怕改 Bug、修漏洞比手写代码还辛苦，所以 Gemini 3 的 ToB 属性是否够强还有待进一步考察。
为了深度感受 Gemini 3 的 ToC 和 ToB 属性，在本次测评中，知危着重体验Gemini 3 的多模态理解和编程能力，至于科研能力，本次评测没有涉及。
具体而言，在多模态理解能力方面，知危主要是让 Gemini 3 理解视频，包括电视剧、体育比赛、软件操作等场景的视频，看 Gemini 3 能理解到什么程度，幻觉多不多，是否够专业。此外，看到 Gemini 3 在 ARC-AGI-2 上面翻倍的亮眼成绩，知危也忍不住在相同场景中给 Gemini 3 再上上难度。
编程能力方面，知危基于过去的测评经验，会直接拿一些需求多且杂的场景让 Gemini 3 一次做出来，如果不成功或者错误太大，不会给太多挽尊的机会。这些场景包括一次写完 Excel、看 UI 截图写 3D 引擎、看视频写 3D 引擎等。知危也会在不同的平台上都测试类似场景，包括网页版 Gemini、Cursor 以及谷歌自己新推出的编程 IDE Antigravity。
好了，我们话不多说，测评开始！
多模态理解能力测评
其实，目前很少有 AI 模型能直接分析视频的，国内只有通义千问提供这个功能。
我们拿《甄嬛传》中最具张力的一场戏，也就是 “ 滴血验亲 ” 来测试一下Gemini 3（在网页版 Gemini 中调用 Gemini 3 Pro，也就是思考模式）看不看得懂。因为网页版上传视频有 100M 的限制，所以将视频分成了好几段输入。
在第一段视频中，皇后先向皇帝提出了 “ 滴血验亲 ” 的狠招，随后呈现甄嬛等人的反应。
Gemini 3 的表现令人惊讶，几乎无任何错误，对各个人物的动作、心思、表情，以及更宏观的派系解析和剧情背景，都做出了非常准确的解释。
当进一步提示 Gemini 3 做更细致的逐帧逐秒分析时，它也是不负众望。
整整一分半钟的视频，真的按照几秒一个单位来分析。
台词和潜台词都很精准，但最能展示多模态能力的，是对微表情的捕捉。比如皇后引导皇帝实施滴血验亲时，Gemini 3 描述皇后的表情动作为 “ 身体微微前倾，语重心长，眉头微蹙，眼神看似诚恳，实则紧盯着皇帝的反应 ”，大家可以看看对不对。
再看看以下几个精彩瞬间，动作和表情也是描述的很到位，虽然 “ 嘴唇微张 ” 等一些细节是 Gemini 3 自己加戏和夸大，“ 眼神游移 ” 应该要更后面才出现，这里更多是 “ 纯粹的恐惧 ”。
只是看到分析的最后一句话，知危才意识到，Gemini 3 分明知道后面的剧情进展，毕竟 Gemini 3 的训练数据已经包含了《甄嬛传》的各种视频、文本资料，能分析到这个程度或许并不令人意外。
而且，台词语音其实是很好的对齐模态，台词能提供精准的语义提示，并和视频时间线做对齐，假设已经有大量文本语料给《甄嬛传》做了逐帧分析，那 Gemini 3 可能很大程度上不是基于视频来理解的。
所以，若是分析无声音的同样一段视频，效果又如何呢？结果，Gemini 3 还是能认出这是《甄嬛传》，以及大部分的人物，就是出现了非常大的错误，把甄嬛认成了华妃。
也因为这个错误导致对剧情的推测也产生了幻觉。
从这个结果来看，或许目前 AI 的多模态理解对文字的依赖还是比较大。
最后，因为今天 Nano Banana Pro 刚好上线，知危也在对话的末尾让Gemini画一幅漫画来呈现剧情，结果还是很惊艳的（可能 Nano Banana Pro 太火，谷歌自己服务器撑不住了，没实际生成图像，最后是用 Lovart 的 Nano Banana Pro 画出来的）。
这里还有一个非常离谱的地方，Nano Banana Pro 生成的这张漫画图，右下角甚至还有 “ 腾讯动漫 ” 的水印。。。
也不知道谷歌拿腾讯动漫练 AI 有没有合法买数据授权，如果没有的话欢迎腾讯联系本编辑部搜集证据，索赔之后记得分我们点
为进一步避免模型对训练数据的依赖，基于 Gemini 3 的知识截止日期是 2025 年 1 月，知危决定用 Gemini 3 来分析 2024-2025 赛季 NBA 总决赛雷霆 vs 步行者第一场的最后两分钟（比赛时间）的视频片段（这场比赛实际是在 2025 年 6 月份举行的，晚于 Gemini 3 的知识截止日期）。
相比电视剧，理解体育赛事有着不同的复杂度，虽然不需要关注微表情，但运动员动作大，且和篮球、其他运动员有物理交互，更有快速的空间移动和频繁的视觉遮挡，相关训练语料也更少，难度会更大。
在第一次的简单分析中，Gemini 3 的回答表明了它认为这场比赛不存在，它甚至认为这是 NBA 2K 游戏的模拟画面。当然，它准确地认出了这是 NBA 雷霆 vs 步行者的总决赛，以及一开始的赛况。
在接下来的关键镜头分析中，Gemini 3 能准确描述步行者球员的 “ 横撤步 ” 运球动作，要知道当时的实况解说员并没有说出这个 “ 横撤步 ” 术语，只是 Gemini 3 把球员身份认错了，应该是 2 号的内姆哈德而不是 23 号的內史密斯。
之后对第二回合、第三回合攻防的分析，Gemini 3 的描述都是准确无误的，除了内史密斯的 “ 犹豫 ” 其实指的是在 “ 上篮 ” 和 “ 投篮 ” 之间的犹豫，而不是上篮之前要不要减速的犹豫。
接下来，再进行一次更细节的逐帧分析。
第一回合中内姆哈德的单打动作很精彩，所以值得再分析一次。
Gemini 3 虽然还是没改正对身份的错误认识，但对动作的分析非常专业，它把刚才的 “ 横撤步 ” 改为更精准的 “ 向右后方撤步 ”，并且球员在做撤步前，先做了向左侧突破然后变向的连续假动作，这些描述并不是 Gemini 3 对实况解说的鹦鹉学舌，而是自主做出来的分析（这里对左右方位的定义可能和我们直观理解上相反，但还是可以解释通的）。
在第四回合雷霆的 2 号球员亚历山大单打强攻拿回两分，并把比分重新拉大到 105:110 后，到第五回合，对雷霆的 9 号球员卡鲁索的防守策略分析中，Gemini 3 出现了严重幻觉。
卡鲁索是在内姆哈德运球时被雷霆球员拍掉球后立马上前抢球，并没有出现 Gemini 3 所言的 “ 双脚站定，双手护胸 ” 的动作，这时裁判哨响，但在该片段内，并没有给出裁判结果，Gemini 3 则立马判定是内姆哈德进攻犯规。
为了再次检验 Gemini 3 对实况解说语音的依赖程度，知危也上传了无声音版本的同一片段给 Gemini 3 分析。
这一次，Gemini 3 的分析出现了很明显的错误或模糊不清的情况，比如（ 00:16-00:55 ）这一段，Gemini 3 描述 “ 视频出现剪辑跳跃 ”，但实际上在这段期间，雷霆和步行者先后进行了一次进攻未得分，最后雷霆的亚历山大凭借单打强攻得到两分。
并且（ 00:56-01:08 ）时间段内，被撞倒在地的球员应该是 2 号球员内姆哈德，而不是 0 号球员哈利伯顿。
但总体来看，Gemini 3 达到的准确率还是令人感到意外的，大部分情况下都能分析出是哪位球员执行了什么动作，以及对比分或比赛的贡献。
知危接下来还将后续比赛片段（一直到步行者的 0 号球员哈利伯顿在最后时刻三分绝杀雷霆）在同一个对话中传递给了 Gemini 3 继续分析，Gemini 3 结合实况解说语音还是能保持基本准确的水平，对步行者的 43 号球员西亚卡姆的高光时刻的分析很到位，并盛赞西亚卡姆给出了 MVP 级别的表现。
总体而言，Gemini 3 对体育视频的分析掌握程度还是不如对电视剧的分析。虽然能够基于实况解说的提示和视觉线索，给出更精细的描述和适当的宏观分析，但幻觉率过于高，超出了实用限制。并且，在该场景也是非常依赖解说语音的，而不是原生地对视觉线索有足够精细的理解。
最后也是用 Nano Banana Pro 画一页漫画来呈现内姆哈德后撤步三分的高光时刻。这一次画面精细度和剧情还原度也是很高，但内姆哈德相对其他球员以及在球场的空间站位呈现的不是很准确，后撤步则像是在冲浪，可能在空间智能或透视作图方面还不是很擅长。
最后一个测试场景，是软件操作视频分析。
推特上有一个帖子比较火，Pietro Schirano 展示了如何用一句话让 Gemini 3 写一个功能完善的 3D 乐高引擎原型。
知危将这个视频传递给 Gemini 3，令其分析这个引擎的 UI 组成和功能。
Gemini 3 的分析结果很精细，甚至能精准到视频第 19 秒展现了重新上色功能，整体基本完全准确。
这个编码案例其实很多网友并不买账，他们自己用相同提示词写的 3D 乐高引擎完全不是那么回事。
所以，知危也顺便将分析结果提炼成提示词，进入下一个测评，也就是编程能力测评。
编程能力测评
提示词（基于视频分析原文）：
基于Three.js、html技术，构建一款名为 BRICK BUILDER 的3D乐高积木构建软件。
采用经典且直观的三段式 (左-中-右) 布局，配合深色模式 (Dark Mode) 界面，旨在减少视觉疲劳并突出彩色的积木模型。
以下是对该软件UI构成和核心功能的详细分析：
1，顶部全局导航栏 (Top Toolbar)
这是软件的控制中心，主要负责工具切换和项目管理。
基础工具 (左侧):
Select (选择箭头): 用于选中场景中的积木。
Add (加号): 默认模式，用于放置新积木。
Paint (油漆桶): 用于给已放置的积木重新上色（视频 00:19 处展示了此功能）。
Delete(橡皮擦)：用于删除已有积木块。
历史操作: 包含撤销 (Undo) 和重做 (Redo) 箭头。
项目管理 (右侧):
Clear: 清空画布。
New Project: 新建项目。
Export PNG: 将当前模型截图导出为图片。
Save Project: 保存当前进度。
2，左侧资源库面板 (Left Sidebar - Library)
这里是用户的“零件箱”，用于寻找和选择积木部件。
搜索栏 (Search): 允许用户通过名称快速查找特定积木。
分类标签页 (Tabs): 将积木部件分为 Basic (基础砖), Plates (板件), Slopes (斜坡砖), Projects 等类别，方便筛选。
缩略图列表: 视觉化展示积木的形状（如 1x1, 1x2, 2x4 砖块），点击即可选中作为当前笔刷。
3，中央3D工作区 (Center Viewport)
这是核心交互区域，用户在此进行搭建。
3D 网格底板 (Grid baseplate): 提供空间参考，帮助用户对齐积木。
智能吸附与预览 (Smart Snapping & Ghost Preview): 当鼠标悬停在网格或已有积木上时，会显示半透明的“幽灵砖”预览（红色半透明），告知用户积木即将落下的位置。积木会自动吸附到网格点或其他积木的表面。
交互反馈: 放置积木时有轻微的动画效果。
4，右侧属性与设置面板 (Right Sidebar)
该区域用于控制外观、视角和选中物体的属性。
视角控制 (View Cube/Buttons): 位于面板左上角的小图标，允许用户一键切换视图：
3D: 自由透视视角。
TOP / FRONT / SIDE: 快速切换到顶视图、正视图或侧视图（视频 00:14-00:17 展示了此功能）。
颜色调色板 (Colors): 提供预设的乐高标准色（红、橙、黄、绿、蓝、黑、白等）。用户可以在放置前选择颜色，或配合油漆桶工具使用。
属性 (Properties):
Position (X, Y, Z): 显示当前选中积木的坐标。
Rotation: 包含一个按钮（通常是旋转90度），用于调整积木方向。
场景设置 (Scene):
Grid: 开关网格显示。
Shadows: 开关阴影渲染，用于提升真实感或节省性能。
5，底部状态栏 (Footer)
提供统计信息和操作提示。
统计数据: 左下角显示 Bricks (积木数量) 和 File Size (文件大小)。
上下文提示: 屏幕底部中间会根据当前工具显示提示文本，例如 Place Brick (Click to rotate) 或 Paint Brick (Click to select)，这是非常好的UX设计，降低了学习成本。
6，总结与UX亮点
极简主义: 界面没有复杂的菜单层级，所有常用功能都平铺在界面上，所见即所得。
清晰的逻辑: “左侧选材 -> 中间搭建 -> 右侧调整”的操作流非常符合直觉。
视觉辅助: 预览（Ghosting）和网格吸附功能极大地降低了在2D屏幕上操作3D物体的难度，确保积木不会放歪。
⬆️ 向上滑动文字
将以上提示词用于 Gemini 3 生成 3D 乐高引擎，如果做得好，那便是多模态理解和编程双剑合璧。
最终实现的 3D 乐高引擎能够成功运行，虽然没有完全按照分析细节来实现，或者说没有完全复刻原版，而是简化了很多。
但至少基础的砖块、添加、删除、上色、视图、旋转、导出等是都有的，足够完成一个最粗糙的作品。
上面案例所采用的 Three.js 毕竟是 Javascript 的库，如果能用纯 Javascript 写出足够复杂的前端场景，那才更厉害，为此自然还是得测试写一个的 Excel 原型才能让人信服。
知危套用之前 GPT-5 在 Cursor 一次运行成功的提示词，再次输入到网页版 Gemini 3 中，试图复刻。
提示词如下：
请帮我开发一个功能完整的网页版Excel应用，技术栈使用HTML、CSS、Javascript，需要实现以下核心功能模块：
-第一阶段：基础功能（核心优先级）
网格渲染系统：
实现1000×1000单元格的虚拟渲染；
优化滚动性能，确保流畅体验；
横坐标（A、B、C等）和纵坐标（1、2、3等）需要与单元格精确对齐；
滚动时坐标轴与内容区域保持同步，无偏移；
单元格编辑功能：
双击单元格进入编辑状态，编辑框与原单元格完全重合；
Enter键保存内容并向下移动到下一个单元格；
Tab键保存内容并向右移动到下一个单元格；
支持空值和默认值的正确处理；
编辑栏应可编辑，实时显示和修改当前选中单元格的值；
富文本格式工具栏：
实现独立的格式按钮，每个按钮状态基于当前选中单元格的格式属性独立判断；
字体大小调整；
加粗、斜体、下划线、删除线（按钮状态互相独立）；
文本对齐：左对齐、居中、右对齐；
背景颜色设置；
一键清除格式功能；
UI界面要求：
顶部工具栏包含所有格式设置按钮；
名称框显示当前选中单元格坐标（如A1、B2）；
编辑栏显示并可编辑当前单元格内容；
整体界面美观，具有现代化设计风格；
-第二阶段：高级功能（扩展功能）
行列操作：
点击行号后，按=键在下方插入新行，按-键删除当前行；
点击列号后，按=键在右侧插入新列，按-键删除当前列；
删除后自动重排坐标编号，保持连续性；
添加最小保护机制，避免删除最后一行或列；
复制粘贴操作：
实现Command/Ctrl+C（复制）、Command/Ctrl+X（剪切）、Command/Ctrl+V（粘贴）快捷键；
支持单元格内容和格式的复制粘贴；
支持行列的整体复制粘贴操作；
撤销恢复系统：
实现Command/Ctrl+Z（撤销）和Command/Ctrl+Y（恢复）功能；
维护操作历史栈，限制最大100层以控制内存；
页面刷新时清空操作栈；
选择功能：
支持单元格多选（拖拽选择矩形区域）；
支持整行、整列选择；
选中状态的可视化反馈；
-第三阶段：完善功能（产品化）
数据导入导出：
支持导出为CSV格式文件；
支持导出为JSON格式文件；
确保导出的文件能在Microsoft Excel中正确打开；
UI美化优化：
添加滚动动画效果；
优化阴影和渐变效果；
提升整体视觉体验和交互流畅度；
响应式设计，适配不同屏幕尺寸；
⬆️ 向上滑动文字
但最终写出来的 Excel 有一堆 Bug，比如字体格式有时能用有时不能用，文本对齐、复制剪切功能也有各种意想不到的问题，简直是灾难现场，不如上次对 GPT-5 的测试 ( 传送门 )。
知危怀疑是网页版 Gemini 的 Agent 能力不足，就切换到谷歌新推出的编程 IDE Antigravity，用相同的提示词来测试。
结果，写出来的网页版 Excel 完全无法交互，鼠标点击没有反应，也不能输入，甚至不能显示单元格，应该说比网页版表现还差吧。
为了再给它一次机会，我提示它自行检查并修复。
第一阶段：基本功能
发现一个错误，即单元格编辑器和选中高亮显示会在滚动时与网格分离，因为它们位于视口容器而非内容容器中。已将它们移至正确的容器。
但它发现的错误和单元格相关，这并不是最关键的，甚至实际界面中都看不到有任何单元格。
接下来，知危极大降低了要求，只让 Antigravity 写了一个《 2048 》游戏，看看产品本身是否有问题。
测试发现游戏能运行，视觉效果也很好。
但 Agent 运行有一些问题，会无限期的停留在测试阶段。
到此，只能认为 Antigravity 作为编程 IDE 产品还不够成熟完善。为了最大程度发挥 Gemini 3 的编程水平，知危决定在 Cursor 上测试。
果然，在 Cursor 上调用 Gemini 3 Pro，就能用相同提示词顺利完成 Excel 原型的开发，而且也是一次成功。
目前为止，知危拿这个案例测试过很多大模型，只有 GPT-5 和Gemini 3 Pro 是能一次成功的。在 UI 审美上，Gemini 3 Pro 比 GPT-5 更好。
但接下来的测试再次让知危大跌眼镜。
还是紧接前面提到的 3D 乐高引擎案例，我们在 Cursor 上再试一遍，因为 Cursor 无法输入视频，所以只用了 UI 截图。
第一次尝试，让 Gemini 3 Pro 参考 3D 乐高引擎的UI界面截图来开发。
结果还是依样画葫芦写了个不能交互的网页。
知危给了它最后一次机会，将前面在网页版 Gemini 3 分析推特视频后得到的提示词，再一次提供给 Cursor 中的 Gemini 3 Pro，结果这个网页仍然是不能交互的。
到此，基于这些实测结果判断，Gemini 3 的编程能力还是能达到顶尖水平，也有足够的代码审美，但发挥是不够稳定的，不管是幻觉率还是对指令遵循的细致全面程度，还没有达到业内最高水平。
前面因为分析 3D 乐高引擎视频被带进了编程能力测评的坑，但多模态理解测评的难度还没真的上来，我们继续这个维度的测评。
为了提高多模态分析的难度，自然还是要上 ARC-AGI-2 这个测试集，毕竟 Gemini 3 在这个基准测试集中的提升幅度是最大的。
但知危不是拿公开的评估集来再测一次，测试设置需要针对多模态这个属性做一些调整。
ARC-AGI-2 的官方发布使用 json 表示二维网格，例如下图是该项目的 GitHub 中包含的一个评测集中的数据部分展示：
样本：e376de54.json，https://github.com/arcprize/ARC-AGI-2/blob/main/data/evaluation
通过顺手 vibe 一个小型程序可以将这个矩阵转换成图像（每个数字代表在图像中的坐标和颜色），如下图所示：
知危不想按照官方设置使用 json 为输入，而是要以图像作为输入传递给 Gemini 3，并且为防止大模型吸收基准测试数据作为训练数据取巧，会对这个评估集样本再做一些微调（修改 json 数据再转换为图像即可）。比如下图中，左图是原评估集样本，右图是微调后的样本，黑边与数据无关可忽略。
按这个思路，知危制作出了两个新的谜题。这是第一题：
下图是准确答案，应该按照排第二的长度值重组所有斜线。
Gemini 3 的分析框架是对的，但得出的结论却是：取最大长度统一（无法理解，真的就差一点点啊）。
在下一道题中，知危对原评估集样本做了如下改动（样本：247ef758.json ）：
这是第二道题的完整呈现：
下图是准确答案，方框的四条边上如果有某个颜色构成十字相对方位，该颜色对应的方框外几何素材就可以放入方框内十字交叉点的位置。这里因为微调了颜色，第四组的蓝色几何素材也要放入方框内。
Gemini 3 有理解到规则是对左侧素材的筛选，但错误地把筛选规则理解为基于素材的形状，映射位置规则有理解到要基于方框边框像素点，但没有精确到十字交叉点。
所以，它最终得出来的答案也是错误的。
这才测了两道，Gemini 3 就都错了。要知道这还是 ARC-AGI-2 中比较简单的题。
样本：4c7dc4dd.json
这个结果并不代表 Gemini 3 在类似 ARC-AGI-2 场景中的实际表现，毕竟实验设置不同，只是也表明 Gemini 3 在静态图像的空间认知和逻辑分析上还是比较初级的，过程有理有据，但低级错误令人头疼。
好了，到了这里，本期内容的全部测评就结束了。
通过这个测评，可以认为，Gemini 3 在各种多模态理解和编程场景中，都给出了局部亮眼、整体不稳定的表现，比如：
能多维度分析电视剧剧情和人物，却把主角给认错；
能自主分析运动员连续动作，却编造不存在的球员动作；
能逐帧分析视频，却高度依赖语音；
能写全UI解析，却不能完整复刻；
能写好Excel，却写不好3D乐高引擎；
图片理解框架很有逻辑，却败在尺寸比较的一小步；
所以 Gemini 3 给人的感觉就是巨好玩，但不够令人放心，毕竟跨越不同模态确实有趣，但聚焦单个模态才是专业，换句话说就是 ToC 属性爆棚，ToB 属性还不够。
他有点像一个优秀大学毕业的高学历实习生，知识素养足够，但真让他干活他也是错漏百出。
总之，我们暂时认为 Gemini 3 玩一玩是很不错的，但是还是尽量不要把它用到生产环境，万一出什么问题也不好解决。（昨天吃到个不知真假的瓜，有人用 Gemini 3 来 Coding 的时候被删了 800G 重要文件）
或许，谷歌这次能这么强得益于其生态中拥有的丰富模态的海量数据，随之带来的缺点是谷歌还来不及将模型调教的足够可靠。
当然，毕竟潜力太大，我们还是期待谷歌和 Gemini 家族的后续发力。
撰文：流大古
编辑：大饼

标签： gemini3 球员雷霆积木 步行者 模态视频编程 甄嬛传 模型

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

北京东城区举办重点互联网企业东城行活动

OpenAI发现更多AI智能体失控迹象

Meta与贝莱德联手在德州埃尔帕索共建140亿美元AI数据中心

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

奥特曼也逃不过刷TikTok上瘾，Sora背后最抓马的一段来了

字节跳动启动AI业务组织调整飞书与豆包产品团队合并

全站最新

北京东城区举办重点互联网企业东城行活动

OpenAI发现更多AI智能体失控迹象

Meta与贝莱德联手在德州埃尔帕索共建140亿美元AI数据中心

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

热门推荐

蚂蚁集团旗下公司等入股乐享智能

被AI包围的ChinaJoy：宇树携机器人热舞，AI漫剧首秀受热捧，老字号扎堆玩跨界

DeepSeek-V4-Flash正式API上线！Agent能力暴涨6倍，价格仅为Claude的1/90

北京东城区举办重点互联网企业东城行活动

OpenAI发现更多AI智能体失控迹象

Meta与贝莱德联手在德州埃尔帕索共建140亿美元AI数据中心

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

奥特曼也逃不过刷TikTok上瘾，Sora背后最抓马的一段来了

字节跳动启动AI业务组织调整飞书与豆包产品团队合并

AI 重构公司，字节肢解飞书，豆包接驳抖音

腾讯科研智能体攻破50年未解数学难题，姚顺雨喊话正在招人

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

美股收评：三大指数全线上涨！亚马逊暴涨15%，苹果跌超7%；芯片股盘中大跳水，中概股上涨；特朗普下令打击伊朗，原油尾盘直线拉升

摩托罗拉推出Moto Pad 70 Groove平板

Claude黑进三家真公司！Anthropic吓坏了