当前位置：首页 » 资讯 » 新科技 » 正文

46.5万次盲测封王！Grok视频模型屠榜Arena，谷歌最强对手来了

IP属地中国·北京 新智元 时间：2026-02-25 14:21:54

新智元报道
编辑：元宇
马斯克亲自站台，grok-image-video-720p在46万次盲测投票中加冕第一，这款xAI「压箱底」的视频模型，不仅在基准测试上超过了谷歌Veo 3.1 Fast，使用成本也更低。
刚刚，AI视频领域又迎来洗牌！
xAI的Grok图像转视频模型（grok-image-video-720p）登顶「Image-to-Video Arena」排行榜，以1404分的超高ELO评分力压群雄，位居第一。
马斯克亲自发帖为自家Grok Image模型站台，称它每周都在迭代优化。

这次，xAI真是拿出了「压箱底」的东西，他们将Grok Imagine称作为自己目前最强悍的「视频+音频」生成模型。
无论是想让一张静态梗图「活」过来，还是凭空用一句话变出大片，甚至是对复杂的电影级镜头进行精细打磨，它都能轻松搞定。
X平台上，网友用Grok制作的视频已经迅速刷屏，涵盖电影特效、动画制作、日常生活等种种场景。
从一些基准测试上来看，Grok-imagine-video-720p不仅击败了谷歌强大的Veo模型，而且生成成本也更低。
有网友惊呼，这不仅是AI视频工具的一次进化，更可能直接推动该领域重新「排座次」。

还有网友猜想，Grok的强势出击，或将掀起新一轮生成式视频技术的军备竞赛。

揭秘Grok Imagine
能干活、成本低的多模态六边形战士
Grok Imagine是xAI倾力打造的视频-音频生成模型，该模型的最新版本Grok Imagine 1.0于2026年2月初发布。
支持生成10秒长的720p高清视频，并在运动平滑度、原生音频质量（如情感表达的声音）以及提示词遵循能力上均实现了跨越式升级。
相比较2025年10月发布的Imagine v0.9版本，它将核心聚焦于视觉质量、多模态能力，成本和延迟的平衡，真正做到了支持端到端的创意工作流。
用户可以通过文本描述或上传图像来动画化内容，还支持后续指令微调场景。
具体而言，Grok Imagine展现了三大核心「杀手锏」：
视频生成与指令遵循能力
Grok Imagine的视频生成能力，主要用来从零开始创建短视频（通常10-15秒长，支持480p或720p分辨率）。
它能处理多种输入方式，比如直接用文字描述场景、动作、灯光和心情来生成视频，或者上传一张静态图片，让AI给它「加戏」变成动态视频。
在视频生成方面，Grok Imagine拥有业界领先的指令遵循能力。你给出的指令再复杂，它也能精准理解并执行。
零门槛的视频编辑能力
视频编辑功能更像是给现有视频「动手术」，Grok Imagine可以让你能轻松修改内容，而不用专业软件。
它支持重新设计场景（比如换背景或风格）、添加或删除物体（例如加个道具或去掉多余元素）、控制动作（调整运动轨迹、速度或相机角度）。
操作起来简单：上传视频文件或URL，然后描述你想改啥，比如「把这个视频里的车换成飞船，加点爆炸效果」。
AI就会根据你的指令生成编辑后的版本，还保持原视频的核心元素。
视频编辑适合电影剪辑、广告调整或内容优化，编辑后视频还能带原生音频。
更快速度与更低成本的平衡
在性能表现方面，不仅要变强，还要变快。
因为如果生成速度太慢、价格太贵，大家根本不敢放开手脚去尝试。
因此xAI团队专门针对延迟、并发量和成本进行了极限优化。
这让Grok Imagine不仅跑得快，而且用起来更省钱。
它强调高质量、成本和延迟的平衡，支持端到端的创意工作流，包括视频生成、编辑和音频同步。
评测霸榜，力压谷歌
在基准测试中，Grok Imagine在图像转视频领域表现出色，尤其在用户偏好投票和性价比上。
在Image-to-Video Arena（arena.ai）排行榜上，Grok-image-video-720p以1404分位居第一（基于46.5万投票，34个模型），领先Google Veo-3.1-audio-1080p（1402分）。

https://arena.ai/zh/leaderboard/image-to-video
这是一个基于用户盲测投票的平台，使用Elo评分系统。评测强调真实世界视频质量和保真度，而非自动化指标。
在另一个独立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337 ELO分领先，评估标准包括质量、生成速度和价格。
Grok-image-video在风格、主题和格式一致性上得分高，它的API定价约$4.20/分钟，低于谷歌Veo 3.1 Fast等竞品。

https://artificialanalysis.ai/video/leaderboard/image-to-video
在一些第三方的专业评测中，Getimg.ai认为Grok Imagine最突出的特点是以视频形式精准遵循指令，当提示词描述动作、节奏或转场时，该模型通常能做出看似经过深思熟虑而非偶然的回应。
比如，Grok-image-video在原生音频（唇同步、自然对话）和电影指令遵循（如平移、变焦）上出色。
Grok-image-video的另一个特色，是它很好地解决了低延时这一用户使用痛点。
AI视频模型在使用场景中，仅靠原始质量已不再足够，往往需要多轮交互，等待结果的时间过长会抑制用户尝试的意愿，尤其是当每次生成都代价高昂时。
基准测试显示，Grok Imagine在综合考量质量、延迟和成本时表现出色。
这意味着你可以自由地生成、调整和重新生成视频，而不会觉得每次输入提示都是一种负担。
Lovera Digital将Grok与Google Veo 3比较，发现Grok易用性高，适合短视频社交内容，但视频质量有时抖动。
它的最佳用例是快速原型，评分表显示其在创意短片上竞争力强。
Grok Imagine在第三方评测中被视为高效、音频强的选手，尤其适合创意和快速生成，但需注意一致性和安全问题。
如果你想亲自体验一下Grok Imagine，目前可以通过官网（grok.com/imagine）和APP免费试用，或通过API集成（Grok Imagine API）。
参考资料：
https://x.com/elonmusk/status/2026330684630130739%20
https://x.com/teslaownersSV/status/2026322222206648339
https://arena.ai/zh/leaderboard/image-to-video

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全球开源大模型最新榜单：千问3.5登顶！前十名中国造占八席

小程序定制开发公司哪家好？2026十家靠谱小程序制作公司推荐（精准盘点）

尚贤达深圳猎头公司：2026年互联网与新媒体行业高端人才分析

国家互联网信息办公室开展2026年全民数字素养与技能发展水平网络问卷调查

20天干翻全年收入：中国大模型，终于被世界需要

科技早报 | 腾讯天美被曝关闭蒙特利尔研发工作室；大疆起诉美国联邦通信委员会

全站最新

全球开源大模型最新榜单：千问3.5登顶！前十名中国造占八席

小程序定制开发公司哪家好？2026十家靠谱小程序制作公司推荐（精准盘点）

尚贤达深圳猎头公司：2026年互联网与新媒体行业高端人才分析

国家互联网信息办公室开展2026年全民数字素养与技能发展水平网络问卷调查

热门推荐

智元在德国举办发布会，加快欧洲本地化布局

特斯拉推出Megapack迷你储能站造型充电宝，709元

AIDC订单疯涨，哪些赛道受益？

狂飙的Seedance2.0，被“炼丹”的AI漫剧民工

你抢不到的RTX5090，还在厨子、电工和铁匠手里？

最长春节，年轻人把年过到海外

30条预测透析短剧2026：漫剧登基，王位难长久？

他们，与故乡不在同一个时区过年

完成3.85亿债务偿还，众泰汽车还能翻身吗

年轻人开始“手搓”万物：万亿情绪经济市场下的缩影

马年第一波财富密码！沾马就爆，有人靠错版狂赚数倍

暴涨242%！“AI除幻第一股”，市值突破370亿

春晚广告位争夺战：四十年国民记忆与商业暗流

这个春节999元租个人形机器人拜年，然后呢？

春晚机器人很能打，也要让车间主任买账