是时候揭晓全球第一梯队的大模型们的“高考成绩”了。
张朝阳称韦东奕开账号非常好:他的学术科普是一种公益
这是全球范围内首次由大型语言模型驱动的AI系统。
谷歌Gemini 2.5全线爆发!勇战濒死恐慌,却被宝可梦吓到当场宕机
1分钟烧掉165万元!马斯克死磕OpenAI,300亿新融资豪赌AGI
编程效率显著提升。
MiniMax深夜开源!首个推理模型,4560亿参数、百万上下文、价格低至0.8元
“夸克老师”是一位能够讲题、批作业、出题、找试卷的AI家教。
黄仁勋承认领先英伟达!揭秘华为“算力核弹”:先进工艺真不重要了
两位数学天才齐聚短视频平台
AI天才汪滔,创办的Scale获Meta千亿投资,19岁从麻省理工退学
【 记者 丁洋涛 文图】6月11日,2025火山引擎原动力大会·春在北京国家会议中心举行。火山引擎总裁谭待现场发布豆包大模型1.6版,他在介绍模型强推理能力时举例,豆包考试2025全国高考新一卷数…
这道题难度相当高,仅有豆包在两分钟内计算出正确答案,讯飞星火和通义千问耗时略长一些,其他几款AI大模型用时更长,尤其是DeepSeek,耗时足足572秒,接近10分钟。 在本轮测试中,豆包、讯飞星火、Kim…
任正非呼吁社会理解、支持基础理论研究。他指出基础研究需10到20年或更久,不搞就没根。华为一年1800亿研发投入中,约600亿用于基础理论研究且不考核。芯片可用叠加和集群等方法达先进水平,未来会有千百种开源…
从实际测试来看,华为小艺解答数学题有着非常规范的流程的,首先是识别题目,然后给出解题思路,判断这道题只需要使用分配律公式即可。 从以上多道高考真题的测试来看,华为小艺已经具备很高的数学解题能力,在题目识别、…
对于选择题第1题,各家大模型都给出了正确的答案,仔细看具体的解题流程可能不同,但不影响答案的正确性。面对这道题,讯飞星火X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及GPT o3的解题过…
面对这道题,讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没什么问题,拿到了17 分满分,而文心 X1 模型的答案存在错误,得分为 10…
DeepSeek R1 0528通义千问 Qwen3-235B-A22B讯飞星火 X1-0420豆包Seed-Thingking-v1.5文心 X1 Turbo腾讯混元 Hunyuan T1 …
6 月 7 日消息,博主 @i冰宇宙 近日分享一项功能:(暂不支持不带 Spen 的机型如 S25 Edge)。从演示视频来看,三星笔记 App 新增一项“开启数学求解器”选项,用户开启后,使用 …
在国内的电商平台中,淘宝天猫对品牌发新的关注独树一帜,但打爆的效率还可以更高。 天猫618的变化像一个信号,预示着中国电商行业已经跨过了拐点:平台开始减少对促销机制的路径依赖,转而以提供品质商品和创新能力来…
最终, DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达88.9%,在 PutnamBench 数据集中解决 658 个问题中的 4…
最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在PutnamBench 数据集中解决 658 个问题中的 49…
总结一下,通过用马斯克贴出的这道引发热议的数学算式题,测试了 7 款大模型面对这一问题的思考和解答,总体来说,讯飞星火 X1深度推理大模型和 OpenAI o3 的表现最为让人满意,无论是思考的…
援引博文介绍,英伟达针对这一难题,推出了 OpenMath-Nemotron-32B 和OpenMath-Nemotron-14B-Kaggle两款模型,基于 Qwen 系列 transforme…
小米技术团队表示,MiMo的核心突破在于预训练与后训练阶段的协同优化。 值得注意的是,小米官方表示,MiMo-7B在相同强化学习训练数据下,数学与代码领域的表现显著优于当前业界广泛使用的DeepSeek-R…
这些举措被淘宝天猫内部视为新一年的“增长战役”,旨在通过支持优质品牌和商家,实现商家与平台的双赢局面。 这场增长战役很快落地:2到3月,天猫在快消、服饰、运动户外三大行业,试点向品牌商家推出包括给新品提供免费…
尽管使用负向数据存在挑战,因为错误的步骤可能包含误导性信息,但研究人员通过直接偏好优化(DPO)方法成功地使模型能够从错误中学习,强调了每个问题解决步骤的重要性。研究表明,高优势步骤是正确解决方案的关键,而低…
以乐道L60为例,消费者在选择车型版本的同时,还需考虑整车购买或电池租用,再加上各种选装配置和官方礼遇,选择之多令人眼花缭乱。哈弗H6曾是国内SUV市场的销量之王,但其庞大的车型系列和复杂配置让消费者难以抉择…
今日,据媒体报道,在多个公开数据集测评中,百度最新发布的文心大模型X1,在数学、代码、推理等能力上表现优异,超越升级后的DeepSeek-V3-0324。 在数学场景中,GSM8K数据集测试后结果显示,文心X…
06/10 22:33
06/10 22:02
06/10 21:30
06/10 19:33
06/10 17:02
06/10 17:01
06/09 17:34
06/09 17:33