DeepSeek-V3.1正式发布
8月21日,据DeepSeek官方公众号消息,DeepSeek-V3.1正式发布。本次升级包含以下主要变化:混合推理架构:一个模型同时支持思考模式与非思考模式;更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;更强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。官方App与网页端模型已同步升级为DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。
DeepSeek官微留言:UE8M0 FP8是针对即将发布的下一代国产芯片设计
8月21日,DeepSeek在其官宣“正式发布DeepSeek-V3.1”的文章里面提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与 DeepSeek-V3 存在明显差异。DeepSeek官微在置顶留言里说,UE8M0 FP8是针对即将发布的下一代国产芯片设计。
2025年《财富》中国科技50强榜单发布,DeepSeek、宇树等上榜
8月21日,《财富》(FORTUNE)正式发布“2025年中国科技50强”榜单,其中,DeepSeek、阿里巴巴、腾讯、字节跳动、宇树科技、珞石机器人、创新奇智、中关村科金等多家大模型、具身智能公司上榜。
国内多数AI模型训练使用的中文数据占比已超60%
8月21日,中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。
智元灵犀X2即将完成量产,将于8月底开始陆续供应
在8月21日的智元机器人首届合作伙伴大会上,智元机器人联合创始人兼CTO彭志辉透露,智元灵犀X2即将完成量产,将于8月底开始陆续供应,第四季度起不限量发货。
智元机器人预计明年出货量将达数万台
8月21日,智元机器人首届合作伙伴大会8月21日在沪召开。从会上获悉,智元机器人今年会有数千台的出货量,明年预计会有数万台的出货,智元机器人希望在未来几年,每年出货量可达到数十万台。
字节开源大型语言模型 Seed-OSS-36B
8月21日,字节跳动旗下的 Seed 团队在 AI 代码分享平台 Hugging Face 上发布了最新的开源大型语言模型 Seed-OSS-36B。Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。这一新模型最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。
Lanmeih/今日话题
你怎么评价DeepSeek最新的模型?
咱们评论区聊聊~
智元机器人预计明年出货量将达数万台