5月29日,面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。其中,Ultra-FineWeb-L3包含高质量中文+英文网页合成数据,总量突破600BTokens,中文占据200B+Tokens,是目前开源规模最大的中文预训练合成数据集;UltraData-SFT-2605是 国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。MiniCPM5-1B的训练过程,是UltraData分级治理体系的一次完整实践,此次上新的两大数据集Ultra-FineWeb-L3与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证,覆盖从预训练退火到后训练SFT的全链路。(澎湃新闻记者 范佳来)
面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集
IP属地 中国·北京 澎湃新闻 时间:2026-05-29 18:25:18
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放
- 标致“纯电小钢炮”E-208 GTi发布:281马力5.5秒破百,42900欧元
- 首尔禁止中小学生戴AI眼镜参加期末考试,否则将一律按作弊处理
- 江淮汽车总经理李明:要让尊界等优秀产品惠及全球用户
- 机器人伴侣来了!10天预售3800台 搭载养成系情感大模型
- SpaceX历史性IPO后,马斯克称将深化与英伟达的关系
- 今夜过后,马斯克成为人类首位万亿富翁
- 萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营
- Anthropic:最先进模型,外国人禁用
- 网传阿里合伙人周靖人拟离职,仅出任阿里首席科学家6天
- 人物 | 陈宇森,那个让AI管人的技术极客,开启钉钉新时代
- 雷军用小米YU7装120箱车厘子共600斤,被指违规!刚刚直播回应:是卡车送过来的,是在封闭道路分装
- 湾区“造芯”更“追光”,粤芯闯关创业板
- 苹果为折叠屏iPhone Ultra铺路:iOS 27新增多款原生应用横屏模式
- 华为鸿蒙NEXT座舱发布计划公布,预计年底商用





京公网安备 11011402013531号