当前位置: 首页 » 资讯 » 新科技 » 正文

性能跃迁,幻觉清零!中国移动“九天”3.0震撼登场,多项核心技术同步开源

IP属地 中国·北京 编辑:沈如风 Chinaz 时间:2025-07-29 12:22:51

7月26日,在2025世界人工智能大会“AI 焕新 产业共赢”企业人工智能产业发展论坛上,中国移动隆重发布了其自主研发的 “九天”基础大模型3.0。此次发布不仅彰显了中国移动在大模型领域的深厚自研实力和持续创新能力,更标志着其在人工智能产业化发展道路上迈出了坚实一步。

作为国务院国资委战新“百大工程”的重要成果,“九天”基础大模型3.0在继承“高安全、高可控、全国产、全行业”四大特性的基础上,实现了三大关键“焕新”:

一、九天众擎语言大模型:架构与性能双重跃迁

“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力得到显著强化。该模型还创新构建了113域 ×53能力的二维分级后训练框架,结合动态强化学习策略,使复杂推理能力提升了 35%。

在权威榜单评测中,“九天”语言大模型成绩斐然:

在 GPQA-Diamond 评测中,以 77.67分斩获全球第二,超越 DeepSeekR1和 Qwen3。

在 ArenaHard V1.0 中,以 67.2分位居全球第一。

在 BFCL V3 评测中,达到 68分。

在性能大幅跃升的同时,模型进一步强化了可控生成能力,通过精确流程内置等技术细节,实现了专业场景下的零幻觉,破解了沉浸式角色演绎难题。

基于最新的语言大模型,中国移动还同步推出了多个专项模型:

九天代码大模型: 采用两阶段持续训练技术,支持代码生成、注释生成、单元测试生成、代码智能问答等任务,覆盖 Python、Java、JS、TS、Go、C++ 等10余种主流编程语言。在 evalPlus、MHPP、LivecodeBenchv6等多个代码生成榜单上表现领先。

九天数学大模型: 在短思考、长思考模式下均达到业界 SOTA 水平,多项指标超越 Qwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同参数量级模型。

二、九天善智多模态大模型:生成可控性与理解能力全面提升

“九天善智多模态大模型”引入复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新技术。同时,通过融合多模态理解信息和联合图文交织数据训练,显著提升了模型对文本指令和输入条件图像视频的感知能力。这意味着模型不仅能生成高质量的图像视频,还能进行多轮对话式高可控精确编辑操作,大幅提升了视觉生成的灵活便利性。例如,在图片生成方面可支持多轮精准局部修改,如修改文字、修改背景、增加元素等。

模型的图理解和视频理解性能也得到了全面提升:

图理解方面: 在 MMStar、HallusionBench 和 OCRBench 等图理解任务中,九天模型分别获得了 82.2、64.3和94.9的高分,处于业界领先水平。

视频理解方面: 在 Videomme 和 MVbench 两个任务中均表现领先,超越 Qwen2-VL 和 InternVideo2。

三、模型及核心技术开放开源,助力产业生态发展

中国移动此次还采取了开放策略,将多项模型及核心技术进行开源,旨在推动行业共同发展:

开源九天数童结构化数据大模型: 包括 JT-DA-8B 模型及后续演进版本,支持下载模型权重、微调代码、推理代码等。

开源九天数学大模型: 包括 JT-Math-8B 系列模型,支持下载模型权重、推理代码、技术报告。

开源九天代码大模型: 包括 JT-Coder-8B 系列模型,支持下载模型权重、推理代码、技术报告。

开源业界首创的结构化数据模型评测数据及 TReB 评测体系: 涵盖6大任务、34个能力,包括高质量、全面的数据、推理模式及评价指标,支持下载评测数据集、测试代码。

开源 CCR-Bench 行业场景复杂指令遵循评测数据集: 包含174条高质量、多样化、高难度复杂指令数据,高度模拟健康专家、智能客服、医疗助手等典型工业场景,支持下载数据集。

以上所有开源内容均已上线焕新社区、Github、HuggingFace、魔搭社区、Gitee 和 Arxiv,将为开发者和研究人员提供宝贵的资源,共同加速人工智能技术的创新与应用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。