当前位置: 首页 » 资讯 » 新科技 » 正文

“城”势而上·人工智能+ | 沈阳新“基”:百亿数据标注产业新生态

IP属地 中国·北京 上游新闻 时间:2025-10-27 14:12:19


每天上班时间,在位于辽宁沈阳数字经济产业园的辽宁宏图创展测绘勘察有限公司里,数百名标注员都会专注地在屏幕上标记自动驾驶场景中的车道线、行人、车辆与路旁栏杆。这火热的工作场景,正是沈阳数据标注产业加速崛起的生动缩影。2024年5月,国家数据局发布首批承担数据标注基地建设任务的7个城市名单,并发放了任务书,沈阳名列其中。一年多以来,沈阳围绕6方面要求,积极推动人工智能大模型向装备制造、医疗健康等领域深度拓展。

上游新闻记者从沈阳市数据局了解到,截至今年9月底,基地标注数据超过7127TB;形成134个行业高质量数据集,参与编制国际标准1个、国家标准2个、行业标准2个;引育数据标注企业65家,全市数据标注从业人员有11800余人,拉动数据标注产业规模约24.1亿元。

人工智能的“教科书”

当前,随着数字化、智能化时代的到来,数据标注服务产业正从幕后走向台前,已经成为推动人工智能发展的重要环节。

什么是数据标注?为什么它如此重要?

数据标注是指,对未经处理的原始数据添加说明、解释、分类或编码的过程,以便数据可以被人工智能算法所理解和使用。这一过程主要是通过人工或半自动的方式,针对特定数据集进行标注,以形成具有特定格式的结构化数据。通过高质量的数据标注,人工智能系统能够学习到更为丰富和真实的特征信息,进而提升其在各类应用场景中的表现力和泛化能力。狭义的数据标注旨在为人工智能提供标准化“教材”,助力机器实现更为精准和高效的处理与决策。

“数据标注是现在比较热门的行业,主要是用来进行人工智能的训练,就像教人成长一样。”2025年沈阳青年工匠,辽宁宏图创展测绘勘察有限公司(以下简称:宏图创展)数据标注高级工程师袁铭阳介绍。

宏图创展是辽宁省瞪羚企业、“专精特新”企业,专注于智慧城市、高精度导航、无人驾驶、数字孪生、元宇宙等未来数字经济产业的关键技术领域。

“实际上,众多领域都有数据标注的贡献,比如传统测绘地理信息就是一种数据标注,不同的是过去的数据是给人看的,现在的数据标注是给AI看的,简单来说,数据标注就是教会AI感知具体的世界万物。”袁铭阳介绍。

数据标注在不同行业领域的应用场景广泛且深入,为人工智能产业的发展提供了坚实的基础和强大的动力。行业赋能重点围绕科学、制造、农业、能源、交通、金融、医疗、教育、消费、互联网治理、人力资源领域、公共安全等行业领域典型应用场景。

9月27日,记者在宏图创展看到,数百名标注员正专注且快速的滑动鼠标,在电脑屏幕上标记自动驾驶场景中的车道线、行人、车辆与路旁的栏杆。“这一层楼有约五六百名员工,为车企和图商提供核心数据服务,必须保证精准。”袁铭阳介绍,咱们老百姓日常开车用到的自动辅助功能,比如自动停车、自动入库,还有能帮着稳住行驶路线的车道保持功能,其实都离不开数据标注。数据标注员就像智能交通的“制图师”,每一个标注点都是未来自动驾驶系统的“路标”,一丝一毫的偏差都可能埋下安全隐患。

沈阳盛科御旷科技有限公司(以下简称:盛科御旷)是一家智能网联与自动驾驶科技型创新企业,在盛科御旷CEO陶永亮看来,数据标注能将未经处理的原始数据,加工转化为可供AI大模型深度学习与训练的“优质燃料”。“AI就像我们教的学生,数据标注就像为AI的编写的一本教科书。”

正如业内人士所言,有多少标注就有多少智能。没有高质量的数据标注,就没有可靠的AI模型。


宏图创展的工程师在进行数据标注工作。图片来源/受访者供图

大模型催生“新刚需”

作为智能驾驶领域的数据标注需求方,盛科御旷对行业过往的技术局限有更为切身的感触。“过去的智能驾驶系统智能化程度偏低、比较笨,即便感知到了外界的环境信息,车脑也只能严格遵照程序员预先编写的固定程序给出反馈,本质上是‘程序员设定什么,它就执行什么’,缺乏自主思考,仅能实现简单的语义理解。面对实际道路中的复杂路况更难以有效应对。”陶永亮认为,在感知层面,数据标注与AI的结合显著提高了感知精度与鲁棒性。

在他看来,数据标注能做的远远不止“分类”“画框” 等基础操作,更复杂的标注可以帮助大模型进行行为意图预测,模拟人类驾驶员对行人和其他车辆下一步动作的判断——这是AI智能化的典型体现,能让自动驾驶机器具备更接近人类的决策思维。

中国信通院最新发布的《数据标注产业发展研究报告(2025年)》指出,随着大模型的蓬勃发展,数据标注需求呈现海量增长。2018年Open AI GPT-1大模型数据量为4.6GB,2025年Qwen2.5Max大模型数据量超过了20万亿tokens,可见大模型数据需求增长近1.4万倍。同时大模型的数据来源极为丰富,涵盖文本、图片、音频和视频等多种形式,包含海量的知识信息,涉及各类专业领域和多种语言。

大模型的数据标注需求贯穿全生命周期,各阶段呈现显著差异。在预训练阶段,标注需求侧重于海量弱标注或无监督数据的清洗与去噪;监督微调阶段要求高质量指令数据的精准标注;强化学习阶段依赖人类偏好反馈标注;持续学习阶段的数据标注更强调动态更新能力。

“逻辑是这样的:算力是基础前提,决定的是AI发展的下限,其次还需要有模型,而数据是上限,尤其是高质量的数据集与数据标注。”袁铭阳介绍。

“数据标注更是模型迭代优化的关键支撑,这一过程本质是反向验证:通过标注数据的反馈,判断当前研发的模型是否适配实际场景需求,进而针对性调整优化,推动模型持续迭代。这一过程就构成了闭环数据的驱动迭代,数据标注既是‘教科书’ 又是‘考试卷’。”陶永亮说。

在业内人士看来,沈阳数据标注产业有明显优势,相关企业也有迫切发展需求。“就智能驾驶数据标注来说,沈阳本身就是地理信息测绘的大市,同时有着多家类似宏图创展的供给侧供应商。数据标注涵盖了太多领域,未来的产业发展,还需要结合城市自身的结构特点,找到牛鼻子才行。”盛科御旷CEO陶永亮说。

记者采访了解到,在沈阳还有许多类似的宏图创展的数据标注企业,为相关行业的发展提供了源头活水。例如:截至今年5月,中德(沈阳)高端装备制造产业园标注15TB非结构数据,为东北制药等企业训练工业质检模型;“碳卡智造”构建的10.2TB皮肤病理数据集应用于血管炎辅助诊断平台;“集镁科技”影视剧元数据集入选北京国际大数据交易所推荐名录。

2024年5月,国家数据局公布了7家全国数据标注试点基地名单,辽宁沈阳为其中之一,开始探索发展数据标注这一新兴产业。今年4月,第八届数字中国建设峰会上,国家数据局发布了全国47个数据标注优秀案例,7个试点城市共入选11个案例,包括宏图创展在内,沈阳市入选3个案例,数量位列第一。


广义的数据标注产业定义。图片来源/《数据标注产业发展研究报告(2025年)》

产业规模超24亿元

沈阳市数据局最新数据显示,截至今年9月底,基地标注数据超过7127TB;形成134个行业高质量数据集,参与编制国际标准1个,国家标准2个、行业标准2个;引育数据标注企业65家,全市数据标注从业人员11800余人,拉动数据标注产业规模约24.1亿元。

作为7个试点城市之一的沈阳是如何发力,推动数据标注产业高质量发展的?

9月30日,沈阳数据局数字经济处处长康晓辉接受上游新闻记者采访时介绍,在技术创新上,沈阳制定《沈阳市数据标注技术创新指导意见》,在国内首次提出数据标注技术指导性意见,率先提出10大技术创新方向,引领数据标注技术发展,推动沈阳市数据标注技术突破创新。作为全球首个基于医学影像大模型研发的多模态医学影像数据标注平台,沈阳东软医疗多模态学影像数据标注平台打破医学影像标注工具金标准数据集严重依赖国外的瓶颈,集数据、模型、工具、场景为一体,实现标注工具自主可控及国产化替代,标注质量提升30%且成本降低60%以上。

在生态培育上,当地成立沈阳市数据标注产业联盟,吸引数据标注产业链153家企业入盟,引导企业资源整合、业务联动、优势互补、成果共享,提升行业内影响力和业务承接能力。组织32家本地龙头企业和数据标注重点企业,组建沈阳数据标注产业集团(联合体)。为了鼓励数据标注产业发展,沈阳数据集团注资控股本地民营数据标注龙头企业辽宁宏图创展公司。这不仅是国有企业市场化收购数据标注民营企业的创新实践,也助力了数据标注产业关键技术攻关和生态培育,增强了沈阳基地企业市场竞争力。9月10日,全国首家大模型(L4级)高端数据标注项目——沈阳火山AI数据产业生态基地落户辽宁沈阳。

在人才支撑上,沈阳组织东北大学、辽宁大学、中科院沈阳计算所等高校和重点国企,组建沈阳市人工智能数据产业研究院和数据产业专家委员会,汇聚全省数据标注的专家、科研力量、高校人才,为数据标注产业发展提供技术和人才支撑。市残联、沈阳开放大学联合辽宁京数云大数据科技有限公司瞄准“招生+技能培训+就业”的闭环教育模式,推进校企合作打造残疾人教育订单式培养模式。累计培训残障学员 250余人,残疾人员工稳定在岗率 92%,处理标注数据超100TB。

康晓辉介绍,沈阳将强化技术创新应用,重点突破多模态数据标注、智能标注算法、自动化质检、跨模态语义对齐等技术难题,掌握一批自主可控的数据标注算法、先进技术与产品,提升数据标注产业核心竞争力。同时,持续引进人工智能行业领军企业在沈阳基地开展数据业务,设立数据标注企业、研发机构或区域业务中心等。培育20家数据标注“专精特新”企业,支持提升场景化数据采集能力、特定领域标注能力,打造具有国内竞争力的行业解决方案服务商,提供贴合垂直场景的高精准定制化数据标注服务。

上游新闻记者 张莹

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。