当前位置: 首页 » 资讯 » 新科技 » 正文

中国工程院院士高文:AI智能体赋能可关闭字幕,让2.2亿听障人士实现“字幕自由”|聚焦中关村论坛

IP属地 中国·北京 华夏时报 时间:2026-03-28 18:21:23


本报记者王敬 北京报道

官方统计数据显示,我国听力损失人数约2.2亿,其中60岁以上人群听力损失现患率达45%。在人人都能通过电视、网络便捷获取信息的今天,你是否想过,听障群体却长期面临“看得见、听不清”的无奈,一道无形的壁垒,正阻碍着他们顺畅融入社会。

3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论坛在北京举行。

论坛上,中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文向包括《华夏时报》在内的媒体记者分享了关于科技助残的思考。他指出,在AI智能体飞速发展的今天,让听障人士通过遥控器轻松开启字幕,享受与常人无异的视听权利,已是“难度不大、亟待落地”的民生实事。

智能体带来新可能

回望人工智能的发展脉络,高文指出,人工智能发展的70年间,经历了多次起伏。自2006年开始的第三次浪潮中,过去20年又可细分为三波小的浪潮。

第一波是判别式人工智能,自2006年起兴起,判别式人工智能以图像和视频识别为代表,推动了人脸识别等应用的落地;第二波是自2014年开始的生成式人工智能,目前仍在发展,各类大语言模型均属此类;而从2025年开始,第三波浪潮——代理式人工智能(即AI智能体)来临,则代表了AI能力的一次重要跃升。

高文形象地解释了AI智能体的内涵:“单个智能体,相当于能够完成一项任务的程序。以往的人工智能系统,无论是生成式AI还是判别式AI,大多是一个程序只负责一件事。而多智能体系统则可以同时处理多项任务,如同一位秘书,能够统筹安排日程、整理文件、制作PPT、处理Excel表格。这些工作过去需要多个单一程序分别完成,而代理式人工智能的出现,让AI和人一样具备了这样的综合能力。”

他进一步介绍,AI智能体是一种能够感知环境、自主规划、使用工具并执行复杂任务的系统。当前,AI智能体与大语言模型紧密关联,通过调用多种模型完成复杂任务。

高文还以自动驾驶、具身智能、人形机器人等为例,说明多智能体系统的广泛应用前景。他特别提到开源工具OpenClaw(即当下火热的养“龙虾”),认为其能够调用大语言模型结果并实现迭代,是工程学的集大成者,值得各界积极使用,同时也要注意安全与风险管控。

推进可关闭字幕国标落地

高文的另一个身份是第十四届全国人大代表。2026年全国两会期间,高文与全国人大代表吕世明聚焦听障群体信息获取权益,联名提交关于在全国电视台全面推行实施《信息技术可关闭字幕》国家标准的建议,呼吁通过完善制度、强化技术、健全保障,让2.2亿听力损失者顺畅获取公共信息,切实筑牢无障碍信息环境的民生底线,彰显全过程人民民主的温度与力量。

在新闻直播、应急广播、体育赛事等关键场景中,同步字幕的长期缺位,让2.2亿听力损失者无法实时准确捕捉播出内容,被迫沦为“信息孤岛”。应急广播中的灾害预警、新闻播报中的政策解读、重大活动中的民生信息,这些与群众生活息息相关的内容,因缺乏有效的听觉替代手段,难以传递到听障群体中,不仅影响其知情权与参与权,更在紧急情况下可能埋下安全隐患。

高文指出,可关闭字幕(Closed Captioning,简称CC)为听力障碍群体提供了重要通道,让他们不仅能看到画面,还能通过字幕了解画面中的对话内容。可关闭字幕在欧美、日本等国家和地区已广泛应用,用户可通过遥控器自由开启或关闭字幕。

2023年实施的无障碍环境建设法明确规定,利用财政资金设立的电视台应当在播出电视节目时配备同步字幕。但高文和吕世明通过调研发现,由于缺乏强制约束和具体实施细则,这一规定落地效果不佳。

针对中文可关闭字幕的特殊性,国家标准《信息技术可关闭字幕》(GB/T 44882-2024)已于2024年11月发布,2025年6月1日正式实施,创新性提出可将关闭字幕编码为与音频和视频基本流并驾齐驱的字幕基本流,填补了我国可关闭字幕领域国标空白,为推广应用提供了自主可控的国际先进标准支撑。

AI赋能普惠无障碍

就技术实现原理,高文表示:“我们日常收看电视节目时,电视信号由电视台端发出,经线缆传输至用户家中,再由机顶盒或电视进行解析播放。这一过程中,电视台会将音频、视频等各类信号统一进行封装打包,再通过传输线路送达终端。”

信号封装遵循标准化技术规范,其中最核心的传输格式为MPEG-2TS(MPEG-2 Transport Stream)。该传输方式会将视频、音频等信号分别封装为独立数据包,并在数据包前端添加标识说明信息。传输流中包含多种类型数据包,涵盖节目相关、视频相关、音频相关等类别。

高文介绍,音频信号会根据声道或语种划分为音频1、音频2、音频3等不同通道,例如可分别承载中文、英文、法文等不同语种音频,若仅提供单一语种音频,则仅存在音频1通道。字幕作为独立信息,同样可通过标准化封装方式嵌入,与音视频信号同步传输,从而实现可关闭字幕的播放效果。

高文指出,目前观众在电视上看到的滚动字幕,通常是电视台在播出前将字幕叠加到画面上,再编码发送,这种方式生成的字幕属于视频流的一部分,无法由用户自行开关。而可关闭字幕则不同,它将字幕以文字字段的形式独立打包,随视频信号一同传输至用户端。观众通过遥控器即可根据需要打开或关闭字幕,为听力障碍人群提供了更灵活的使用体验。

对于字幕内容的生成,高文介绍,对于新闻等有文字稿的节目,可直接利用现有文字资源同步推送;对于现场采访等无文字稿的场景,则可借助语音识别技术,将语音实时转化为文字后生成字幕。他特别提到,2025年春晚曾为听力障碍观众专门制作了节目,但当时使用的是传统字幕机方式,并非可关闭字幕。

他认为,只需对电视台播出环节稍做配合,并对机顶盒、遥控器等终端设备进行升级,即可实现该功能。针对可能存在的安全风险,他强调,字幕内容可参照现有视频内容的管理方式,风险可控。

高文建议,可将相关设备纳入国产设备更新补贴政策,让听力障碍者通过简单的遥控器操作或机顶盒升级,即可享受到这一服务。他表示,在人工智能特别是AI智能体的技术加持下,实现这一目标难度不大,有望让数千万乃至上亿听力障碍人士平等享受信息获取的权利。高文呼吁各方携手合作,共同推动可关闭字幕技术的落地,让科技助残真正惠及更多人群。

责任编辑:徐芸茜 主编:公培佳

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。