IT之家 10 月 25 日消息,接触过变声器的朋友应该或多或少听说过,目前主流的语音处理方案都是会有一定延迟时间的,甚至可以说效果越逼真,延迟就越高。
据网络安全公司 NCC Group 最新披露,AI 正推动语音深度伪造技术走向“实时”阶段,攻击者可在通话中即时模仿他人声音,诈骗成功率近 100%。
实时语音伪造技术突破
这项被称为“深度伪造语音钓鱼(deepfake vishing)”的技术,通过 AI 模型学习目标人物的声音样本,可在定制网页界面上由操作者一键启用,实现实时语音“转译”。
研究人员表示,该系统仅需中等计算性能即可运行。在一台搭载英伟达 RTX A1000 显卡的笔记本上,他们实现了不到 0.5s 的延迟,而且没有之前的那种停顿和不自然感。
测试表明,即便只是使用低质量录音,该系统仍能生成极其逼真的语音副本。相比以往需数分钟训练、仅能生成预录音频的旧式语音伪造工具,这一系统可在通话中根据人的意愿实时调整语调和语速。这意味着普通人也可以借助笔记本电脑或智能手机实现类似效果,进一步降低了恶意利用门槛。
测试结果显示欺骗率极高
NCC Group 安全顾问 Pablo Alobera 表示,在经授权的受控测试中,当实时语音伪造技术与来电号码伪造(caller ID spoofing)结合使用时,几乎在每次实验中都成功欺骗了测试对象。Alobera 指出,这一技术突破显著提升了语音伪造的速度与真实性,即使是普通电话通话,也可能被利用进行欺诈。
![]()
视频伪造尚未完全同步发展
尽管语音伪造技术已进入实时阶段,但实时视频深度伪造仍未达到相同水平。近期流传的高质量案例多依赖最前沿 AI 模型,如阿里 WAN 2.2 Animate 和谷歌的 Gemini Flash 2.5 Image,从而将人物“移植”至逼真的视频场景中。
然而,这些系统在实时视频生成中仍存在表情不一致、情绪不匹配及语音不同步等问题。人工智能安全公司 The Circuit 创始人 Trevor Wiseman 向《IEEE Spectrum》表示,即使是普通观众,也能从“语气与面部表情的不协调”察觉伪造痕迹。
专家呼吁建立新型身份验证机制
Wiseman 提到,AI 伪造技术的普及已导致实际损失。他举例称,有公司在招聘过程中被视频深度伪造欺骗,误将笔记本电脑寄往虚假地址。这类事件表明,语音或视频通话已无法作为可靠的身份验证方式。
随着 AI 驱动的冒充行为日益普及,专家警告称,必须引入新的身份验证机制。Wiseman 建议借鉴棒球比赛中的“暗号”概念,使用独特且结构化的信号或代码,以在远程交流中确认身份。他强调,若不采取此类措施,个人与机构都将面临越来越复杂的 AI 社会工程攻击威胁。





京公网安备 11011402013531号