当前位置：首页 » 资讯 » 新科技 » 正文

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

IP属地中国·北京 机器之心Pro 时间：2025-12-01 18:14:50

本研究由史蒂文斯理工学院（Stevens Institute of Technology）的 IntelliSys Lab 团队以及休斯顿大学（University of Houston）的 ANTS Lab 团队的相关研究人员共同完成，主要研究方向包括无服务器计算、高性能计算、AI 安全、联邦学习、LLM 代理系统、隐私保护及分布式智能系统等领域。
随着大语言模型（LLM）的商业价值快速提升，其昂贵的训练成本使得模型版权保护（IP Protection）成为业界关注的焦点。然而，现有模型版权验证手段（如模型指纹）往往忽略一个关键威胁：攻击者一旦直接窃取模型权重，即拥有对模型的完全控制权，能够逆向指纹 / 水印，或通过修改输出内容绕过指纹验证。
在此背景下，史蒂文斯理工学院（Stevens Institute of Technology）王灏老师团队的第二年级博士生熊子洵同学提出了 iSeal。该工作已被 AAAI 2026 主轨道以 poster 形式录用。
iSeal 是首个面向「端到端」模型窃取场景设计的加密指纹方案。它通过引入加密机制，使得指纹可抵御拥有模型完全控制权的攻击者所发起的「合谋遗忘攻击」（Collusion-based Unlearning）与「响应篡改攻击」（Response Manipulation），并在 12 个主流 LLM 上实现了 100% 的验证成功率。

论文标题：iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification论文链接https://arxiv.org/pdf/2511.08905
研究问题与背景
大语言模型的训练往往耗费数百万美元的算力与数据资源，使得训练后的模型权重成为了极具价值的知识产权。为了确权，研究人员通常采用「模型指纹」（Model Fingerprinting）技术，即在模型中植入「触发器」（Trigger），当输入特定样本时输出特征化响应，以此证明模型所有权。
然而，现有指纹技术普遍基于一个不现实的假设：默认验证者面对的是黑盒 API，或攻击者无法干预推理过程。
在现实中，高级攻击者往往直接盗取模型权重并在本地部署，从而拥有「端到端控制」（End-to-End Control）。在这种情况下，攻击者可以发动更强的攻击，包括：
合谋遗忘（Collusion-based Unlearning）：攻击者收集部分指纹触发样本与其响应，通过微调或反向训练使模型遗忘特定指纹特征。

响应篡改（Response Manipulation）：攻击者实时监控模型输出，一旦检测到疑似指纹响应，立即使用同义词替换、句式重组或 paraphrasing 进行篡改，从而绕过验证。

实验表明，在这些高级攻击下，传统指纹方案（如后门式指纹）大多迅速失效，验证成功率接近 0%，无法提供有效保护。
方法与创新：
iSeal 的加密指纹框架

针对上述挑战，iSeal 提出了一套全新的加密指纹验证框架。其核心思想不是植入一个静态后门，而是将指纹验证过程转化为一个安全的加密交互协议。主要设计包括以下三个方面：
加密指纹（Encrypted Fingerprinting）与外部编码器
iSeal 采用加密的指纹植入机制，并引入外部编码器（External Encoder）来解耦指纹与模型权重，使得指纹特征不再以显式形式存储在模型参数中，从而防止攻击者通过分析权重逆向指纹。
抗遗忘设计：Confusion & Diffusion 绑定机制
iSeal 通过 Confusion & Diffusion 机制，将指纹特征通过条件概率深度绑定到模型的核心推理能力之中。指纹不再是可单独剥离的附加结构，且多个指纹之间不互相纠缠，因此攻击者即使尝试遗忘部分指纹，也无法破坏整体指纹系统。
抵御响应篡改：基于相似度的动态验证
针对推理阶段的输出篡改，iSeal 采用基于相似度的验证策略（Similarity-based Verification）和纠错机制（Reed-Solomon Code）。即使攻击者使用 paraphrasing 或同义词替换，验证算法也能从语义与概率分布中恢复指纹信号。
实验结果
研究团队在包括 LLaMA、OPT 等在内的 12 个主流大语言模型上评估了 iSeal。结果显示，在提供强指纹保护的同时，iSeal 不影响模型的原始任务性能。
防御微调与合谋攻击
研究者模拟了攻击者利用盗取的模型权重执行 SFT 微调与合谋遗忘攻击。即使攻击者利用已知指纹样本反向训练以擦除指纹：
iSeal 的验证成功率（FSR）始终保持在 100%；
传统指纹方法在经过少量微调后即完全失效（FSR ≈ 0%）。这是因为 iSeal 的指纹互不纠缠，使得攻击者无法通过遗忘部分指纹来破坏整个验证结构。

防御响应篡改攻击
针对同义词替换、句式改写和 LLM 派生润色等篡改方式，iSeal 的相似度验证与纠错机制依然能够从潜在语义中识别指纹信号，因此验证成功率仍然维持在 100%。相比之下，基于精确匹配（Exact Match）的传统方法在此类攻击下完全失效。

消融实验
研究者对 iSeal 的关键组件进行了消融实验，以验证其必要性。

冻结编码器（Freezing the Encoder）：若训练时不冻结编码器（iSeal w/o freezing），模型无法稳定收敛，FSR 直接降低为 0%。
可学习编码器（Learned Encoder）：将可学习编码器替换为传统加密算法（如 AES，即 iSeal w/o encoder）后，FSR 降至 0%–2%。说明传统加密机制无法有效实现 iSeal 所需的指纹嵌入与语义恢复能力。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

仅用43个月！鸿蒙智行创中国造车新势力最快交付破百万台纪录

AI伪造战场视频，X平台出手了

三星展示概念手机：屏幕能从5.1英寸“拉长”至6.7英寸

谷歌查找生态更新：用户可与航司共享追踪器信息，找回丢失行李

华为余承东：问界M9全系累计交付突破28万辆

威锋VIA Labs公布工业级USB 5Gbps / 10Gbps集线器控制器芯片

全站最新

仅用43个月！鸿蒙智行创中国造车新势力最快交付破百万台纪录

AI伪造战场视频，X平台出手了

三星展示概念手机：屏幕能从5.1英寸“拉长”至6.7英寸

谷歌查找生态更新：用户可与航司共享追踪器信息，找回丢失行李

热门推荐

仅用43个月！鸿蒙智行创中国造车新势力最快交付破百万台纪录

AI伪造战场视频，X平台出手了

三星展示概念手机：屏幕能从5.1英寸“拉长”至6.7英寸

谷歌查找生态更新：用户可与航司共享追踪器信息，找回丢失行李

华为余承东：问界M9全系累计交付突破28万辆

威锋VIA Labs公布工业级USB 5Gbps / 10Gbps集线器控制器芯片

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

曾毓群亮相全国政协“委员通道” 解读中国新能源产业崛起密码

专访职趣云：AI时代，职业教育如何为职场补充AI即战力？

6G+四足机器人，要上月球、探深海？智元、电信在巴展联合首秀

Nics推出Hesper64 (77)矮轴三模机械键盘，单键位支持双重输入

消息称AI编程助手Cursor年化收入突破20亿美元，企业客户贡献六成

全国政协委员周鸿祎：优化推理算力布局，夯实人工智能产业发展底座

华为乾崑首发全球量产最高896线激光雷达：超高清、超精准、超远距

对微软GitHub频繁宕机不满！OpenAI正开发替代品