AI 记住了你的哪些信息

Technology
What AI Remembers About You
随着大语言模型日益充当存储库的角色,研究人员警告称,存储的个人数据可能会被重构并泄露;新的技术防御手段和政策指南正竞相跟上这一发展步伐。

当模型成为账本

从表面上看,与 AI 助手的对话是转瞬即逝的:你输入问题,它给出回答,窗口随后关闭。但在底层,许多现代语言模型的行为并不像无状态计算器,而更像是一本巨大的、嘈杂的文本账本。这本账本有时包含现实生活中人们的片段——姓名、电子邮件地址、医疗片段,或是从私人文档中抓取的完整段落。研究人员已经证明,通过有针对性的查询可以恢复这些片段。这种能力将一种被称为“记忆”(memorization)的工程特性转化为公司、监管机构以及任何曾在对话框中输入过秘密的人所面临的现实隐私问题。

模型是如何留存记忆的

大语言模型的训练目标是预测海量文本语料库中的下一个标记(token)。在训练过程中,它们会形成内部模式,从而能够重现可能的后续内容。当训练数据包含稀有或唯一的字符串时——例如个人的电话号码或合同条款——模型可以牢牢地存储该模式,以至于通过精心设计的提示词(prompt),模型会逐字逐句地重现整个字符串。从软件缺陷的角度来看,这并不是一个 bug;它是大规模统计学习的一种涌现属性。这种倾向随着模型规模的扩大以及数据点在训练组合中出现的频率或唯一性而增加。

将记忆转化为泄露的攻击

最近的研究加剧了这种威胁。在主要的计算语言学会议上发表的论文描述了一种两步走策略:首先诱导模型“回忆”起被掩盖的段落,然后对候选填充内容进行排序,从而重建个人身份信息(PII),即便是从经过表面清洗的数据集中也是如此。这些实验强调了一个关键点:如果模型仍然学习到了能够让其恢复被掩盖部分的统计痕迹,那么对训练文本进行脱敏或掩盖并不能提供绝对的防御保障。

为什么记忆的影响不止于字面上的泄露

精确字符串的泄露是最直接的伤害——暴露的社会安全号码或私人电子邮件是即时且切实的——但隐私问题远不止于此。模型可以重现敏感的风格、结构或相关事实,当这些信息与外部数据结合时,就能实现重新识别。它们还可以概括出特定模式,让攻击者推断出个人的数据是否属于训练集的一部分(成员推理),这种技术本身就可能对举报人、患者或客户造成伤害。在受监管的领域(如医疗保健),风险尤为突出:一家主要大学实验室的最新研究展示了在有针对性的探测下,基于去标识化医疗记录训练的模型仍可能重现患者的具体细节,这种失效模式破坏了临床信任。

新的防御措施及其权衡

作为回应,研究人员正在开发防御工具,将记忆从一种负担转变为保护隐私的杠杆。一类被称为差分隐私(differential privacy)的方法在训练中加入校准噪声,使任何单一训练样本的影响在数学上受到限制,从而使精确重构成为了不可能。Google Research 及其附属团队最近报告了一个从零开始训练的、具有相当规模的差分隐私模型,并描述了揭示在大语言模型训练中应用差分隐私所带来的计算和效用成本的经验缩放定律。他们的工作表明,该技术是可行的,但成本高昂:隐私保证越强,获得同等性能所需的计算资源或数据就越多。

其他策略在推理阶段发挥作用,或直接编辑已学到的知识。最近的两篇论文提出了针对性的记忆检测和模型编辑方法,这些方法可以定位记忆中的 PII,并在不重新训练整个模型的情况下精准地减少其影响。这些方法旨在寻找中间地带:在删除危险片段的同时保留模型大部分的有用行为。早期结果在实验室环境下表现良好,但在扩展到最大的商业模型时仍面临工程障碍。

对公司和用户的实际影响

对于构建或部署生成式 AI 的公司来说,目前的实际选择看起来像是一个三方权衡:投资于隐私意识训练(这会增加成本和复杂性)、更激进地清洗训练语料库(这可能降低模型性能或导致清洗不彻底),或者接受一定的泄露风险并依赖下游控制手段,如红队测试和提示词过滤器。每条路径都有其局限性。例如,一旦文本副本被吸收进模型权重中,删除数据请求就很难执行;当学习已经发生时,“被遗忘权”在技术上并非易事。

这意味着产品团队必须增加新的流程:针对性的记忆审核、针对提取攻击的威胁建模,以及检测并遏制异常查询模式的运营护栏。审核应包括现实的提取测试,而不仅仅是对显性 PII 的表面检查。监管机构也在关注这一领域;医疗案例和公开研究有力地证明,特定领域的认证或强制性泄露测试可能会成为敏感部署的标准。

这对日常隐私意味着什么

大多数用户不会成为大规模提取攻击的受害者,但日常行为仍会影响风险。在公开网页帖子、论坛主题或保护不当的文档中分享独特的个人细节,会增加模型看到并记住这些内容的机会。使用私人客户日志或内部文档对模型进行微调也引发了类似的担忧:如果企业在没有强化防御的情况下将专有或受监管的数据输入第三方模型,实际上是在扩大其受攻击面。

好消息是,技术修复方案正在出现。训练时的差分隐私、具有记忆意识的微调以及更精准的模型编辑技术降低了泄露的可能性;更好的数据集审核工具和合成数据基准为工程师提供了衡量进度的手段。但这些防御措施都不是灵丹妙药,而且每种措施都会带来可能减缓采用速度的成本。

研究、行业与政策之间的延续性

当前的时刻看起来很像平台治理的其他早期篇章:研究人员揭示现实的危害,工程师构建缓解措施,政策制定者则匆忙统一激励机制。由于记忆取决于模型架构、规模和数据策选,责任将由模型构建者、云服务商和对私有数据进行微调的客户共同承担。因此,有效的缓解措施需要结合经审核的技术控制措施、针对训练和重用的合同规则,以及针对医疗、金融或儿童服务等领域什么是可接受隐私风险的明确监管标准。

为了使生成式 AI 时代的隐私具有意义,它不能成为一种事后的补救措施。可审核的训练流水线、受监管行业的强制性泄露测试,以及量化记忆的公开基准,需要与更强大的用户控制权和发生泄露时更清晰的法律补救途径并存。技术社区正在快速发展;政策机制现在必须跟上步伐。

AI 系统正在学习为世界建模。正是这种学习使它们难以忘怀。未来十年的挑战将是构建既能承载知识又不会承载私人生活的模型。

来源

  • Scalable Extraction of Training Data from (Production) Language Models(研究论文)
  • R.R.: Recollection and Ranking (ACL 论文, 2025)
  • Private Memorization Editing / ACL Anthology (2025)
  • VaultGemma:Google Research 关于差分隐私语言模型的技术报告
  • Abdul Latif Jameel Clinic / 麻省理工学院 (MIT) 关于临床 AI 记忆的研究(NeurIPS 相关工作)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 什么是记忆(memorization),为什么它会威胁 AI 模型的隐私?
A 大语言模型中的记忆并非软件漏洞,而是统计学习的一种涌现特性:当训练数据包含稀有或唯一的字符串时,模型可以在响应精心设计的提示语时逐字重现这些内容。这意味着敏感片段——如电话号码、电子邮件或私人条款——可能会被泄露,尤其是在模型规模扩大并记住了更多训练数据的情况下。
Q 为什么对训练数据进行脱敏(redaction)不是一种可靠的记忆防御手段?
A 对训练文本进行脱敏或掩码处理并不能提供绝对保障,因为模型会学习在这些编辑之后依然存在的统计痕迹。最近的研究表明,两步攻击法可以诱导模型回忆起被掩码的片段,并通过对候选填充项进行排序来重构个人身份信息,这意味着即便数据经过脱敏,仍可能通过巧妙的提示语影响输出并发生泄露。
Q 正在探索哪些防御策略来减少记忆,它们的权衡是什么?
A 研究人员正在探索几种路径:差分隐私(differential privacy)在训练中加入经过校准的噪声,使任何单个样本都无法对模型产生不成比例的影响,但更强的隐私性意味着更高的计算开销和更低的性能。其他方法旨在检测被记忆的内容并在无需完全重新训练的情况下将其编辑掉,这提供了一个折中方案,尽管将这些技术扩展到大型商用模型仍具有挑战性。
Q 企业现在应该采取哪些切实步骤来管理记忆风险?
A 对于从业者而言,这一路径涉及权衡与治理。企业可以采用具备隐私意识的训练或更严格的数据清洗,或者接受一定程度的泄露风险并结合下游控制措施,如红队测试和提示语过滤器。他们应实施记忆审计和威胁建模,以及限制异常查询的防护栏(guardrails),并在敏感部署中考虑监管层面的泄露测试或认证。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!