- 大模型RAG实战:RAG原理、应用与系统构建
- 汪鹏 谷清水 卞龙鹏
- 252字
- 2024-11-28 18:42:06
1.2.3 大模型的数据泄露问题
早在2020年,谷歌的科学家就进行了一项关于从大模型中挖掘隐私问题的研究——“Extracting Training Data from Large Language Models”。在这项研究中,他们以GPT-2为例探讨了如何通过数据提取攻击大模型,获取电话、身份信息、电子邮件地址等敏感数据。如图1-5所示,通过一定的查询引导,可以让模型泄露出训练数据中的敏感信息。
图1-5 通过提示词诱导GPT-2输出隐私信息
然而,在使用RAG系统之后,由于模型组织答案所用到的知识来源于预先提供的知识库信息,利用个人私有数据不仅可以使模型的答案更具个性化,还能让整个系统变得更加安全,降低被诱导输出敏感信息的风险。