1.2.3 大模型的数据泄露问题_大模型RAG实战：RAG原理、应用与系统构建-QQ阅读男生科幻网

书名：大模型RAG实战：RAG原理、应用与系统构建
作者名：汪鹏谷清水卞龙鹏
本章字数：252字
更新时间：2024-11-28 18:42:06

1.2.3 大模型的数据泄露问题

早在2020年，谷歌的科学家就进行了一项关于从大模型中挖掘隐私问题的研究——“Extracting Training Data from Large Language Models”。在这项研究中，他们以GPT-2为例探讨了如何通过数据提取攻击大模型，获取电话、身份信息、电子邮件地址等敏感数据。如图1-5所示，通过一定的查询引导，可以让模型泄露出训练数据中的敏感信息。

图1-5 通过提示词诱导GPT-2输出隐私信息

然而，在使用RAG系统之后，由于模型组织答案所用到的知识来源于预先提供的知识库信息，利用个人私有数据不仅可以使模型的答案更具个性化，还能让整个系统变得更加安全，降低被诱导输出敏感信息的风险。