- 隐私计算:推进数据“可用不可见”的关键技术
- 闫树等
- 830字
- 2022-05-06 17:14:41
➢ 联邦学习的实现流程
联邦学习的实现可以分为两个核心流程,一是特征工程,二是模型训练。
特征工程是训练的前提环节,需要对输入训练中的特征进行一系列加工和处理,主要包括异常值清洗、缺失值填充、特征编码、特征分箱、特征标准化、特征散列、特征选择等,这其中的一些过程并不一定需要通过联邦的形态交互实现,参与方在本地计算即可,但类似于特征分箱之类的处理大多还是需要以联邦的形态完成。
根据不同场景的不同目标,参与方之间按照约定的目标机器学习算法参与模型训练。常见的机器学习算法主要有逻辑回归、决策树、线性回归、k-means聚类、主成分分析、深度学习等。但从目前的实践应用看,联邦学习中应用最多的还是逻辑回归和决策树模型。
那么,一个完整的联邦学习任务究竟是怎样完成的,我们通过纵向的联邦学习训练做一个简单的说明,仍然以两个参与方之间的合作为例,具体流程如图2-12所示。
图2-12 一个纵向的联邦学习训练流程示例
(1)部署数据集:参与方统一联邦学习的目标后,需要分别确认任务将使用到的样本数据集,检查与确认隐私数据不可交换后,完成数据集的加载和部署,进行特征导入,完成特征工程。
(2)对齐加密样本:也就是取双方样本的交集。由于双方的样本数据并非完全重合,系统利用基于加密的用户样本对齐技术,在双方不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模。
(3)加密训练:在确定用户和特征对齐的情况后,就可以利用这些数据训练机器学习模型。如图2-12中右侧部分。具体流程可参阅第3章联合建模的纵向逻辑回归算法的训练过程。
(4)输出结果:训练结束后,指定的结果方可以按照约定的方式获取模型结果。配置任务时,参与方之间会提前约定结果输出方式,一般只有发起方可以获得模型结果,且模型结果只包含与本方特征有关的部分。
(5)模型发布/上线:对完成训练的模型进行管理发布。
(6)预测/模型推理:基于已完成训练的模型进行预测;但即使训练已完成,预测过程也需要其他参与方协同完成。