3.5 数据增强

既然你已经知道了如何处理数据以获得特定的分布,那么了解数据增强是很重要的,它通常与缺失数据或高维数据相关联。传统的机器学习算法在处理维数超过样本数量的数据时可能会有问题。这个问题并不是针对所有的深度学习算法,但是有些算法在训练模型时会面临非常困难的问题,因为需要解决的变量比需要处理的样本要多。我们有几个选项来纠正这个问题:要么减少维度或变量(见下一节),要么增加数据集中的示例(见本节)。

添加更多数据的一种技术称为数据增强(Van Dyk,D.A.and Meng,X.L.,2001)。在本节中,我们将通过使用MNIST数据集来举例说明一些数据增强技术。这些技术专门用于处理图像数据,但是从概念上讲,可以将该技术扩展到其他类型的数据。

我们将介绍数据增强的基本知识:添加噪声、旋转和缩放。也就是说,从一个原始示例中,将生成三个新的、不同的数字图像。我们将使用名为scikit image的图像处理库。