总体而言,我认为是在进行理想数据分布的模拟采样。不同的数据增强手段对数据进行了不同的变换,然而我们知道变换前后图像的语义是不变的。所谓的语义不变其实说明了变换后的样本同样来自理想的数据总体分布。因此通过数据增强,我们能够获得更多的目标分布的采样,从而使得经验分布的估计趋向于理想分布。
然而数据增强毕竟不是真的实现了数据的无中生有,新数据与旧数据之间的差异依然比较小,换句话说并不能看作自然地依理想数据概率分布采样,所以数据增强的边际效益可能比较有限。
具体效果上,我感觉有两个角度的作用:
- 局部平滑正则化:例如加噪,等价于在原数据点附近对模型进行平滑约束。实际上,普通的图像识别模型对特殊噪声的鲁棒性很差,例如在对抗攻击领域,微弱的噪声叠加即可使模型分类错误,说明神经网络在数据点附近的预测有着很大的「抖动」。
- 变换鲁棒性:通过对数据进行特殊的变换,使得模型对该种变换更鲁棒,不敏感,学习对该变换具有不变性的特征。例如尺度变换、色彩变换、旋转等。