两个原则

  1. 平移不变性(translation invariance):不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。
  2. 局部性(locality):神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测。

重新考察全连接层

将输入和输出变形为矩阵(宽度、高度)

将权重变形为 4 维张量

hi,j=k,lwi,j,k,lxk,l=a,bvi,j,a,bxi+a,j+bh_{i, j}=\sum_{k, l} w_{i, j, k, l} x_{k, l}=\sum_{a, b} v_{i, j, a, b} x_{i+a, j+b}

其中 vvww 的重新索引,vi,j,a,b=wi,j,i+a,j+bv_{i, j, a, b} =w_{i, j, i+a, j+b}

平移不变性

hi,j=a,bvi,j,a,bxi+a,j+bh_{i, j}=\sum_{a, b} v_{i, j, a, b} x_{i+a, j+b}xx 的平移应仅导致 hh 的平移

vv 不应该依赖于位置 (i,j)(i,j)

解决方案:vi,j,a,b=va,bv_{i, j, a, b}=v_{a,b}

hi,j=a,bva,bxi+a,j+bh_{i, j}=\sum_{a, b} v_{ a, b} x_{i+a, j+b}

这就是二维互相关(cross-correlation)

局部性

当评估 hi,jh_{i,j} 时,不应使用远离 xi,jx_{i,j} 的参数

解决方案:当 a,b>Δ|a|,|b|>\Delta 时,使得 va,b=0v_{a,b}=0

hi,j=a=ΔΔb=ΔΔva,bxi+a,j+bh_{i, j}=\sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} v_{a, b} x_{i+a, j+b}

总结

  • 图像的平移不变性使我们以相同的方式处理局部图像,而不在乎它的位置。
  • 局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。
  • 在图像处理中,卷积层通常比全连接层需要更少的参数,但依旧获得高效用的模型。
  • 卷积神经网络(CNN)是一类特殊的神经网络,它可以包含多个卷积层。
  • 多个输入和输出通道使模型在每个空间位置可以获取图像的多方面特征。