计算机视觉(computer vision)四大基本任务为:分类(a)、定位,检测(b)、语义分割(c)、实例分割(d)。

四大基本任务

计算机视觉难点在于语义鸿沟(semantic gap):人类可以轻松地从图像中识别出目标,而计算机看到的图像只是一组0到255之间的整数。就像计算机如成年人一样下棋是相对容易的,但是让它有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

计算机任务的其他困难:拍摄视角变化、目标占据图像的比例变化、光照变化、背景融合、目标形变、遮挡等。

卷积神经网络(CNN)

多层感知机就是一系列全连接层组成,而卷积神经网络中除了全连接层之外,还有卷积层和池化层。

(1)卷积层

为什么使用卷积层?

输入图像维数很高,1000*1000大小的彩色图像对应于300w维特征,继续沿用多层感知机中的全连接层会让参数量特别大,会导致计算量大,而且大参数会有过拟合的风险。卷积是局部连接、共享参数版的全连接层,使参数大大降低。卷积中的参数就是卷积核(滤波器)。

所谓局部连接:如果是在全连接中,每个输出通过权重矩阵和所有的输入相连。而在视觉识别中,关键性的图像特征、边缘、角点等只占据了整张图像的小部分,图像中相距很远的两个像素之间有相互影响的可能性很小。因此,卷积层中,每个输出神经元在通道方向保持全连接(像感知机一样相加),而在空间方向上只和一小部分输入神经元相连(卷积核w,h)。

共享参数:如果一组权值可以在图像中某个区域提取出有效的表示,那么它们也能在图像的另外区域中提取出有效的表示,具体的表示即卷积核的移动。如果一个pattern出现在图像中的某个区域,那么它们也可以出现在图像中的其他任何区域。这里我解释为每个卷积核会学习一个特征,得到一张特征图,这样的话就是学习到一张图片中所有具有这种特征的区域。因此,卷积层不同空间位置的神经元共享权值,用于发现图像中不同空间位置的pattern,共享参数是深度学习一个重要的思想,其在减少网络参数的同时仍然能够保持很高的网络容量(能够表达复杂函数的能力),同时这种思想也使得模型在遇到新的数据时更具有鲁棒性和更高的泛化能力。卷积层在空间方向共享参数,而循环神经网络(RNN)在时间方向共享参数。

卷积层的作用:通过卷积,我们可以捕获图像的局部信息。通过多层卷积层堆叠,各层提取到特征逐渐由边缘、纹理、方向等低层级特征过渡到文字、车轮、人脸等高层级特征。

描述卷积的四个量: 一个卷积层的配置由如下四个量确定1. 滤波器个数。使用一个滤波器对输入进行卷积会得到一个二维的特征图(feature map)。我们可以用时使用多个滤波器对输入进行卷积,以得到多个特征图。2. 感受野(receptive field) F,即滤波器空间局部连接大小3. 零填补(zero-padding) P随着卷积的进行,图像大小将缩小,图像边缘的信息将逐渐丢失。因此,在卷积前,我们在图像上下左右填补一些0,使得我们可以控制输出特征图的大小。4. 步长(stride) S滤波器在输入每移动S个位置计算一个输出神经元。

卷积输入输出的大小关系:假设输入高和宽为HW,输出高和宽为H‘和W‘, 则H‘=(H-F+2P)/S+1, W‘=(W-F+2P)/S+1. 当S=1时,通过设定P=(F-1)/2, 可以保证输入输出空间大小相同。例如,3*3的卷积需要填补一个像素使得输入输出空间大小不变。

应该使用多大的滤波器:尽量使用小的滤波器,如3×3卷积。通过堆叠多层3×3卷积,可以取得与大滤波器相同的感受野,例如三层3×3卷积等效于一层7×7卷积的感受野。但使用小滤波器有以下两点好处。1. 更少的参数量。假设通道数为D,三层3×3卷积的参数量为3×(D×D×3×3)=27D^2, 而一层7×7卷积的参数量为D×D×7×7=49D^2。2. 更多非线性。由于每层卷积层后都有非线性激活函数,三层3×3卷积一共经过三次非线性激活函数,而一层7×7卷积只经过一次。

1×1卷积:旨在对每个空间位置的D维向量做一个相同的线性变换。通常用于增加非线性,或降维这相当于在通道数方向上进行了压缩。1×1卷积是减少网络计算量和参数的重要方式。

全连接层的卷积层等效:由于全连接层和卷积层都是做点乘,这两种操作可以相互等效。全连接层的卷积层等效只需要设定好卷积层的四个量:滤波器个数等于原全连接层输出神经元个数、感受野等于输入的空间大小、没有零填补、步长为1。

为什么要将全连接层等效为卷积层:全连接层只能处理固定大小的输入,而卷积层可以处理任意大小输入。假设训练图像大小是224×224,而当测试图像大小是256×256。如果不进行全连接层的卷积层等效,我们需要从测试图像中裁剪出多个224×224区域分别前馈网络。而进行卷积层等效后,我们只需要将256×256输入前馈网络一次,即可达到多次前馈224×224区域的效果。