卷积神经网络图像处理卷积时，为啥要旋转180°？-CDA数据分析师官网

热线电话：13121318867

卷积神经网络图像处理卷积时，为啥要旋转180°？

2023-04-10

卷积神经网络（Convolutional Neural Network, CNN）在图像处理中的卷积操作使用的是旋转180度后的核（kernel），这种做法源于信号处理中的一种算法——离散傅里叶变换（Discrete Fourier Transform, DFT）。在本文中，我们将探讨为什么卷积神经网络需要使用旋转180度的卷积核。

首先，让我们简单回顾一下CNN中卷积操作的基础知识。CNN通过卷积层来提取图像特征，具体地说，卷积层通过对输入的图像进行卷积操作得到输出的特征图。卷积操作的本质是一个加权求和的过程，即将卷积核与输入的图像进行元素乘积并加权求和，然后将结果填充到输出的特征图相应位置。而在CNN中，卷积核的大小、步幅、填充方式等都是需要指定的超参数。不同的超参数组合可以使得卷积层提取到不同的特征，从而实现对图像的分类、目标检测等任务。

那么为什么要旋转卷积核呢？事实上，卷积操作中涉及到的是卷积核和输入图像的卷积，而在信号处理中，我们通常使用傅里叶变换（Fourier Transform）将时域信号转换为频域信号，在频域中进行一些计算后再通过逆傅里叶变换（Inverse Fourier Transform）将结果转换回时域。这种转换的好处在于可以更方便地对信号进行处理，例如将时域卷积转换为频域乘法，从而提高计算效率。

回到CNN中的卷积操作，我们发现其实也存在时域和频域的转换。具体来说，卷积操作中的输入图像可以看作是一个二维离散时域信号，而卷积核可以看作是一个二维离散滤波器。那么我们是否也可以将它们转换到频域中进行处理呢？

答案是肯定的。在频域中，卷积操作被称为“点乘”，即将两个信号在频域中对应位置的值相乘，并将结果求和得到输出信号。因此，如果我们想要在频域中进行卷积操作，就需要将卷积核旋转180度，然后进行点乘运算。

为了进一步理解这个过程，我们可以通过DFT来进行演示。DFT是一种将时域离散信号转换为频域离散信号的算法，其基本思想是将时域信号分解为不同频率的正弦波和余弦波组合而成。下面是一个简单的示例：

假设我们有一个长度为4的时域信号f[n]=[1,2,3,4]，则其DFT可以表示为F[k]，其中k=0,1,2,3。这个转换过程可以使用numpy库中的fft函数进行计算。

import numpy as np

# 定义时域信号
f = np.array([1, 2, 3, 4])

# 计算DFT
F = np.fft.fft(f)

print(F)

输出结果为：

[10.+0.j -2.+2.j -2.+0.j -2.-2.j]

其中，F[0]对应的是直流分量，即时域信号的平均值。F[1]对应

的是第一个正弦波的振幅和相位，F[2]对应的是第一个余弦波的振幅和相位，F[3]对应的是第二个正弦波的振幅和相位。

现在，我们将f[n]和一个长度为3的卷积核h[n]=[1,0,-1]进行卷积操作。根据卷积操作的定义，可以得到结果g[n]=[2,2,2,2]。我们也可以使用DFT来计算这个结果，并验证旋转180度后的卷积核是否能够实现频域中的点乘运算。

首先，我们需要将f[n]和h[n]通过零填充扩展到长度为6和4，这样可以使它们与DFT计算所需的长度相等。然后，我们分别计算它们的DFT，并将结果相乘得到输出信号G[k]。最后，我们通过逆DFT将G[k]转换回时域，得到卷积操作的输出g[n]。

import numpy as np

# 定义时域信号和卷积核
f = np.array([1, 2, 3, 4])
h = np.array([1, 0, -1])

# 将f[n]和h[n]进行零填充扩展
f_padding = np.pad(f, (0, 2), 'constant')
h_padding = np.pad(h, (0, 1), 'constant')

# 计算DFT
F = np.fft.fft(f_padding)
H = np.fft.fft(h_padding)

# 频域中的点乘运算
G = F * H

# 逆DFT回到时域
g = np.fft.ifft(G).real

print(g)