卷积后的尺寸怎么计算

BDPBZ • 2025-01-20 14:10 • 编程

卷积是深度学习中非常重要的操作之一，可以轻松地对图像、语音、文本等数据进行处理和分析。在进行卷积操作时，需要计算卷积核在特征图上移动的步长、填充值和卷积核的大小等参数。对于卷积后得到的特征图的尺寸如何计算，本文将进行详细阐述。

一、卷积的基本概念

在深度学习中，卷积操作是指将输入数据与卷积核进行卷积运算，得到输出数据的过程。卷积核是一个小的矩阵，可以提取出输入数据中的特征。卷积过程中，卷积核在输入数据上移动，将每个位置的输入数据与卷积核进行对应相乘，并将相乘结果相加得到输出数据。卷积操作可以对图像、文本等数据进行特征提取和降维，是深度学习中非常重要的操作。

二、卷积的参数

在进行卷积操作时，需要设置一些参数，包括步长、填充值和卷积核的大小。这些参数直接影响着卷积后特征图的大小。

1. 步长

步长指卷积核在特征图上移动的距离，如果将步长设置为1，则卷积核每次仅移动一个像素；如果将步长设置为2，则卷积核每次移动两个像素。步长越大，卷积后的特征图的大小就越小。

import numpy as np
import torch.nn as nn
import torch

# 定义一个2维卷积层
conv = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=2, padding=1)
# 定义一个随机输入
x = torch.randn(1, 3, 224, 224)
# 卷积操作
output = conv(x)
print(output.shape)

上面代码中，定义了一个2维卷积层，设置了输入通道数为3，输出通道数为64，卷积核大小为3×3，步长为2，填充值为1。输入数据为一个大小为1x3x224x224的随机张量。通过卷积操作，输出的特征图尺寸为1x64x112x112。

2. 填充值

填充值是在输入数据的周围添加一层固定值（通常为0）来增加输入数据的大小，可以使卷积之后得到的特征图尺寸和输入数据的尺寸相等。如果不进行填充操作，卷积核无法在输入数据的边缘处进行有效卷积，导致卷积后的特征图的大小会比输入数据的大小减小。

3. 卷积核的大小

卷积核的大小指的是卷积核的宽度和高度，通常是一个正方形或矩形。卷积核越大，可以提取更多的特征，但也会导致卷积后的特征图尺寸减小。卷积核的大小通常由用户根据任务需求进行设置。

三、卷积后特征图的大小计算公式

计算卷积后的特征图大小需要考虑输入数据的大小、卷积核的大小、步长和填充值等参数。下面是卷积后特征图大小计算的公式：

输出宽度：$W_{out} = \dfrac{W_{in} – kernel\_size + 2 \times padding}{stride} + 1$

输出高度：$H_{out} = \dfrac{H_{in} – kernel\_size + 2 \times padding}{stride} + 1$

输出通道数：$C_{out} = kernel\_num$

# 计算卷积后特征图大小的函数
def calc_conv_size(input_size, kernel_size=3, stride=1, padding=1):
    output_size = int((input_size - kernel_size + 2 * padding) / stride) + 1
    return output_size

# 计算输入大小为224x224，卷积核大小为3x3，步长为1，填充值为1的卷积后特征图大小
print(calc_conv_size(224, 3, 1, 1))

上面代码中，定义了一个计算卷积后特征图大小的函数calc_conv_size()，并使用该函数计算输入大小为224×224，卷积核大小为3×3，步长为1，填充值为1的卷积后特征图大小，输出结果为224×224。

四、总结

本文详细阐述了卷积后的尺寸怎么计算。卷积是深度学习中非常重要的操作之一，可以轻松地对图像、语音、文本等数据进行处理和分析。卷积操作需要设置一些参数，包括步长、填充值和卷积核的大小等。通过使用卷积后特征图大小计算公式，可以准确计算卷积后特征图的大小。当然，在实际运用中还需要根据任务需求进行参数调整，以获得最优的效果。

原创文章，作者：BDPBZ，如若转载，请注明出处：https://www.506064.com/n/331563.html