一文彻底搞懂深度学习(2)

优化器（Optimizer）

在深度学习中，优化器（Optimizer）是一个核心概念，它负责调整神经网络的权重和偏置，以便最小化损失函数，从而提高模型的准确性和性能。

常见的优化器，包括梯度下降系列（批量梯度下降BGD、随机梯度下降SGD、小批量梯度下降MBGD）、动量法、NAG、Adagrad、RMSprop以及Adam等，它们的核心目标是通过调整学习率、利用梯度信息等手段，高效地最小化损失函数，从而优化和提升神经网络模型的性能。

Optimizer

优化器

优化器（Optimizer）是什么？优化器是一种特定的深度学习算法，用于在训练深度学习模型时调整权重和偏差，从而更新神经网络参数以最小化某个损失函数。

损失函数衡量了模型的预测值与真实值之间的差异，而优化器的目标是通过调整网络参数来最小化这个差异，从而提高模型的准确性和性能。

为什么需要优化器？由于目标函数拥有众多参数且结构复杂，直接寻找最优参数变得十分困难。因此，我们需要借助优化器，它能够逐步调整参数，确保每次优化都朝着最快降低损失的方向前进。

什么是优化器的调参？优化器调参即根据模型实际情况，调整学习率、动量因子、权重衰减等超参数，以优化训练效果和性能。需通过经验和实验找最佳组合，实现快速收敛、减少摆动、防止过拟合。

学习率：过大的学习率可能导致模型无法收敛，而过小的学习率则会使训练过程变得缓慢。因此，需要根据实际情况选择合适的学习率。
动量因子：对于使用动量的优化器，动量因子的选择也很重要。动量因子决定了过去梯度对当前梯度的影响程度。合适的动量因子可以加速收敛，减少摆动。
权重衰减：权重衰减是一种正则化方法，用于防止模型过拟合。在优化器中，可以通过添加权重衰减项来减少模型的复杂度。

常用的优化器

常用的优化器有哪些？常用的优化器主要包括SGD、BGD、Momentum、NAG、Adagrad、RMSprop、Adadelta和Adam等，它们通过不同的策略调整学习率和梯度方向，以实现快速、稳定的模型训练。

1. 随机梯度下降（SGD）

定义：每次迭代仅使用一个训练样本来计算损失函数的梯度，并更新模型参数。
特点：适用于大规模数据集和在线学习场景。

2. 批量梯度下降（BGD）

定义：每次迭代使用全部训练数据来计算损失函数的梯度，并更新模型参数。
特点：适合于小规模数据集和需要精确估计梯度的场景。

3. 动量法（Momentum）

定义：通过引入一个累计梯度的指数加权平均，将过去的梯度信息考虑进当前的参数更新中，从而增加稳定性和提高训练效率。
特点：常用于改进随机梯度下降（SGD）和小批量梯度下降（MBGD）等优化器。

4. NAG（Nesterov Accelerated Gradient）

定义：在动量法基础上进行改进的优化算法，先按照之前的动量更新参数，再在这个新的位置计算梯度，并根据此调整更新方向。
特点：可以减少摆动，加快收敛速度。

5. Adagrad

定义：一种自适应梯度下降的优化器，对不同参数使用不同的学习率。对于更新频率较低的参数施以较大的学习率，对于更新频率较高的参数使用较小的学习率。
特点：适用于大规模数据集和特征提取任务。

6. RMSprop

定义：对Adagrad的一种改进，根据梯度的历史信息来自适应地调整学习率。使用梯度的指数加权平均而不是累积和来计算学习率。
特点：适用于处理非稀疏数据和长期依赖的问题。

7. Adadelta

定义：对Adagrad的另一种改进，通过计算梯度平方的指数加权移动平均来避免学习率趋于0的问题，同时简化了计算。
特点：适用于需要长时间训练的大型神经网络和需要稳定学习率的任务。

8. Adam

定义：结合了AdaGrad和Momentum两种优化算法的优点，能够快速收敛并且减少训练时间。Adam优化器计算出每个参数的独立自适应学习率，不需要手动调整学习率的大小。
特点：适用于处理大规模数据和训练复杂模型。

模型评估（Evaluation）

深度学习广泛应用于图像识别、语音识别、自然语言处理等多个领域。模型通过大量数据的学习和训练，能够自动提取数据中的特征，并基于这些特征进行预测和分类。如何准确评估这些模型的性能，确保它们在实际应用中能够表现出色，就需要依赖于模型评估这一关键环节。

在模型评估中，我们通常会使用各种评估指标来衡量模型的性能。分类问题常用准确率、精确率、召回率和F1分数等指标；回归问题则使用均方误差、平均绝对误差等指标。此外，ROC曲线和AUC值也能直观展示模型性能。

Evaluation

模型评估

模型评估（Evaluation）是什么？模型评估是指对训练完成的模型进行性能分析和测试的过程，以确定模型在新数据上的表现如何。

在模型评估中，我们通常会将数据集划分为训练集、验证集和测试集。

训练集（Training Set）：用于模型学习的数据集，通过不断调整参数来最小化训练误差。
验证集（Validation Set）：在训练过程中用于评估模型性能，以选择最佳参数和避免过拟合的数据集。
测试集（Test Set）：模型训练完成后，用于评估模型泛化能力的独立数据集。

为什么需要模型评估？用于在训练阶段选择最佳参数、避免过拟合，并在训练完成后验证模型泛化能力。

训练过程中的评估：在模型训练阶段，我们需要使用验证集来评估模型的性能，以便选择最佳的参数和架构，同时避免模型过拟合训练数据。
训练完成后的评估：在模型训练完成后，我们使用测试集来评估模型的泛化能力，即模型在未见过的数据上的表现。

评估指标

模型评估指标（Evaluation Metric）是什么？模型评估指标是用于量化模型在处理数据时表现的指标。它们帮助我们理解模型的性能、准确度和泛化能力，并且可以用于比较不同模型之间的优劣。

分类任务的评估指标有哪些？分类任务的评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1 Score）等。

1. 准确率（Accuracy）

定义：准确率是最直观也最常被提及的评估指标之一，它衡量的是模型预测正确的样本数占总样本数的比例。
计算公式：准确率 = (真正例 + 真负例) / (真正例 + 假正例 + 真负例 + 假负例)

2. 精确率（Precision）

定义：精确率是指模型预测为正例中真正是正例的比例，它反映了模型预测为正例的结果的可信度。
计算公式：精确率 = 真正例 / (真正例 + 假正例)

3. 召回率（Recall）

定义：召回率，也称为灵敏度（Sensitivity）或真正例率（True Positive Rate），是指模型在所有实际为正类的样本中，被正确预测为正类的样本的比例。它反映了模型捕获正类样本的能力。
计算公式：召回率 = 真正例 / (真正例 + 假负例)

4. F1分数（F1 Score）

定义：F1分数是精确率和召回率的调和平均数，旨在综合两者的表现，提供一个平衡指标。
计算公式：F1分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)

ROC曲线和AUC值是什么？ROC曲线是展示模型在不同阈值下真正例率与假正例率关系的曲线，越靠近左上角性能越好。AUC值是ROC曲线下方的面积，量化模型性能，取值0.5到1，越接近1性能越好。

回归任务的评估指标有哪些？回归问题中评估指标包括均方误差（Mean Squared Error, MSE）和平均绝对误差（Mean Absolute Error, MAE）等。

除了MSE和MAE之外，还有其他一些回归问题的评估指标，如均方根误差（Root Mean Squared Error, RMSE）、R²（决定系数）等。

均方误差（MSE）：预测值与真实值之间差的平方的平均值。对异常值敏感，数值越小表示预测越准确。
平均绝对误差（MAE）：预测值与真实值之间差的绝对值的平均值。对异常值不敏感度，数值越小表示预测越准确。
均方根误差（RMSE）：是MSE的平方根，具有与原始数据相同的量纲，因此更容易解释和理解。
R²（决定系数）：描述了模型所解释的方差占总方差的比例，越接近1表示模型的拟合效果越好。

梯度消失和梯度爆炸

练过程和性能。梯度消失，梯度趋零难更新；梯度爆炸，梯度过大不稳定。为了解决这些问题，可以采取多种策略，包括选择合适的激活函数、采用合适的权重初始化方法、引入批量归一化、使用残差连接、实施梯度裁剪以及使用更稳健的优化器等。这些策略可以有效地提高模型的训练效率和性能，从而推动深度学习技术的进一步发展。

Vanishing Gradient & Exploding Gradient

梯度消失

什么是梯度消失（Vanishing Gradient）？梯度消失是指在深层神经网络的反向传播过程中，当网络通过链式法则计算梯度以更新权重时，梯度值随着层数的增加而迅速减小，最终趋近于零。这会导致靠近输入层的权重更新变得非常缓慢，甚至几乎不更新，从而阻止网络从输入数据中学习有效的特征表示。

梯度消失的原因是什么？梯度消失的主要原因包括激活函数的选择、链式法则的应用、权重初始化不当以及网络层数过多等。

激活函数的选择：在使用某些激活函数（如Sigmoid和Tanh）时，当输入值非常大或非常小的时候，这些函数的导数（或梯度）会趋近于零。
链式法则的应用：在深度神经网络中，梯度是通过链式法则从输出层逐层反向传播到输入层的。每一层的梯度都是前一层梯度与该层激活函数导数的乘积。如果每一层的梯度都稍微减小一点，那么经过多层传播后，梯度值就会变得非常小，几乎为零。
权重初始化不当：如果网络权重的初始值设置得太小，那么在前向传播过程中，输入信号可能会迅速衰减，导致激活函数的输入值非常小，进而使得梯度在反向传播过程中也迅速减小。
网络层数过多：随着网络层数的增加，梯度需要通过更多的层进行反向传播。每一层都可能对梯度进行一定的衰减，因此层数越多，梯度消失的风险就越大。

为了缓解梯度消失问题，可以采取多种策略，如使用ReLU或其变体作为激活函数、采用合适的权重初始化策略、引入批量归一化（Batch Normalization）以及使用残差连接（Residual Connections）等。

梯度爆炸

什么是梯度爆炸（Exploding Gradient）？梯度爆炸是指在反向传播过程中，梯度值随着层数的增加而迅速增大，最终变得非常大，超出了神经网络的正常处理范围，从而导致模型参数更新不稳定，甚至训练失败。

梯度爆炸的原因是什么？梯度爆炸的原因主要包括权重初始化过大、网络层数过多以及学习率设置过高等。

权重初始化过大：在神经网络中，如果权重的初始值设置得过大，那么在反向传播过程中，梯度值可能会因为权重的累积效应而迅速增大，导致梯度爆炸。
网络层数过多：在深层神经网络中，由于链式法则的应用，梯度需要通过多层进行反向传播。如果每一层的梯度都稍微增大一点，那么经过多层传播后，梯度值就会变得非常大，导致梯度爆炸。
学习率设置过高：学习率决定了模型参数更新的步长。如果学习率设置得过高，那么模型参数在更新时可能会因为步长过大而跳出最优解的范围，同时过高的学习率会使模型在更新参数时过于激进，从而加剧梯度的波动。

为了缓解梯度爆炸问题，可以采取多种策略，如使用梯度裁剪、合理初始化权重、调整学习率并选择稳定的优化算法来降低梯度爆炸的风险。

卷积和池化（Convolution And Pooling）

在深度学习中，CNN（卷积神经网络）最核心的两大操作就是卷积（Convolution）和池化（Pooling）。卷积用于特征提取，通过卷积核在输入数据上滑动计算加权和；池化用于特征降维，通过聚合统计池化窗口内的元素来减少数据空间大小。

Convolution And Pooling

卷积

什么是卷积（Convolution）？

卷积是一种数学运算，在CNN中，它通过滑动窗口（也称为卷积核或滤波器）在输入图像或特征图上滑动，并计算窗口内元素与对应卷积核元素的加权和（包括偏置项），从而生成输出特征图。

什么是卷积核（Convolution Kernel）？卷积核是一个数学函数或二维矩阵，用于在图像处理和计算机视觉中进行特征提取。它是一个可学习的权重矩阵，其大小通常远小于输入图像的大小，用于在输入图像上滑动并进行元素级的乘法累加操作。

什么是特征图（Feature Map）？特征图是卷积操作的结果，每个特征图都代表了输入图像在不同卷积核下的特征响应。

卷积有哪些重要参数？卷积的重要参数主要包括卷积核大小（Kernel Size）、步长（Stride）以及填充（Padding），它们共同决定了卷积层的输出特征图的尺寸和特性。

卷积核大小（Kernel Size）：决定了感受野的大小，即每次卷积操作能够覆盖的输入区域大小。
步长（Stride）：决定了卷积核在输入图像或特征图上滑动的距离。步长为1表示每次滑动一个像素，步长大于1则表示每次滑动多个像素。
填充（Padding）：在输入图像或特征图的边缘添加额外的零值，以控制输出特征图的尺寸。常见的填充方式有“valid”（无填充）和“same”（填充后输出尺寸与输入相同）。
通道数（Channels）：对于输入图像，通道数指的是颜色通道数（如RGB图像的通道数为3）。对于卷积层，输出特征图的通道数由卷积核的数量决定。

如何进行卷积计算？通过卷积核在输入数据上滑动，计算每个位置上的加权和（包括偏置项），并可能应用激活函数，以生成输出特征图。

选择卷积核：卷积核是一个可学习的参数矩阵，其大小（如3×3、5×5等）和数量（即输出特征图的通道数）是超参数。
滑动窗口：将卷积核在输入图像或特征图上按指定步长（stride）滑动，每次滑动都计算窗口内元素与卷积核的加权和。
计算加权和：对于每个滑动位置，将窗口内元素与卷积核对应位置的元素相乘后求和，并加上偏置项（如果有的话），得到输出特征图上对应位置的元素值。
添加激活函数：通常，卷积操作后会接一个激活函数（如ReLU），以增加网络的非线性特性。

池化

什么是池化（Pooling）？池化是卷积神经网络中的一种下采样操作。它通过对输入特征图进行局部区域的统计汇总（如取最大值、平均值等），得到一个尺寸较小的输出特征图。

池化操作会丢弃一部分特征信息，但保留了最重要的特征，从而实现了数据的压缩和特征的提取。池化操作通常紧随卷积层之后。

池化的常见类型有哪些？池化操作有多种方式，其中最常见的是最大值池化（Max Pooling）和平均池化（Average Pooling）。它们分别通过选取局部区域内的最大值和平均值来减少特征图的尺寸。

最大值池化（Max Pooling）：在定义的池化窗口内，选取所有元素中的最大值，并将该最大值作为池化结果输出到下一层特征图的对应位置。
平均池化（Average Pooling）：在定义的池化窗口（如2×2、3×3等）内，计算所有元素的平均值，并将该平均值作为池化结果输出到下一层特征图的对应位置。

池化有哪些重要参数？池化窗口大小和步长是决定池化层输出尺寸的关键参数，窗口大小定义了覆盖区域，步长决定了滑动距离。

池化窗口大小（Kernel Size）：定义了池化操作的窗口大小，通常是一个正方形（如2×2、3×3等）。窗口大小决定了池化操作在输入数据上滑动时覆盖的区域大小。
步长（Stride）：步长定义了池化窗口在输入数据上滑动的距离。如果步长与窗口大小相同，则池化操作不会重叠。如果步长小于窗口大小，则池化操作会重叠。

文章转自微信公众号@架构师带你玩转AI