深度学习1

误差的计算

image-20220508143937646 image-20220508144009857

softmax

​ 为了使输出满足概率分布,经过 softmax 处理后所有输出节点概率和为 1

  • 表达式

    image-20220508144609216

交叉熵损失

image-20220508144522866
  • 二者的区别:

    使用 softmax 输出,输出值的概率和为 1,一个输入 x 要么是属于 A 类要么是属于 B 类要么是属于 C 类;

    使用 sigmoid 输出,输入 x 可能即属于 A 类也属于 B 类,或者既不属于 A 类也不属于 B 类,

image-20220508161542431

误差的反向传播

image-20220508161744904

利用链式求导法则,将 Loss 对 W11的偏导数逐步展开求解

image-20220508162311850

权重的更新

image-20220508162402391
  • 新权重 = 旧权重-学习率*梯度(Loss 对 W11的偏导数)
image-20220508162605550

SGD 优化器

  • Wt+1 = Wt - α·g(Wt)
  • 缺点:1、易受样本噪声影响 2、可能陷入局部最优解

SGD + Momentum 优化器

  • Vt = η·Vt-1 + α·g(Wt)

    Wt+1 = Wt - Vt

    η 为动量系数,一般为 0.9

Adagrad 优化器(自适应学习率)

image-20220508163725611 image-20220508163742343
  • 学习率下降太块可能还没收敛就停止训练

RMSProp 优化器(自适应学习率)

image-20220508163931113 image-20220508164023731

Adam 优化器(自适应学习率)

image-20220508164105834 image-20220508164120999

笔记根据B站UP主霹雳吧啦Wz视频合集【深度学习-图像分类篇章】学习整理