跳转至

深度学习符号⚓︎

此笔记中使用的数学符号参考自《深度学习》和 Deep learning specialization

常用的定义⚓︎

  • 原版符号定义中,x(i)xi 存在混用的情况,请注意识别

数据标记与上下标⚓︎

  • 上标 (i) 代表第 i 个训练样本
  • 上标 [l] 代表第 l
  • m 数据集的样本数
  • 下标 x 输入数据
  • 下标 y 输出数据
  • nx 输入大小
  • ny 输出大小 (或者类别数)
  • nh[l]l 层的隐藏单元数
  • L 神经网络的层数
  • 在循环中
    • nx=nh[0]
    • ny=nh[L+1]

神经网络模型⚓︎

  • XRnx×m 代表输入的矩阵
  • x(i)Rnx 代表第 i 个样本的列向量
  • YRny×m 是标记矩阵
  • y(i)Rny 是第 i样本的输出标签
  • W[l]Rl×(l1) 代表第 [l] 层的权重矩阵
  • b[l]Rl 代表第 [l] 层的偏差矩阵
  • y^Rny 是预测输出向量
    • 也可以用 a[L] 表示

正向传播方程示例⚓︎

  • a=g[l](Wxx+(i)b1)=g[l](z1)
    • 其中, g[l] 代表第 l 层的激活函数
  • y^=softmax(Whh+b2)

通用激活公式⚓︎

  • aj[l]=g[l](zj[l])=g[l](kwjk[l]ak[l1]+bj[l])
    • j 当前层的维度
    • k 上一层的维度

损失函数⚓︎

  • J(x,W,b,y) 或者 J(y^,y)
  • 常见损失函数示例
    • JCE(y^,y)=i=0my(i)logy^(i)
    • J1(y^,y)=i=0m|y(i)y^(i)|

深度学习图示⚓︎

  • 节点:代表输入、激活或者输出
  • 边:代表权重或者误差

提供两种等效的示意图

详细的网络⚓︎

常用于神经网络的表示,为了更好的审美,我们省略了一些在边上的参数的细节(如wij[l]bi[l]等)。

简化网络⚓︎

两层神经网络的更简单的表示。

****