博博的客
一些学习记录、题解和偶尔冒出来的想法。
45
Posts
5
Categories
12
Tags
Search Notes
注意力可视化
发表于
分类于
深度学习
训练Tricks
发表于
分类于
深度学习
训练小技巧
解决训练稳定性
| 问题 | 核心问题 | 主要技巧 |
|---|---|---|
| 学习率为什么不能始终不变 | 每一步应该走多远? | Scheduler、Warmup |
| Batch 如何影响梯度 | 当前梯度到底有多可信? | Batch Size、梯度噪声 |
| 显存不足时如何模拟大 Batch | 放不下更多样本怎么办? | Gradient Accumulation |
| 如何防止单次更新失控 | 极端梯度会不会破坏模型? | Gradient Clipping |
| 网络在第一次更新前为何已经可能失败 | 参数起点为什么重要? | Initialization、激活函数、残差连接 |
| 深层网络中的特征尺度为何会漂移 | 中间表示如何保持稳定? | BatchNorm、LayerNorm、RMSNorm |
前面的就不讲了,也许从梯度下降到优化器会联想到。我详细讲讲最后的三个归一化
从代码到图
发表于
分类于
深度学习
从梯度下降到优化器
发表于
分类于
深度学习
细粒度图像分类挑战
发表于
分类于
深度学习
损失函数
发表于
分类于
深度学习
DDPM推导
发表于
分类于
计算机视觉
距离度量
发表于
分类于
深度学习
Joern的部署和使用
发表于
分类于
深度学习
