模型调参

2022-06-26
作者 limhao
1119 字

看的是李沐的视频

https://www.bilibili.com/video/BV1FM4y1c7yG

https://www.bilibili.com/video/BV1vQ4y1e7LF

前言

开始一个好的基线
改一个值重新训练模型
重复很多次去获得直觉

什么超参数很重要

模型对于超参数的敏感程度（Adam比SGD 调参要简单很多）

超参数的范围在哪里结果会好

做好笔记

需要认真的管理（训练日志和超参数）execl 或着 word tensorboardweight&bias
重现很难（硬件，库，代码，随机性）

自动调参

HPO 超参数优化更加泛化一点
NAS HPO的小一点版本专注于神经网络

HPO 哈哈哈

搜索空间

算法1 黑盒算法

遍历！找到最好的也是最傻的算法

算法2 多准确度（加速）

目前再用的算法

小数据集
缩小模型规模层通道数
快点停止

搜索策略（黑盒子）

第一个暴力穷举（贵）

第二个随机取（有效）写代码很简单

第三个贝叶斯（李沐说这个大研究方向咱不研究咱不用）

搜索策略（多准确度）深度学习较多

sh算法

节省花销对于多超参数
随机选取n个参数去训练m个epoch

算法过程

类似一种递归的思想在其中
选取n/2的超参数进行训练训练m次epoch
选取n/4的超参数训练训练2m次epoch

m n 的选取取决于你的预算花销

hyperband 用的较多

多跑几个sh算法

在每次跑完后

减小n 增大m

每次都是用不同的m 和 n

影响是对于 m n的选取没那么大的影响

Neural Architecture Search (NAS)神经结构搜索

这里只关心神经网络的参数

强化学习 nas

代价非常贵

模型优美

one-shot方法

学习模型架构外加超参数

因为这个东西看起来就很大

所以关注点在于

只关心架构之间的排名关系
用一个近似的指标：只训练很少的epoch 来验证

one-shot方法 – 可微架构搜索

多种候选层方法在每一层
在layer层中所有的候选层方法都会有个输出
对于这个输出添加一个大于0 且相加为1 的权重系数相乘
最后学习得到在候选层中权重最大的给保留下来

通过学习来判断最好的那一条路径

使用DARTS 这个方法可以在三个GPU天完成sota效果

简单实用 effientNet

调参不多 cnn优化

更多层
更多输出通道
输入图像更大

目前研究方向

可解释性
调整参数能使用在边缘设备都能跑
整个流程更加的自动化

limhao博客

模型调参

前言

做好笔记

自动调参

HPO 哈哈哈

算法1 黑盒算法

算法2 多准确度（加速）

搜索策略（黑盒子）

搜索策略（多准确度）深度学习较多

sh算法

hyperband 用的较多

Neural Architecture Search (NAS)神经结构搜索

强化学习 nas

one-shot方法

one-shot方法 – 可微架构搜索

简单实用 effientNet

目前研究方向

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

limhao博客

前言

做好笔记

自动调参

HPO 哈哈哈

算法1 黑盒算法

算法2 多准确度（加速）

搜索策略（黑盒子）

搜索策略 （多准确度）深度学习较多

sh算法

hyperband 用的较多

Neural Architecture Search (NAS)神经结构搜索

强化学习 nas

one-shot方法

one-shot方法 – 可微架构搜索

简单实用 effientNet

目前研究方向

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

搜索策略（多准确度）深度学习较多

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可