PyTorch保存模型断点以及加载断点继续训练

2023-04-27 14:52 由 BooTurbo 发表于 #其他

在训练神经网络时，用到的数据量可能很大，训练周期较长，如果半途中断了训练，下次从头训练就会很费时间，这时我们就想断点续训。

一、神经网络模型的保存，基本两种方式：
1. 保存完整模型model， torch.save(model, save_path)

2. 只保存模型的参数， torch.save(model.state_dict(), save_path) ，多卡训练的话，在保存参数时，使用 model.module.state_dict( ) 。

二、保存模型训练的断点checkpoint

断点dictionary中一般保存训练的网络的权重参数、优化器的状态、学习率变化scheduler 的状态以及epoch 。

checkpoint = {'parameter': model.module.state_dict(),
              'optimizer': optimizer.state_dict(),
              'scheduler': scheduler.state_dict(),
              'epoch': epoch}
torch.save(checkpoint, './models/checkpoint/ckpt_{}.pth'.format(epoch+1))

三、加载断点继续训练

if resume:                                                                            # True
load_ckpt = torch.load(ckpt_dir, map_location=device)                                 # 从断点路径加载断点，指定加载到CPU内存或GPU
load_weights_dict = {k: v for k, v in load_ckpt['parameter'].items()
                                      if model.state_dict()[k].numel() == v.numel()}  # 简单验证
model.load_state_dict(load_weights_dict, strict=False) 

# 如果是多卡训练，加载weights后要设置DDP模式，然后先定义一下optimizer和scheduler，之后再加载断点中保存的optimizer和scheduler以及设置epoch，
optimizer.load_state_dict(load_ckpt['optimizer'])                                     # 加载优化器状态
scheduler.load_state_dict(load_ckpt['scheduler'])                                     # 加载scheduler状态

start_epoch = load_ckpt['epoch']+1                                                    # 设定继续训练的epoch起点
iter_epochs = range(start_epoch, args.epochs)                                         # arg.epochs指出训练的总epoch数，包括断点前的训练次数

Enjoy it!

热门相关：无量真仙学霸女神超给力横行霸道重生之至尊千金最强装逼打脸系统

基于Linux系统的PXE搭建方法

本文分享自天翼云开发者社区《基于Linux系统的PXE搭建方法》，作者:t***n 一、底层环境准备 1、安装RedHat7.6系统 2、关闭防火墙和Selinux systemctl stop firewalld chkconfig firewalld off vim /etc/sysconfig ...阅读全文

创新实力强劲！天翼云荣获中国专利奖

4月17日，国家知识产权局公示第二十四届中国专利奖评选结果，天翼云专利“缓存方法、装置以及计算机存储介质”（专利号：ZL 201710689714.1）荣获中国专利奖优秀奖。中国专利奖由国家知识产权局和世界知识产权组织（WIPO）共同主办，是我国知识产权领域的最-高-级-别荣誉，得到联合国世界知识 ...阅读全文

华为云联合多家单位正式开源云原生多沙箱容器运行时Kuasar

摘要：云原生多沙箱容器运行时Kuasar正式开源。本文分享自华为云社区《重磅发布！华为云联合多家单位正式开源云原生多沙箱容器运行时Kuasar》，作者：云容器大未来。当地时间4月21日上午，在荷兰阿姆斯特丹举办的KubeCon + CloudNativeCon Europe 2023云原生峰会上 ...阅读全文

CutMix&Mixup详解与代码实战

摘要：本文将通过实践案例带大家掌握CutMix&Mixup。本文分享自华为云社区《CutMix&Mixup详解与代码实战》，作者：李长安。引言最近在回顾之前学到的知识，看到了数据增强部分，对于CutMix以及Mixup这两种数据增强方式发现理解不是很到位，所以这里写了一个项目再去好好看这两种数 ...阅读全文

从零开始基于Archlinux 安装 containerd + k8s

下载ISO文件：https://mirrors.tuna.tsinghua.edu.cn/archlinux/iso/latest/ k8s: v1.26.4；calico: 3.25.1 1. 准备工作以虚拟机VMWare为例。使用EFI 非默认BIOS启动。如果不使用EFI，那么后续安装引导 ...阅读全文

【Docker】镜像制作和管理

一、Docker镜像说明二、基于容器通过 docker commit 手动制作镜像 1、基于容器手动制作镜像步骤 1、下载官方系统镜像 2、基于官方基础镜像启动容器，并进入容器 3、在容器中进行配置操作 3.1、安装基础工具 3.2、配置运行环境 3.3、安装并配置服务 3.4、存放业务程序代码 ...阅读全文

吾日三省吾身|最近反思-2023-04-27

做项目得出对自我的认知最近接了一个后台管理的项目，由于自己身处自由状态，且很多课很多事情没有完成，也不知这个项目会不会给自己增加物质上的回馈，本身可能由于处女座吧，又不能直接放手，前几天很是纠结，觉得自己应该做其他更重要的事。昨天想放弃了，但是又不能直接撒手不管，那要是直接放弃了，万一这件事对人家 ...阅读全文

解决macOSwifi已连接但上不了网的问题问题发生条件

问题发生条件刚刚更新macOS 13.3.1（非强相关）连接的是校园网（可能有关系）突然发生的，无任何预兆问题现象 wifi图标为灰色，且感叹号 wifi详情显示：- 已连接 -无网络连接 - 无ip地址上不了网，但是连接手机热点没问题解决过程解决方法1（无用）忘记wifi，重新连接 ...阅读全文

【饮食与健康】【AIGC创作】表观生理年龄逆转指北

一、引言我们都知道，岁月不饶人，但是谁又不想在岁月的长河中留下青春的容颜呢？在这个人人都追求健康和美丽的时代，我们的生活节奏却愈发紧张，高压的工作和不规律的作息让我们的身体时刻处于亚健康状态。这时候，你是不是开始想：“要是有一个方法能让我变年轻，那该有多好啊！”好消息是，科学家们已经找到了一个办法 ...阅读全文

[ML&DL] 正规方程

正规方程正规方程用于一次性求解 $\theta$ 的最优值。在计算的时候，将数据集构造为一个矩阵（第一列为 $x_0$ 均等于$1$）: 通过公式： $$ \theta = (X^TX)^{-1}X^Ty $$ 计算得到最优解 $\theta$。关于$X$的设计对于第 $i$ 组数据： $$ ...阅读全文