(二)模型训练中心
1.模型训练
1.创建训练任务,进入模型训练中心-模型训练,选择“创建训练任务”
任务类型选择模型微调
2.配置训练任务,包括训练对象、训练方法、训练数据集等
1)模型类型:
我的模型:在“模型管理”手动上传的模型,或者通过模型训练任务训练好的模型;
平台预置模型:平台预先上传的公共模型,包含通义千问系列的7B、14B、32B
72B大语言模型;
部门申请模型:在“模型广场”申请的其他部门公开模型,经对应部门管理员审批后可使
用;
2)训练方法:
全参数微调:全参微调会在模型训练中更新模型的全量参数,一般效果较好,但模型训练时间较长。
LoRA(推荐):LoRA训练属于高效训练的一种,会在固定模型本身参数的基础上,仅对自
注意力权重矩阵进行低秩分解,并更新低秩矩阵参数。该训练方法训练时间短,但效果可能会略差于全参微调。
QLoRA:QLoRA训练属于高效训练的一种,会在固定并量化模型本身参数的基础上,仅对自注意力权重矩阵进行低秩分解,并更新低秩矩阵参数。该训练方法训练时间短,但效果可能会略差于全参微调和LoRA。
3.配置训练任务的资源
资源组:1)“智能中枢(公共)”是平台提供了公共的训练池,可直接使用。平台会记录和统计训练任务所消耗的卡时。2)其他的资源组均为部门管理员配置提供,具体可跟部门管理员咨询。
节点数:运行训练任务的工作节点。一个节点通常对应一台EGS主机。
节点规格:根据实际训练对象,选择适配的规格;
说明:推荐尽量将训练任务放在同一个节点运行,不同节点之间会有较大的数据传输通讯开销,整体训练速度可能反而不如单节点运行的快。
4.超参数配置,根据实际情况调整
5.完成训练
点击“确认”后即可自动开始运行训练任务。进入训练任务详情页,可查看对应任务的“运行日志”,以跟踪观测任务运行细节。直至任务状态变成“运行完成”。
6.保存模型
从训练完成的任务中,将模型保存到模型仓库。点击对应版本训练任务的“保存模型”。
勾选“model-out”合并保存模型层和Lora训练层(推荐),也可根据实际需要仅保存Lora训练层(进阶需求,不推荐)
选择归属模型后,将为对应模型生成一个新的版本。也可以点击“新建模型”创建一个全新的模型。
2.模型管理
通过【模型训练中心-模型管理】进入模块。
平台预置了通义2.5系列0.5B、7B、14B、32B、72B模型,可直接使用。也支持自定义上传三方模型
3.镜像管理
通过【模型训练中心-镜像管理】进入模块。
可从镜像仓库中拉去镜像,用于在线开发、模型训练、服务部署等场景。注意镜像名称和版本号,需跟镜像地址中的内容一致。
公共镜像仓库可直接填入仓库地址使用。私有镜像仓库需联系项目空间管理员添加。
4.模型开发
通过【模型训练中心-模型开发】进入模块。模型开发有两个子功能:“在线开发”和“算法管理”
“在线开发”提供了NoteBook,方便在线开发调试代码。点击“创建Notebook”。
资源组:“智能中枢(公共)是平台提供的公共资源组,其他资源组均为当前租户(单位)管理员添加”
开发镜像:参考截图选择,已经内置了海光驱动;
数据集:挂载“知识数据中心”的数据集,挂载路径在/dataset
“类型”、“节点规格”:根据实际需要选择,平台会记录统计GPU资源使用情况。
点击确定后,会拉起一个NoteBook容器,可以在里面开发调试自己的代码,也可以定制自已的运行环境。
说明:
1.环境定制完成后,需要点击“保存镜像”方可保留。否则,当前notebook重启后,会重新拉起新的容器,所有定制内容均会还原。
2.代码是默认保存在/workspace,该目录为挂载目录,容器重启后会重新挂载(不会被还原),但需注意的是,“保存镜像”时,该目录不会被打入镜像。
5.在线服务
通过【模型训练中心-在线服务】进入模块
单击“创建在线服务”填写对应参数信息。
注意:该组织及项目空间下需要有足够资源,否则无法拉起在线服务。
服务创建完成后,可在列表界面进行查看。列表包含服务运行状态、调用失败次数/总次数等信息,方便用户直接查看服务状态。
对应服务右侧可对服务信息一键编辑,同时支持一键启停。
点击正在运行的服务可以查看该服务的起他详细信息。
详情信息中,可通过调用API的形式进行在线测试。
平台支持查看当前服务占用资源的监控信息。
用户可以不登陆服务所在资源,直接查看运行日志,并支持多种时间维度的日志查询。
通过管理部署版本信息,方便用户追踪服务信息。