(二)模型训练中心

1.模型训练

1.创建训练任务,进入模型训练中心-模型训练,选择“创建训练任务”

任务类型选择模型微调

2.配置训练任务,包括训练对象、训练方法、训练数据集等

1)模型类型:

我的模型:在“模型管理”手动上传的模型,或者通过模型训练任务训练好的模型;

平台预置模型:平台预先上传的公共模型,包含通义千问系列的7B、14B、32B

72B大语言模型;

部门申请模型:在“模型广场”申请的其他部门公开模型,经对应部门管理员审批后可使

用;

2)训练方法:

全参数微调:全参微调会在模型训练中更新模型的全量参数,一般效果较好,但模型训练时间较长。

LoRA(推荐):LoRA训练属于高效训练的一种,会在固定模型本身参数的基础上,仅对自

注意力权重矩阵进行低秩分解,并更新低秩矩阵参数。该训练方法训练时间短,但效果可能会略差于全参微调。

QLoRA:QLoRA训练属于高效训练的一种,会在固定并量化模型本身参数的基础上,仅对自注意力权重矩阵进行低秩分解,并更新低秩矩阵参数。该训练方法训练时间短,但效果可能会略差于全参微调和LoRA。

3.配置训练任务的资源

资源组:1)“智能中枢(公共)”是平台提供了公共的训练池,可直接使用。平台会记录和统计训练任务所消耗的卡时。2)其他的资源组均为部门管理员配置提供,具体可跟部门管理员咨询。

节点数:运行训练任务的工作节点。一个节点通常对应一台EGS主机。

节点规格:根据实际训练对象,选择适配的规格;

说明:推荐尽量将训练任务放在同一个节点运行,不同节点之间会有较大的数据传输通讯开销,整体训练速度可能反而不如单节点运行的快。

4.超参数配置,根据实际情况调整

5.完成训练

点击“确认”后即可自动开始运行训练任务。进入训练任务详情页,可查看对应任务的“运行日志”,以跟踪观测任务运行细节。直至任务状态变成“运行完成”。

6.保存模型

从训练完成的任务中,将模型保存到模型仓库。点击对应版本训练任务的“保存模型”。

勾选“model-out”合并保存模型层和Lora训练层(推荐),也可根据实际需要仅保存Lora训练层(进阶需求,不推荐)

选择归属模型后,将为对应模型生成一个新的版本。也可以点击“新建模型”创建一个全新的模型。

2.模型管理

通过【模型训练中心-模型管理】进入模块。

平台预置了通义2.5系列0.5B、7B、14B、32B、72B模型,可直接使用。也支持自定义上传三方模型

3.镜像管理

通过【模型训练中心-镜像管理】进入模块。

可从镜像仓库中拉去镜像,用于在线开发、模型训练、服务部署等场景。注意镜像名称和版本号,需跟镜像地址中的内容一致。

公共镜像仓库可直接填入仓库地址使用。私有镜像仓库需联系项目空间管理员添加。

4.模型开发

通过【模型训练中心-模型开发】进入模块。模型开发有两个子功能:“在线开发”和“算法管理”

“在线开发”提供了NoteBook,方便在线开发调试代码。点击“创建Notebook”。

资源组:“智能中枢(公共)是平台提供的公共资源组,其他资源组均为当前租户(单位)管理员添加”

开发镜像:参考截图选择,已经内置了海光驱动;

数据集:挂载“知识数据中心”的数据集,挂载路径在/dataset

“类型”、“节点规格”:根据实际需要选择,平台会记录统计GPU资源使用情况。

点击确定后,会拉起一个NoteBook容器,可以在里面开发调试自己的代码,也可以定制自已的运行环境。

说明:

1.环境定制完成后,需要点击“保存镜像”方可保留。否则,当前notebook重启后,会重新拉起新的容器,所有定制内容均会还原。

2.代码是默认保存在/workspace,该目录为挂载目录,容器重启后会重新挂载(不会被还原),但需注意的是,“保存镜像”时,该目录不会被打入镜像。

5.在线服务

通过【模型训练中心-在线服务】进入模块

单击“创建在线服务”填写对应参数信息。

注意:该组织及项目空间下需要有足够资源,否则无法拉起在线服务。

服务创建完成后,可在列表界面进行查看。列表包含服务运行状态、调用失败次数/总次数等信息,方便用户直接查看服务状态。

对应服务右侧可对服务信息一键编辑,同时支持一键启停。

点击正在运行的服务可以查看该服务的起他详细信息。

详情信息中,可通过调用API的形式进行在线测试。

平台支持查看当前服务占用资源的监控信息。

用户可以不登陆服务所在资源,直接查看运行日志,并支持多种时间维度的日志查询。

通过管理部署版本信息,方便用户追踪服务信息。

results matching ""

    No results matching ""