(二)模型训练中心

1.模型训练

1.创建训练任务，进入模型训练中心-模型训练，选择“创建训练任务”

任务类型选择模型微调

2.配置训练任务，包括训练对象、训练方法、训练数据集等

1）模型类型：

我的模型：在“模型管理”手动上传的模型，或者通过模型训练任务训练好的模型；

平台预置模型：平台预先上传的公共模型，包含通义千问系列的7B、14B、32B

72B大语言模型；

部门申请模型：在“模型广场”申请的其他部门公开模型，经对应部门管理员审批后可使

用；

2）训练方法：

全参数微调：全参微调会在模型训练中更新模型的全量参数，一般效果较好，但模型训练时间较长。

LoRA（推荐）：LoRA训练属于高效训练的一种，会在固定模型本身参数的基础上，仅对自

注意力权重矩阵进行低秩分解，并更新低秩矩阵参数。该训练方法训练时间短，但效果可能会略差于全参微调。

QLoRA：QLoRA训练属于高效训练的一种，会在固定并量化模型本身参数的基础上，仅对自注意力权重矩阵进行低秩分解，并更新低秩矩阵参数。该训练方法训练时间短，但效果可能会略差于全参微调和LoRA。

3.配置训练任务的资源

资源组：1）“智能中枢（公共）”是平台提供了公共的训练池，可直接使用。平台会记录和统计训练任务所消耗的卡时。2）其他的资源组均为部门管理员配置提供，具体可跟部门管理员咨询。

节点数：运行训练任务的工作节点。一个节点通常对应一台EGS主机。

节点规格：根据实际训练对象，选择适配的规格；

说明：推荐尽量将训练任务放在同一个节点运行，不同节点之间会有较大的数据传输通讯开销，整体训练速度可能反而不如单节点运行的快。

4.超参数配置，根据实际情况调整

5.完成训练

点击“确认”后即可自动开始运行训练任务。进入训练任务详情页，可查看对应任务的“运行日志”，以跟踪观测任务运行细节。直至任务状态变成“运行完成”。

6.保存模型

从训练完成的任务中，将模型保存到模型仓库。点击对应版本训练任务的“保存模型”。

勾选“model-out”合并保存模型层和Lora训练层（推荐），也可根据实际需要仅保存Lora训练层（进阶需求，不推荐）

选择归属模型后，将为对应模型生成一个新的版本。也可以点击“新建模型”创建一个全新的模型。

2.模型管理

通过【模型训练中心-模型管理】进入模块。

平台预置了通义2.5系列0.5B、7B、14B、32B、72B模型，可直接使用。也支持自定义上传三方模型

3.镜像管理

通过【模型训练中心-镜像管理】进入模块。

可从镜像仓库中拉去镜像，用于在线开发、模型训练、服务部署等场景。注意镜像名称和版本号，需跟镜像地址中的内容一致。

公共镜像仓库可直接填入仓库地址使用。私有镜像仓库需联系项目空间管理员添加。

4.模型开发

通过【模型训练中心-模型开发】进入模块。模型开发有两个子功能：“在线开发”和“算法管理”

“在线开发”提供了NoteBook，方便在线开发调试代码。点击“创建Notebook”。

资源组：“智能中枢（公共）是平台提供的公共资源组，其他资源组均为当前租户（单位）管理员添加”

开发镜像：参考截图选择，已经内置了海光驱动；

数据集：挂载“知识数据中心”的数据集，挂载路径在/dataset

“类型”、“节点规格”：根据实际需要选择，平台会记录统计GPU资源使用情况。

点击确定后，会拉起一个NoteBook容器，可以在里面开发调试自己的代码，也可以定制自已的运行环境。

说明：

1.环境定制完成后，需要点击“保存镜像”方可保留。否则，当前notebook重启后，会重新拉起新的容器，所有定制内容均会还原。

2.代码是默认保存在/workspace，该目录为挂载目录，容器重启后会重新挂载（不会被还原），但需注意的是，“保存镜像”时，该目录不会被打入镜像。

5.在线服务

通过【模型训练中心-在线服务】进入模块

单击“创建在线服务”填写对应参数信息。

注意：该组织及项目空间下需要有足够资源，否则无法拉起在线服务。

服务创建完成后，可在列表界面进行查看。列表包含服务运行状态、调用失败次数/总次数等信息，方便用户直接查看服务状态。

对应服务右侧可对服务信息一键编辑，同时支持一键启停。

点击正在运行的服务可以查看该服务的起他详细信息。

详情信息中，可通过调用API的形式进行在线测试。

平台支持查看当前服务占用资源的监控信息。

用户可以不登陆服务所在资源，直接查看运行日志，并支持多种时间维度的日志查询。

通过管理部署版本信息，方便用户追踪服务信息。

模型训练中心

results matching ""

No results matching ""