(四)模型评测中心

1.模型评测

1.创建评测数据集

进入“知识数据中心-数据集”，点击“创建数据集”。数据类别选择“评测”，数据新增、导入的

主要步骤跟“步骤一”一致，最终发布后生效。

2.创建评测任务

进入“模型评测中心-模型评测”，点击“创建评测任务”。配置参评对象及评测数据

1）评测对象

基础模型：模型仓库中的模型，含我的模型、平台预置模型、部门申请模型

模型服务：已在“在线服务”部署完成的推理服务（待上线）

RAG应用：在“应用管理”中构建的智能体应用（待上线）

2）自定义推理参数（可选），调整评测对象的推理参数。

3.评测打分方式

人工评测：需要人工参与，逐条为每个评测问题的模型回答进行打分，分数范围1-5分。

裁判模型：裁判模型自动打分，根据实际评测场景选择模型配置参数，场景包括“回答确定性问题”、“回答开放性问题”、“角色扮演”、“代码生成修改分析”等12类，分数范围1-5分。

4.资源规格，根据需要选择运行评测任务所需的资源。

5.点击确认后，评测任务即开始运行。可通过“状态”观测任务运行状态，通过“运行日志”追踪更明细的运行信息。

6.运行完成后，“人工评测”类型的任务，可进入“标注”环节。“裁判模型”类型的任务，会直接生成评测报告。

7.对模型回答问题进行逐个评价，包括综合得分评价和答案问题的标签。

8.全部完成提交后，即可生成评测报告。后续可根据报告综合得分对比不同版本模型的整体效果。也可根据问题标签对模型表现进行针对性优化。

113sa

模型评测中心

results matching ""