(四)模型评测中心

1.模型评测

1.创建评测数据集

进入“知识数据中心-数据集”,点击“创建数据集”。数据类别选择“评测”,数据新增、导入的

主要步骤跟“步骤一”一致,最终发布后生效。

2.创建评测任务

进入“模型评测中心-模型评测”,点击“创建评测任务”。配置参评对象及评测数据

1)评测对象

基础模型:模型仓库中的模型,含我的模型、平台预置模型、部门申请模型

模型服务:已在“在线服务”部署完成的推理服务(待上线)

RAG应用:在“应用管理”中构建的智能体应用(待上线)

2)自定义推理参数(可选),调整评测对象的推理参数。

3.评测打分方式

人工评测:需要人工参与,逐条为每个评测问题的模型回答进行打分,分数范围1-5分。

裁判模型:裁判模型自动打分,根据实际评测场景选择模型配置参数,场景包括“回答确定性问题”、“回答开放性问题”、“角色扮演”、“代码生成修改分析”等12类,分数范围1-5分。

4.资源规格,根据需要选择运行评测任务所需的资源。

5.点击确认后,评测任务即开始运行。可通过“状态”观测任务运行状态,通过“运行日志”追踪更明细的运行信息。

6.运行完成后,“人工评测”类型的任务,可进入“标注”环节。“裁判模型”类型的任务,会直接生成评测报告。

7.对模型回答问题进行逐个评价,包括综合得分评价和答案问题的标签。

8.全部完成提交后,即可生成评测报告。后续可根据报告综合得分对比不同版本模型的整体效果。也可根据问题标签对模型表现进行针对性优化。

113sa

results matching ""

    No results matching ""