2.知识库
知识库管理是智能体应用建设中的关键能力。用户可以通过创建知识库,在线对知识库进行命名、管理知识库标签对知识内容进行分类,方便在智能体应用建设时进行检索引用。用户能够在知识库中在线上传本地文档,系统根据Embedding模型服务对文件内容进行Chunk分段,可在线查看解析进度和管理分段内容。也可使用Rerank模型服务队初步检索或推荐的基础上进行进一步的评估和排序,提高检索结果的相关性。
能够在线对知识库进行召回测试评估系统在所有相关项中找回的比例。知识库的创建来源支持本地上传、选择部门共享的知识库和使用其他部门共享的知识库。支持txt、word、pdf、Excel、markdown、html等多种格式。完成知识库创建与分段解析后,知识库即可在智能体应用中进行引用。
1.进入模块,选择【知识数据中心-知识库】菜单,进入知识库管理界面。
2.查看项目知识库。
进入页面后,选择“项目知识库”Tab,可以查看项目知识库列表。列表支持使用名称或标签进行知识库检索,也能够根据应用状态进行知识库检索。用户可以查看到知识库名称、知识库描述、知识库包函的文档数、知识库包函的字符数量、知识库关联应用个数等数据。
3.新建项目知识库。
点击“创建项目知识库”按钮,用户能够进入项目知识库的新建页面,在页面中,用户可以选择数据来源。
1)选择数据源
a)导入已有文本
选择数据源为“导入已有文本”时,用户能够上传本地的文件作为数据源。支持txt、markdown、pdf、html、xlsx、xls、docx、csv等文件类型,在大小不超过15MB的情况下可批量添加文件至页面,点击“下一步”后可进入文本分段与清洗的配置页面。
a)本单位知识库
选择数据源为“本单位知识库”时,点击“点击选择单位知识库”按钮,用户能够选择本单位管理员创建的未分段的文件知识库。在弹出的界面中,用户能够查看到本单位所有的知识库列表,支持通过知识库名称和标签进行检索,也可选择对应的应用状态对知识库进行筛选。,可以选择需要作为数据源的知识库。
选择完成后,点击“确定”按钮,在数据源选择界面即可看到被选择的知识库。用户可以点击“点击更换单位知识库”按钮重新选择作为数据源的单位知识库,一次项目知识库的创建只能选择一个单位知识库作为数据源。
b)已申请知识库
选择数据源为“已申请知识库”时,点击“点击选择已申请知识库”按钮,用户能够选择已向本单位授权的未分段的其他单位的文件知识库。
在弹出的界面中,用户能够查看到已向本单位授权的所有知识库列表,支持通过知识库名称和标签进行检索,也可选择对应的应用状态对知识库进行筛选。可以选择需要作为数据源的知识库。
选择完成后,点击“确定”按钮,在数据源选择界面即可看到被选择的知识库。
用户可以点击“点击更换已申请知识库”按钮重新选择作为数据源的已申请知识库,一
次项目知识库的创建只能选择一个已申请知识库作为数据源。
2)分段设置
a)分段模式设置
在设置页面中,用户可以选择自动分段或自定义分段。选择自动分段的情况下,系统能够自动设置分段规则,对文件内容进行分段。选择自定义分段的情况下,用户可根据需求自行设置分段标识符、分段最大长度、分段重叠长度、选择文本预处理规则(可选择是否替换掉连续的空格、换行符和制表符,是否删除所有的URL和电子邮箱地址)。
用户可以设置索引分段相关设置。支持开启QA分段模式,开启后分段后的内容可包函
提问与回答。
b)检索模式设置
用户能够选择索引模式,支持混合检索、向量检索、全文检索三种检索模式。混合检索可同时执行全文检索和向量检索,并应用重排序步骤,从两类查询结果中选择匹配用户问题的最佳结果;向量检索可通过生成查询嵌入并查询与其向量表示最相似的文本分段;全文检索能够索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段。
在向量检索和全文检索支持开启Rerank的可选项,开启后重排序模型将根据候选文档列表与用户问题语义匹配度进行重新排序,从而改进语义排序的结果。混合检索必须选择Rerank模型。
c)分段预览
在配置分段设置时,用户能够查看分段预览,实时的查看不同设置下的分段效果。
同时系统也能够自动计算分段后的预估字符数,供用户进行参考。
3)处理并完成
完成分段设置后,点击按钮“保存并处理”,进入文件解析步骤。
用户能够在完成页面查看文件解析的进度。文件解析动作由系统在后台完成,用户可以不需要停留在完成页,可以点击“前往知识库详情页”按钮进入知识库详情页查看文件列表和解析进度。
4.项目知识库内容管理。
在知识库详情页面,分为文档、召回测试、设置三个TAB页面。
1)文档管理
在“文档”TAB中,用户能够对知识库的文档进行在线管理。
a)添加文件
点击“添加文件”,进入知识库的文件添加页面,点击“选择文件”可继续选择本地文件向知识库中添加文件进行解析。
b)文件启用/禁用
在文件操作列点击开关按钮,可设置文件的启用或禁用状态。禁用后的文件不会在引用时进行检索。
c)文件分段设置
在文件操作列点击更多图标,点击“分段设置”按钮,能够对文件分段设置进行更改。 其中检索设置的变更需要在知识库维度进行设置,文件中无法单独修改。
d)文件归档/撤销归档
在文件操作列点击更多图标,点击“归档”按钮,能够将文件设置为归档状态。归档后的文件不会再被检索时发现,也不可继续修改。
能够点击“撤销归档”按钮将文件状态恢复为归档前的状态。
e)删除文件
点击操作列的“删除”按钮,可对文件进行删除操作。删除操作不可恢复。
2)召回测试
50
点击“召回测试”TAB,进入知识库的召回测试页面。用户能够在该页面填写源文本模拟用户提问,测试文档检索效果。可以查看历史的测试记录。
3)知识库设置
在“知识库设置”TAB页,用户能够设置知识库的知识库名称、知识库描述、Embedding模型、检索模式。
5.知识库标签管理。
点击设置图标按钮后,点击“标签”按钮,能够对选择的知识库进行标签选择。
在弹窗中点击“管理标签”按钮,能够在线对可用标签进行增删改操作。
6.删除知识库。
点击设置图标按钮后,点击“删除”按钮,即可对知识库进行删除操作,删除后,原先被RAG智能体关联的引用也将自动删除。
7.查看本单位知识库。
在知识库页面中选择“单位知识库”Tab,可以查看本单位的知识库列表。列表支持使用名称或标签进行知识库检索,也能够根据应用状态进行知识库检索。用户可以查看到知识库名称、知识库描述、知识库包函的文档数等数据。
8.新建单位知识库。
在“单位知识库”TAB中点击“创建知识库”按钮,进入知识库创建页面。选择共享方式、
重点领域,并点击上传本地文件,即可完成单位知识库的创建。单位知识库可被单位下所有项目使用,在创建项目知识库时可以选择本单位维护的知识库作为数据源。
单位知识库也能够在知识广场中共享,单位管理员能够在知识广场中浏览其他单位的知识库列表,完成申请流程后即可被申请单位下的项目使用。
9.单位知识库内容管理。
点击进入单位知识库详情,单位管理员能够在单位知识库详情页对知识库的文件内容进行在线维护。支持添加文件、删除文件操作。
10.单位知识库标签管理。
点击设置图标按钮后,点击“标签”按钮,能够对选择的知识库进行标签选择。
11.删除单位知识库。
点击设置图标按钮后,点击“删除”按钮,即可对知识库进行删除操作,删除后,通过单位知识库已经创建完成的项目知识库不受影响。