大模型应用开发,离不开知识库,知识库就是把公司或者个人私有的知识,建立一个库,通过大模型的解析和读取,能够把这些私有的知识加入到智能问答中或者流程设计的输出中。

点击创建知识库,我们可以看到有三种方式来建立知识库,第一种是导入已有的文本,支持 TXT、 MARKDOWN、 MDX、 PDF、 HTML、 XLSX、 XLS、 DOCX、 CSV、 MD、 HTM,不过每个文件不超过 15MB。

第二种是同步自Notion内容,来作为知识库使用。Notion 是提供的笔记、任务、维基和数据库的一体式工作空间。

第三种是同步自Web站点,可通过选择工具来支持,工具可选择Jina Reader和Firecrawl,Jina Reader是一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式。FireCrawl是一款开源的AI爬虫工具,专门用于Web数据提取,并将其转换为Markdown格式或其他结构化数据。

列如我们导入文本,可以对上传的文件做一些设置,通用里面是一些分段、预处理的设置,选择索引方式,嵌入模型的选择,检索设置等等。


点击保存并处理,可以看到大模型在嵌入处理中:

点击前往文档,可以看到处理过的文档,也可以继续添加文档:

召回测试的功能里面,可以根据给定的查询文本测试知识的召回:
