您现在的位置是:首页 > 编程 > 

接入开源项目 Marker 让 FastGPT 读 PDF 能力暴增10倍

2025-07-27 23:42:07
接入开源项目 Marker 让 FastGPT 读 PDF 能力暴增10倍 PDF 是一种结构复杂的文件格式。FastGPT 内置的 PDF 解析器使用 pdfjs 库进行解析,这种基于逻辑的解析方式在处理简单文本时表现良好,但在遇到图片、表格、公式等复杂内容时,往往无法达到理想的解析效果。为了更好地处理这些复杂内容,我们可以选择其他解析方案。例如 Marker[1] 项目,它采用 Surya 模

接入开源项目 Marker 让 FastGPT 读 PDF 能力暴增10倍

PDF 是一种结构复杂的文件格式。FastGPT 内置的 PDF 解析器使用 pdfjs 库进行解析,这种基于逻辑的解析方式在处理简单文本时表现良好,但在遇到图片、表格、公式等复杂内容时,往往无法达到理想的解析效果。

为了更好地处理这些复杂内容,我们可以选择其他解析方案。例如 Marker[1] 项目,它采用 Surya 模型进行基于视觉的解析,能够有效提取 PDF 中的图片、表格、公式等复杂内容。为了让用户能够方便地在 FastGPT 中使用 Marker,我们开发了一个自定义解析的扩展 Demo。

从 FastGPT 4.8.15 版本开始,你可以通过配置环境变量来替换系统默认的解析器,实现自定义的文档解析服务。需要注意的是,该功能目前处于 Demo 阶段,后续的配置方式和交互规则可能会有所调整。

使用教程

安装 Marker

为了使用 Marker 进行 PDF 解析,我们首先需要安装 Marker 模型。你可以参考 Marker 安装教程[2] 进行完整安装。我们已经将 API 封装并适配了 FastGPT 的自定义解析服务,使其能够无缝集成。

下面介绍一个最简单的安装方法 - 使用 Docker 快速部署:

代码语言:javascript代码运行次数:0运行复制
docker pull crpi-hsnc261q1dosroc-hangzhou.aliyuncs/marker11/marker_images:latest
docker run --gpus all -itd -p 721:721 --name model_pdf_v1 crpi-hsnc261q1dosroc-hangzhou.aliyuncs/marker11/marker_images:latest

配置 FastGPT 环境变量

要启用自定义解析服务,需要在 FastGPT 中配置以下环境变量:

代码语言:javascript代码运行次数:0运行复制
CUSTOM_READ_FILE_URL=
CUSTOM_READ_FILE_EXTESIO=pdf
  • • CUSTOM_READ_FILE_URL - 自定义解析服务的访问地址,需要将 host 修改为你部署的解析服务地址,path 路径保持不变
  • • CUSTOM_READ_FILE_EXTESIO - 指定支持解析的文件类型后缀,多个文件类型之间用逗号分隔

验证解析效果

完成配置后,你可以通过以下步骤验证解析效果:

1. 在知识库中上传一个 PDF 文件并确认上传

2. 查看系统日志(需要将 LOG_LEVEL 设置为 info 或 debug 级别)

代码语言:javascript代码运行次数:0运行复制
[Info] 2024-12-05 15:04:42 Parsing files from an external    service 
[Info] 2024-12-05 15:07:08 Custom file parsing is    complete, time: 116ms 

. 你会发现通过 Marker 解析的 PDF 文件中包含了完整的图片链接,这表明解析成功

效果展示

为了直观展示 Marker 的解析能力,我们以清华大学发表的论文 ChatDev: Communicative Agents for Software Development[] 为例进行测试。下面是解析结果的对比展示:

通过对比可以发现,Marker 不仅能够准确提取文本内容,还能很好地识别和保留文档中的图片、公式和表格等复杂元素,解析效果相当出。

需要特别说明的是,Marker[4] 采用 GPL-.0 开源协议,在使用时请务必遵守相关协议规定。

引用链接

[1] Marker: [2] Marker 安装教程: [] ChatDev: Communicative Agents for Software Development: .07924 [4] Marker:

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-12-2,如有侵权请联系 cloudcommunity@tencent 删除服务配置开源markerpdf

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1225358.html

相关标签:无
上传时间: 2025-07-25 23:40:22
留言与评论(共有 6 条评论)
本站网友 333bbb
24分钟前 发表
原始发表:2024-12-2
本站网友 黄陂租房信息
26分钟前 发表
我们已经将 API 封装并适配了 FastGPT 的自定义解析服务
本站网友 新会区二手房
14分钟前 发表
我们以清华大学发表的论文 ChatDev
本站网友 北京丽都广场
3分钟前 发表
721 --name model_pdf_v1 crpi-hsnc261q1dosroc-hangzhou.aliyuncs/marker11/marker_images
本站网友 樱井翔
17分钟前 发表
下面是解析结果的对比展示:通过对比可以发现