伯索开放平台
首页API文档SDK文档伯索官网
首页API文档SDK文档伯索官网
  1. SDK文档
  • 历史课堂数据回调接入
  • 签名示例
  • 历史课堂转视频接入方式
  • 历史课堂/微课下载接口
  • query参数说明
  • 文档解析接口
  • SDK预解析服务接入说明
  • Web SDK
    • PlasoStyleUpime API说明
    • 云盘接入
    • 直播SDK
      • 快速接入
    • 微课SDK
      • 快速接入
    • 批注SDK
      • 快速接入
  • Android SDK
    • 直播SDK
      • 快速接入
    • 微课SDK
      • 快速接入
    • 批注SDK
      • 快速接入
  • iOS SDK
    • 直播SDK
      • 快速接入
    • 微课SDK
      • 快速接入
    • 批注SDK
      • 快速接入
  • 播放器SDK
    • Web播放器
  • 「伯索云学堂」跳转接入指南
    • 跳转接入指南
  1. SDK文档

文档解析接口

文档解析服务 API文档#

本文档描述了文档解析服务的对外API接口,支持PPT、Word、Excel、PDF等格式的文档解析。

服务概述#

文档解析服务提供异步文档解析能力,支持多种文档格式转换为标准格式。服务采用异步处理模式,通过回调机制通知解析结果。

基础信息#

服务地址: https://www.plaso.cn/dataentry/document
Content-Type: application/json
字符编码: UTF-8
认证方式: AppId + SecretKey 签名示例

API接口#

1. 创建文档解析任务#

提交文档解析任务,系统会异步处理并在完成后通过回调通知结果。
接口地址: POST /parser
请求参数:
参数名类型必填说明
appIdstring是应用ID,用于标识调用方及其配置
sourcePathstring是源文件的存储路径(OSS路径格式:oss://bucket/file)
taskTypenumber是任务类型,详见任务类型说明
callbackUrlstring是任务处理完成后用于通知结果的回调URL
validBeginnumber是请求开始时间戳(秒)
validTimenumber是请求有效时长(秒),建议300秒
signaturestring是签名,用于请求验证
exportBoardboolean否是否生成用于导出板书的文件,需要导出课堂板书的话,需要传true
任务类型 (taskType):
类型值说明
EXTERNAL_PPT4PPT文档
EXTERNAL_DOC5Word/Excel文档
EXTERNAL_PDF8PDF文档
导出课堂板书需要在伯索云配置回调接口(getFileAddr),用于获取解析后文件信息。
请求示例:
{
  "appId": "your-app-id",
  "sourcePath": "oss://your-bucket/path/to/document.pptx",
  "taskType": 4,
  "callbackUrl": "https://your-callback-url.com/api/callback/document",
  "validBegin": 1703123456,
  "validTime": 300,
  "signature": "A1B2C3D4E5F6G7H8I9J0K1L2M3N4O5P6Q7R8S9T0"
}
解析后文件保存路径:
解析完成后,文件将保存在源文件路径后附加 _i 的目录中,即 ${sourcePath}_i/。
回调信息中的 targetPath 字段会返回此目录路径 (OSS Key)。
例如,如果 sourcePath 是 oss://bucket/docs/file.pptx,则 targetPath 将是 docs/file.pptx_i/。
具体的解析后文件(如图片)需要将此 targetPath 与文件名(如 1.jpg)拼接后获取。
成功响应:
{
  "code": 0,
  "msg": "success",
  "obj": {
    "taskId": "654e1c9a7b8d9e001a2b3c4d"
  }
}
错误响应:
{
  "code": 1001,
  "msg": "源文件路径不存在"
}
cURL示例:

回调机制#

解析结果回调#

文档解析完成后,服务会调用您提供的回调URL通知解析结果。
回调地址: 您在创建任务时提供的 callbackUrl
调用方: 文档解析服务
请求参数:
参数名类型必填说明
taskIdstring是任务ID
taskStatusnumber是任务状态,详见状态值说明
targetPathstring是解析后保存的路径
convertPagesnumber否WORD,PDF解析成功时返回,表示成功转换的页数
状态值说明:
状态值状态名称说明
100DONE解析成功
101FAILED解析失败

回调重试机制#

服务会按照以下策略重试回调:
重试策略:
首次回调失败后,等待5秒重试
最多重试3次
重试间隔递增:5秒、10秒、20秒
3次重试后仍失败,任务标记为回调失败
重试条件:
HTTP状态码 >= 500
网络超时
连接失败

错误码说明#

错误码错误类型说明
0SUCCESS成功
4INPUT_DATA_ERROR输入数据错误(例如,sourcePath 未提供)
7INADEQUATE_PRIVILEGE权限不足(例如,机构未开通服务或OSS配置不存在)
270000NOT_SUPPORT不支持的文件解析
270001TASK_HAS_FULL任务队列已满

接入参考Demo#

https://github.com/PlasoOpenPlatform/DocParseDemo
以下流程图和说明描述了如何完整地集成和使用文档解析服务,并展示了本Demo中的后端实现逻辑。
修改于 2025-10-29 02:13:00
上一页
query参数说明
下一页
SDK预解析服务接入说明
Built with