Skip to content

智能文档提取


接口描述

智能文档提取通过大模型,对图片或PDF文档提取字段信息,精准定位字段值,适用于合同、票据、订单等各类文档场景.通过智能文档提取接口将文档交给大模型识别得到执行任务编号,再通过智能文档提取结果查询获取提取结果信息,根据所需提取文档大小,大模型文档提取时间随之增加,建议1-5分钟后进行提取结果查询。

进行接口调用前,需要获取必要的token信息,可查看登录鉴权。 该接口为加密接口,可查看签名与加密方式配置加密秘钥,并对接口内容进行加密。

请求说明

HTTP 方法:

POST

请求 URL:

/ai-cloud-face/ocr/v2/document/extract

Header如下:

参数名称
Content-Typeapplication/json;charset=UTF-8

Body中放置请求参数,参数详情如下:

请求参数:

参数名称必填数据类型长度参数描述
fileBase64String1-30M待处理pdf文档/图片(base64 编码),原始大小需要小于 30M;
fileNameString1-64文件名
manifestList<String>1-99文件结构化信息(单个文本长度不能超过30)
pageExpressionString1-32页码,默认为1页,如果是PDF需要传入页码 支持数字 也支持1-15的页码范围,其正则为^(?:\\d+|\\d+-\\d+)$
extractSealBoolean1是否提取印章
eraseWatermarkBoolean1是否去除水印
docCorrectBoolean1是否文档矫正,会增加相应耗时
extractDistictBoolean1是否提取字段去重
busFlowIdString0-64业务流水号,业务系统唯一序列号(对账用,建议传入)

请求示例:

{
    "fileBase64":"/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAIBAQ......",
    "fileName":"1.jpg",
    "manifest":["姓名","证件号码"],
    "pageExpression":"1",
    "busFlowId":"yIyhBotVMwPvqIf8"
}

返回说明

返回参数:

返回值名称数据类型长度描述
codeint1-8返回结果,0表示成功
messageString1-255返回码描述
dataObject-返回的数据
-busFlowIdString1-64业务流水号,业务系统唯一序列号
-flowIdString1-64交易流水ID(建议保存)
-taskIdString1-32执行任务编号(执行任务编号一小时内有效,请尽快获取提取结果)

返回示例:

{
  "code": "00000000",
  "data": {
    "busFlowId": "yIyhBotVMwPvqIf8",
    "flowId": "1066769128221577216",
    "taskId": "task-xxxxxxxxxxxxxxxxx"
  },
  "message": "success",
  "success": true
}

错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共CODE码表

码值是否成功是否计费描述
00000000成功
50028105文件不能为空
50028106文件大小不能超过30M
50028108文件名不能为空
50028109文件名长度不能超过64位
50028296文档结构化信息不能为空
50028297文档结构化信息参数错误
50028298智能文本提取异常
50028299页码格式错误
50028300页码越界或格式错误
50028304文档结构化信息文本长度不能超过30位
80004124渠道配置错误
80004125渠道配置错误