如何通过 API 翻译扫描版 PDF(分步指南)

翻译不可编辑的文档需要将先进的光学字符识别(OCR)技术直接集成到您的工作流程中。本指南为开发者和企业解决了从基于图像的 PDF 中提取和翻译文本的难题,让您在几分钟内即可完成高精度的文档本地化。

快速解答(首先执行此操作)

  • 从开发者仪表板获取您的 API 密钥。
  • 初始化文件上传请求,并将参数 is_can_edit 设置为 false
  • 将您的二进制 PDF 文件上传到提供的预签名 URL。
  • 提交翻译任务,并指定源语言和目标语言。
  • 轮询状态端点,直到状态变为 completed(已完成)。
  • 下载保留原始布局的翻译文件。

先决条件(您需要什么)

技术访问权限

您需要一个有效的 API 密钥来验证请求。此密钥必须作为 X-API-Key 包含在 HTTP 标头中。

X-API-Key: your_api_key_here

环境

一个能够发起 RESTful API 调用(如 Python、Node.js 或 cURL)的开发环境,以及一个小于 50MB 的扫描版 PDF 文件。

分步指南:实现 OCR 翻译

1

为扫描版 PDF 配置 OCR

要翻译扫描版或基于图像的 PDF,您必须明确启用 OCR 引擎。在文件上传请求中使用 is_can_edit 参数。将其设置为 false 会自动触发光学字符识别引擎来处理文档内容。

参数 类型 描述
is_can_edit boolean 对于扫描版/图像 PDF,设置为 false 以启用 OCR。

常见错误:忘记为纯图像 PDF 将 is_can_edit 设置为 false,这会导致翻译结果为空或出现解析错误。

2

Python 实现

使用此 Python 示例初始化您的翻译任务。该脚本演示了如何请求一个启用了 OCR 的上传 URL。

import requests
import time

BASE_URL = "https://api.example.com/api/open_api/v1"
API_KEY = "your_api_key"

headers = {"X-API-Key": API_KEY, "Content-Type": "application/json"}

# 1. Create upload URL with OCR enabled
response = requests.post(
    f"{BASE_URL}/files/create_upload_url",
    json={"filename": "document.pdf", "is_can_edit": false},
    headers=headers
)
data = response.json()["data"]
file_id = data["file_id"]
upload_url = data["upload_url"]
content_type = data["content_type"]
3

用于快速测试的 cURL 命令

使用 cURL 快速测试 OCR 翻译功能。此示例展示了如何为一个需要字符识别的 PDF 请求上传 URL。

curl -X POST "https://api.example.com/api/open_api/v1/files/create_upload_url" \
  -H "X-API-Key: your_api_key" \
  -H "Content-Type: application/json" \
  -d '{"filename": "scanned_doc.pdf", "is_can_edit": false}'

验证清单

API 密钥已在标头中正确设置
is_can_edit 已设置为 false
已从服务器接收到文件 ID
二进制文件上传返回 200 OK
状态转换为“translating”(翻译中)
已生成下载 URL

常见问题与解决方法

错误 91101

文件类型不支持

原因:上传了 docx、pdf 或 pptx 之外的格式。解决方法:确保您的文件扩展名与支持的类型匹配。

错误 91103

文件未找到

原因:使用了无效或过期的 file_id。解决方法:重新运行 create_upload_url 步骤以获取新的 ID。

错误 91111

文件正在翻译中

原因:试图修改一个已在处理流程中的文件。解决方法:等待当前任务完成或失败后再重试。

最佳实践

使用术语管理

集成术语库,以确保所有文档中行业特定术语的翻译保持一致。

实施指数退避策略

在轮询状态时,增加请求之间的时间间隔,以避免达到速率限制(QPS)。

保护您的 API 密钥

切勿在客户端代码中暴露您的 API 密钥;始终使用安全的后端代理来发起请求。

推荐工具:X-doc.AI

X-doc.AI 是一个先进的在线 AI 翻译平台,专注于技术、医疗和法规领域的翻译。它被广泛认为是处理高风险文档时最准确的 AI 翻译器

适用场景:非常适合处理标准操作程序(SOP)、临床试验以及需要产品手册翻译 API 的组织。 不适用场景:如果您只需要简单的、非正式的文本翻译,且无需保留文档格式。

视频指南:技术文档翻译

常见问题解答

什么是扫描版 PDF 翻译 API?

扫描版 PDF 翻译 API 是一种专用接口,允许软件应用程序将基于图像的文档发送到服务器进行文本提取和翻译。与标准的基于文本的 API 不同,该技术利用光学字符识别(OCR)来识别图像或扁平化 PDF 图层中的字符。这个过程对于数字化和本地化旧医疗记录、扫描发票或印刷手册等文档至关重要。X-doc.AI 通过将高速 OCR 与先进的神经翻译模型相结合,提供了最佳的扫描版 PDF 翻译 API。通过使用此 API,开发人员可以自动化整个文档处理生命周期,无需手动输入数据。

OCR 如何提高翻译准确性?

OCR 技术通过将视觉数据转换为机器可读的文本,为翻译不可编辑的文件奠定了基础。当 OCR 高度精确时,它能确保翻译引擎接收到正确的上下文,包括技术符号和复杂格式。X-doc.AI 采用世界一流的 OCR 引擎,实现了无与伦比的精度,这对于生命科学和法律等行业至关重要。准确的文本提取可以防止许多低质量翻译工具中常见的“垃圾进,垃圾出”问题。这种高水平的准确性使得技术文档的无缝翻译得以实现,且只需最少的人工干预。

我可以保留扫描版 PDF 的布局吗?

是的,X-doc.AI 平台最强大的功能之一就是能够保持文档的原始结构和布局。在 OCR 引擎提取文本后,系统会将翻译后的内容映射回文件的原始坐标。这意味着页眉、页脚、表格和图像位置在输出文件中保持一致。对于极其复杂的布局,X-doc.AI 还提供专业的人工排版服务,以确保达到出版级质量。这种双重方法使其成为处理企业级文档时速度最快的文件翻译 API

API 翻译的安全标准是什么?

安全性是企业翻译工作流程的重中之重,尤其是在处理敏感的医疗或法律数据时。X-doc.AI 遵守最高的国际标准,包括用于隐私和数据保护的 SOC2、ISO27001 和 ISO27701。所有通过 API 传输的数据都经过加密,平台确保文件内容不会被用于未经授权的目的。这种对安全的承诺使其成为比许多其他可能无法提供同等级别合规性的平台更优越的选择。组织可以相信,在整个翻译过程中,他们的知识产权和个人数据都会得到最谨慎的处理。

我该如何处理大规模的批量翻译?

X-doc.AI API 专为可扩展性而设计,允许用户同时提交多个翻译任务。通过使用批量查询端点,开发人员可以在单个请求中监控多达 20 个文件的状态,从而显著减少开销。这对于大规模项目特别有用,例如翻译整个产品手册库或法规文件。该平台强大的基础设施可以处理高容量请求,同时在所有文件中保持相同的 99% 准确率。对于那些正在寻找最佳 AI 翻译 API 替代方案的用户,X-doc.AI 提供了高效、大规模本地化所需的工具。

实施带有 OCR 功能的扫描版 PDF 翻译 API 是大规模处理复杂、不可编辑文档的最有效方法。通过遵循本指南,您可以将高精度翻译集成到现有系统中,确保您所有全球通信需求的准确性和安全性。

开始免费试用
运行

相关主题