Skip to main content

Azure Translator的文档翻译服务介绍

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 21:05:30

我们前面学习了Azure Translator的文本翻译的部分,我们现在来学习文档翻译。

文档翻译顾名思义是对用户的各种格式的文档进行翻译,您可以一次性提交多个文档,然后由服务在后台帮助您异步翻译完成,并尽可能保留原有文档的格式。

和文本翻译不同的是,文档翻译有一些不一样的地方:

  • 文档翻译只能通过创建单一的服务,也就是说必须是创建一个Azure Translator的服务,而不是创建一个Azure认知服务的实例。
  • 文档翻译除了需要一个Azure Translator的实例之后,还需要创建一个Azure Stroage的资源,并且在Azure Storage里创建两个容器,一个用于上传需要翻译的文档,另外一个放置翻译之后的文档。
  • 文档翻译有提供.NetPython的 SDK和rest api
  • 文档翻译的Endpoint和文本翻译的Endpoint是不一样的。

关于文档翻译的EndPoint, 你可以参考图片:


请查看5处就是文档的endpoint。

文档翻译主要的特性

文档翻译的主要特性如下列表所示:

  • 可以通过异步的方式翻译大文件,注意单个文件不能超过40M。
  • 可以同时翻译多个文件,一次提交的翻译不能超过1000个文件。
  • 翻译之后的文件尽可能的保留源文件的架构和格式。
  • 可以使用自定义的词汇表。
  • 如果不指定源语言,会自动检测语言。
  • 使用自动检测语言的功能,可以将包含多种语言的文档翻译成目标语言。

文档翻译的一些限制

在使用文档翻译的时候还是需要注意有如下的限制:

  • 单个文件的大小不能超过40M
  • 一次提交翻译不能超过1000个文件
  • 批量提交的文件总大小不能超过250M
  • 批量提交的文件翻译目标语言不能超过10种。

文档翻译支持的格式

目前支持如下的格式:

  • PDF
  • CSV
  • HTML
  • XLF, XLIFF
  • markdown
  • mhtml, mht
  • xls, xlsx
  • outlook message files. msg
  • ppt, pptx
  • doc, docx
  • odt
  • odp
  • ods
  • rtf
  • tsv/tab
  • txt