Skip to main content

Azure Speech TTS性能调优的最佳实践

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:42:19

针对于Azure Speech text-to-speech性能调优,我们首先要理解官方推荐的性能指标,从官方的文档上可以看到,衡量TTS的性能指标主要有: First Byte Latency: 该时间表示Synthesis任务开始到接收到音频文件的第一个设定的块之间花费的时间,在.Net SDK中使用对象SpeechSynthesisResult的属性SpeechServiceResponse_SynthesisFirstByteLatencyMs 来表示。 Finish Latency: 该时间表示Synthesis任务开始到整个语音合成的数据结束所花的时间。在.Net SDK中使用对象SpeechSynthesisResult的属性SpeechServiceResponse_

Read more

语音服务troubleshooting

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:39:47

前面我们简要的介绍了语音服务的功能以及如何使用SDK进行语音服务的开发,同时为了提供精度以及为了自定义语音合成我们也介绍了如何使用speech studio工具训练自己的模型。本节我们简要的介绍一下如何在开会过程中进行troubleshooting。 注意所使用的服务定价层限制 需要注意到当你在使用Azure服务的时候,不同的定价层,是有不同的限制的,对于语音服务,目前仅仅只有两种定价层,一般情况这两种符合大部分的业务场景,但是也经常会遇到超限的情况存在,对于超限,需要注意的错误代码是429, 也即如果在通过rest api或者是SDK进行服务调用的时候遇到了错误代码429,那么一定是超限了,关于超限的详细说明,请参考Azure的官方文档说明:

Read more

让AI给宝宝讲个故事-使用Speech Studio进行有声内容创作

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:37:12

我们前面简要的介绍了如何使用speech studio这个工具进行自定义的语音识别和自定义语音合成的强大的功能,这个两个功能的过程都是必须先期准备数据,然后使用这些数据训练出符合要求的模型,然后使用这些模型结合SDK或者REST API进行业务处理,我们今天继续介绍另外一个强大的工具有声内容创作(Audio Content Creation)。 使用该工具你可以很方便的对语音合成进行可视化的调整,例如调整语气,语调,声音高低,情绪等等。可以广泛的用在有声读物,新闻广播,聊天机器人等等场景,除了可以使用微软提供的自定义的模型,你可以使用自己前面自己训练出来模型。同时微软也提供很多场景下的语音模型,可以直接使用,然后进行一定的微调。 另外需要注意的是我们这个工具是基于SSML标记语言的,所

Read more

自定义语音合成(Custom Voice)介绍

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:26:41

我们前面一章介绍了什么Custom Speech和Azure提供的工具Speech Studio, 我们先回顾一下:实际上Azure通过提供工具Speech studio来帮助大家定制化自己的语音识别、语音合成、以及另外一个非常强大的工具有声内容生成器, 同时我们需要理解自定义语音识别或者自定义语音合成的基本步骤都是: 准备用于训练的基础数据 用Speech studio提供的工具使用你准备好的数据进行新模型的训练 模型训练结束后,准备用于测试的数据,对于训练好的模型进行精度测试。 测试符合要求之后,使用自定义模型提供的endpoint,结合SDK或者rest api整合到您的应用中去。 我们在前一章已经向大家描述了speech studio这个工具的基本使用方法和界面介绍,这

Read more

自定义语音识别(Custom Speech)指南

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:23:31

前面的文章我们学习了如何通过SDK进行语音识别(Speech-to-text), 默认情况下我们使用的是由微软训练出来的基础模型或者是基于基础模型上升级并发布的模型,对于大多数的场景,这些由微软提供的模型可以工作得不错,但是有时候可能需要让这些模型更加适合某些特殊得行业或者适合某些特殊的环境,例如你所处的行业有很多专有的专业名词等等,或者你发现在使用微软提供的模型发现语音识别的精度没有达到要求,那么您可以通过微软提供的工具Speech Studio来训练适合自己的模型,测试和评估该模型之后,如果达到了精度要求,那么久可以通过Speech Studio这个工具进行部署, 自己的系统直接使用自定义的模型,从而达到业务精度的需要。 本节我们分成如下几个部分来介绍: 自定义语音识别的一般

Read more

语音翻译服务

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 16:58:20

大家知道有一个职业叫翻译, 特别是同时翻译非常吃香也非常厉害,但是如果人工智能能够更快速的发展的话,那么同时翻译这个职业就会很快的消失了,我们今天来介绍一下我们Azure语音服务的另外一个功能就是语音翻译,字面意思就是可以实时的,多设备的将一种语言的语音及时转移成另外一种语音的语音,例如输入时英文语音但是输出时中文语音,而且时实时的,这就是机器的同声翻译。 本节Demo代码可以从这里下载: Demo Code 创建语音翻译项目 我们先创建一个基于控制台的项目,同时向项目添加引用包: dotnet new console -n SpeechTranslation cd SpeechTranslation dotnet add package Microsoft.Cogn

Read more

语音合成(text-to-speech)指南

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 #文本转语音 发布于: 2023-06-05 16:55:04

我们在前一章学习了如何通过.Net 5 SDK来使用Azure语音识别的服务,本节我们来学习Azure语音合同。 本章的源代码可以从这里下载 Demo Code 创建语音合成项目 运行如下的命令创建语音合成的项目: dontnet new console -n TextToSpeech cd TextToSpeech dotnet add package Microsoft.CognitiveServices.Speech 项目创建成功过之后,使用编辑器或者IDE打开该项目,打开文件Program.cs, 在文件的顶部假如如下的包依赖: using System; using System.IO; using System.Text; using Syste

Read more

语音转文本(Speech-to-Text)指南

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 #语音转文本 发布于: 2023-06-05 16:43:53

我们上一章简单的介绍了Azure语音服务,介绍了语音服务提供了几样工具: Azure Speech CLI, Azure Speech SDK(多种开发语言支持), 语音设备SDK, 以及Speech Stuido, Rest API, 同时Azure语音服务也提供了几种场景,我们本机以一个实例来描述Azure语音服务中的语音转文本的开发的基本要点。本节的源代码可以从下述的位置找到: Demo Code 使用.Net SDK 快速入门语音转文本 我们前面讨论过了,Azure语音服务提供Azure Speech Cli以及各种语言工具的SDK, 我们需要注意到各种工具的具体应用场景,如果是需要更多的定制,客户自身也有足够的coding 能力,那么选择SDK是合适的选择, 下面我们使用.

Read more

使用Azure Speech Cli体验语音服务

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 #语音转文本 #文本转语音 发布于: 2023-06-05 15:16:45

Azure语音服务(Azure Speech Service)目前归类于Azure认知服务(Azure Cognitive Service), 是基于Azure AI技术面向普通公众开发的一项Azure服务。由于Azure的开发日新月异,基于到本文,目前Azure的语音服务主要向用户提供Azure 语音CLI、Azure语音服务SDK、语音设备SDK, 以及rest api方便大家对于基于语音的应用场景进行具体的业务开发。下述列表简单的介绍了Azure Speech 服务提供的主要功能: 服务 功能 说明 语音转文本(Speech-to-text) 主要包括: 实时语音转文本 批量语音转文本 多设备对话 听录 自定义模型 可以结合LUIS进行编程 文本转语音(text-

Read more