Skip to main content

让AI给宝宝讲个故事-使用Speech Studio进行有声内容创作

分类:  Azure认知服务 标签:  #Azure #人工智能 #语音服务 发布于: 2023-06-05 17:37:12

我们前面简要的介绍了如何使用speech studio这个工具进行自定义的语音识别和自定义语音合成的强大的功能,这个两个功能的过程都是必须先期准备数据,然后使用这些数据训练出符合要求的模型,然后使用这些模型结合SDK或者REST API进行业务处理,我们今天继续介绍另外一个强大的工具有声内容创作(Audio Content Creation)。 使用该工具你可以很方便的对语音合成进行可视化的调整,例如调整语气,语调,声音高低,情绪等等。可以广泛的用在有声读物,新闻广播,聊天机器人等等场景,除了可以使用微软提供的自定义的模型,你可以使用自己前面自己训练出来模型。同时微软也提供很多场景下的语音模型,可以直接使用,然后进行一定的微调。

另外需要注意的是我们这个工具是基于SSML标记语言的,所以你在使用该工具创建好需要的内容之后,你完全可以将该内容导出成SSML文件,从而应用在更多的场景下。

我们今天来使用该工具创建一个给孩子讲故事的实例,希望大家喜欢。

使用Speech Studio的有声创作给宝宝讲故事

准备故事书

首先我们需要准备一本故事书,我们这里就以《丢丢熊进城记》为蓝本吧。


然后将故事的书的内容形成文字,您可以手打,也可以使用图片识别技术将所有的文字识别出来,都随你。准备好了之后, 我们开始使用speech studio进行创作了

使用Speech studio创建新项目

在使用speech studio之前,你需要有Azure订阅,并且创建了标准定价层的Speech服务。然后通过地址:https://speech.microsoft.com(Azure Globa)或者Https://speech.azure.cn(Azure中国)登录到Speech Studio工具中,在Portal上选择有声内容创作, 如下图:


创建新故事

然后选择新建文件, 如下图:


新建文件之后的界面如下图:


将新建的文件保存为一个新的名字,我们这里是:丢丢熊进城记:


然后把我们准备好的文字,按照读故事的进度,将所有的文本都拆成句子,输入到文本框中,如下图:


选择讲故事的语音模型

准备好基本的数据之后,我们需要给给这个故事定义一些角色,首先故事里有丢丢熊,有布丁鼠,有大家,有讲故事的人,我们可以正对每一句语音使用不同的语音模型,从而给出不一样的风格,先选择语言:
注意是每一句每一句的设定,所以先选择第一句,然后在左侧选择为中文简体,默认会列出如下的可以选择的模型:


你可以点击左侧的语音模型的... 弹出更多的选择:


可以对这些模型一一浏览,选择自己喜欢的,因为我们这里是讲故事,因此我们选择”晓呦"


然后我们看一下左侧的可以调整的功能有哪些:



从这里大家可以看到不同的模型有不同的设置选项,例如如果选择了默默,你可以选择角色,以及语音,音素,语调,音高等等。
在这里你可以发挥您的想象,进行不同的设置,如下图是我简单设置的例子:



如下是测试效果:

Demo