Skip to main content

使用Azure Databricks通过JDBC读入大量数据异常处理(一)问题介绍

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-18 19:40:13

近期遇到一个非常典型的用户案例: 用户使用Azure Databricks通过JDBC数据源向Delta Table输入大量的数据,在运行了两个半小时之后报错,数据导入失败,并且报了两种异常: 异常1: 异常2 用户使用的的数据源是Azure Database for mysql, 需要导入的表数据行数330万行,数据大小在44个G左右。仔细检查了客户的notebook, 客户的语句其实非常简单:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之三 自动抓取Dump

分类:  Azure Databricks 标签:  #Azure #Databricks 发布于: 2023-06-15 21:34:01

我们之前讨论过了如何快速的缓解Job/Notebook卡住的问题,也分享给大家了如何通过Spark UI来查看thread dump, 我们今天分享给大家我们的第三板斧:通过配置让Cluster自动抓取ThreadDump, 关于之前的文章,请参考链接: 配置集群自动抓取ThreadDump 请使用如下的步骤来配置集群当有长时间运行或者卡住的Job/notebook自动抓取Thread Dump: 登录到workspace, 选择你的cluster:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之二 查看ThreadDump

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-15 21:29:22

我们之前已经分享了如何快速的缓解Databricks job/notebook卡住的办法,如果要详细的分析job/notebook卡住的原因,那么还是得再来一板斧:查看long-running或者是stuck task的Threaddump, 如何缓解可以参考之前的文章: 如何通过Spark UI查看long-running task/stuck job的ThreadDump 要查看ThreadDump的步骤如下: 登录到Workspace, 左侧菜单选择Compute, 然后在cluster list里选择运行的cluster:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之一 重启大法好

分类:  Azure Databricks 标签:  #Azure #Databricks 发布于: 2023-06-15 21:22:46

最近遇到不少用户运行的job/notebook卡住的情况,特地将解决该类型问题的三板斧记录下来。 板斧一 如果用户有在集群上安装额外的library, 特别是在Azure China通过官方的源安装Python包,Jar包(通过Maven), 有较大机率遇到类似的问题,是由于国内机房某些时候访问这些境外的源会遇到无法访问或者下载速度缓慢的原因,这个问题非常容易重现,重现步骤如下: 创建一个集群,并启动。 进入workspace -> Compute, 选择已经启动并创建的集群,然后在Library栏中选择Install New 选择Pypi, 输入一个包名,Repository选择一个不能访问的地址,因为我们这里是为了重现问题。 点击install 整个步骤如下图所示:

Read more

使用Postman练习使用Azure Translator的文档翻译

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 21:09:48

在正式使用文档翻译rest api之前有几个地方需要注意: 文档翻译的API是必须创建一个单独的Translator服务,而不能和Azure认知服务共用。 文档翻译的功能只在定价层S1(pay-as-you-go)和Azure Global的D3 Variable cost plus Fixed plus overage定价层支持。 文档翻译API有自己单独的请求Endpoint,既不是文本翻译的endPoint也不是认知服务的endpoint 文档翻译除了要创建Translator资源之外,还需要一个Azure Storage的资源,并在该存储账号中创建两个blob,一个用于存储需要翻译的文档,另外一个用于输出翻译之后的文档。

Read more

Azure Translator的文档翻译服务介绍

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 21:05:30

我们前面学习了Azure Translator的文本翻译的部分,我们现在来学习文档翻译。 文档翻译顾名思义是对用户的各种格式的文档进行翻译,您可以一次性提交多个文档,然后由服务在后台帮助您异步翻译完成,并尽可能保留原有文档的格式。 和文本翻译不同的是,文档翻译有一些不一样的地方: 文档翻译只能通过创建单一的服务,也就是说必须是创建一个Azure Translator的服务,而不是创建一个Azure认知服务的实例。 文档翻译除了需要一个Azure Translator的实例之后,还需要创建一个Azure Stroage的资源,并且在Azure Storage里创建两个容器,一个用于上传需要翻译的文档,另外一个放置翻译之后的文档。 文档翻译有提供.Net和Python的 S

Read more

使用Postman测试Azure Translator的词典功能

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 21:03:17

我们前面已经学习了Azure Translator的文本翻译,音译,断句,语言选择等等功能,我们本章来学习词典功能。 词典功能主要提供两个功能: 查词:单词或者短语查询,英译汉,汉译英等等。 词语例句:查词并显示该词的使用例句。 理解为词典功能就很容易理解了。 我们先来快速的使用postman观察一波,至于怎么设置postman, 请参考一下之前的文章。 请求接口: /dictionary/lookup?api-version=3.0&from=en&to=zh-hans 这是标准的英译汉了。

Read more

使用postman调用Azure Translator接口处理音译和获取长度

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 21:01:27

在开始这一节的学习之前,请按照前一节设置postman和了解基本的rest api的使用方法。 音译 在开始音译之前,请查看一下音译的语言支持情况,您可以参考文档:https://docs.microsoft.com/en-us/azure/cognitive-services/translator/language-support#transliteration, 检查该文档会发现类似下图的表示:

Read more

使用Postman调用Azure Translator接口对文本进行翻译

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 20:58:56

我们前面的文章已经简单的介绍了Azure Translator服务, 服务主要包括三个主要的特性: 文本翻译 文档翻译 自定义模型翻译 文本翻译主要是以rest api来向用户提供功能,同时需要注意的是,由于Azure Translator也属于Azure Cognitive Service认知服务API的一部分,因此您也可以创建一个Azure认知服务来使用文本翻译服务,区别在于rest api请求的url会不一样, 这个两个url代表的服务是一样的,如果您不仅仅需要使用翻译服务,还需要使用其他的服务,你可以创建一个认知服务实例,如果你愿意一个一个服务的创建也没有问题,看你自己的喜好。我们所有的例子创建一个单一的服务。

Read more

创建并认识Azure Translator翻译服务

分类:  Azure翻译服务 标签:  #Azure #翻译 #Translator 发布于: 2023-06-15 20:55:38

为了快速的学习Azure Translator翻译服务,我们本节来创建一个翻译服务,并使用Postman来快速的测试一下效果。 如果您还没有一个Azure账户,您可以创建一个免费的Azure账户,参考教程:https://www.azuredeveloper.cn/article/how-to-get-free-azure-account。 创建Azure Translator 使用Azure账户登录到Azure Portal: https://portal.azure.com 或者: https://portal.azure.cn, 登录之后,选择Create a resource, 在搜索框输入translator:

Read more