Skip to main content

使用Azure Databricks通过JDBC读入大量数据异常处理(一)问题介绍

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-18 19:40:13

近期遇到一个非常典型的用户案例: 用户使用Azure Databricks通过JDBC数据源向Delta Table输入大量的数据,在运行了两个半小时之后报错,数据导入失败,并且报了两种异常: 异常1: 异常2 用户使用的的数据源是Azure Database for mysql, 需要导入的表数据行数330万行,数据大小在44个G左右。仔细检查了客户的notebook, 客户的语句其实非常简单:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之三 自动抓取Dump

分类:  Azure Databricks 标签:  #Azure #Databricks 发布于: 2023-06-15 21:34:01

我们之前讨论过了如何快速的缓解Job/Notebook卡住的问题,也分享给大家了如何通过Spark UI来查看thread dump, 我们今天分享给大家我们的第三板斧:通过配置让Cluster自动抓取ThreadDump, 关于之前的文章,请参考链接: 配置集群自动抓取ThreadDump 请使用如下的步骤来配置集群当有长时间运行或者卡住的Job/notebook自动抓取Thread Dump: 登录到workspace, 选择你的cluster:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之二 查看ThreadDump

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-15 21:29:22

我们之前已经分享了如何快速的缓解Databricks job/notebook卡住的办法,如果要详细的分析job/notebook卡住的原因,那么还是得再来一板斧:查看long-running或者是stuck task的Threaddump, 如何缓解可以参考之前的文章: 如何通过Spark UI查看long-running task/stuck job的ThreadDump 要查看ThreadDump的步骤如下: 登录到Workspace, 左侧菜单选择Compute, 然后在cluster list里选择运行的cluster:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之一 重启大法好

分类:  Azure Databricks 标签:  #Azure #Databricks 发布于: 2023-06-15 21:22:46

最近遇到不少用户运行的job/notebook卡住的情况,特地将解决该类型问题的三板斧记录下来。 板斧一 如果用户有在集群上安装额外的library, 特别是在Azure China通过官方的源安装Python包,Jar包(通过Maven), 有较大机率遇到类似的问题,是由于国内机房某些时候访问这些境外的源会遇到无法访问或者下载速度缓慢的原因,这个问题非常容易重现,重现步骤如下: 创建一个集群,并启动。 进入workspace -> Compute, 选择已经启动并创建的集群,然后在Library栏中选择Install New 选择Pypi, 输入一个包名,Repository选择一个不能访问的地址,因为我们这里是为了重现问题。 点击install 整个步骤如下图所示:

Read more