Skip to main content

五分钟快速的设置一个Standalone的Spark集群

分类:  开源和Linux技术 标签:  #Spark #Windows Subsystem for Linux 发布于: 2023-08-13 17:46:25

最近遇到一个非常棘手的问题,PowrBI Service通过Dataflow连接标准的Spark集群总是有问题会报错,为了重现并解决这个问题,我需要自己配置一个Spark的集群,之前一直使用的是Azure HDInsight Spark集群, 完全不用配置,但是Azure HDInsight Spark和标准的Spark集群完全是两回事,到最后仍然需要自己搭建一个Spark集群,我之前还记得我是如何在自己的机器上创建了8个虚拟机,使用这个8个虚拟机来配置hadoop的集群,如果这次仍然要使用hardoop以及Resource Manager来管理Spark的话, 我觉得我头都会大一圈,要花太多的时间了。仔细重新看了一下Spark的文档,Spark也支持standalone的模式运行,然后比较

Read more

使用Azure Databricks通过JDBC读入大量数据异常处理(一)问题介绍

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-18 19:40:13

近期遇到一个非常典型的用户案例: 用户使用Azure Databricks通过JDBC数据源向Delta Table输入大量的数据,在运行了两个半小时之后报错,数据导入失败,并且报了两种异常: 异常1: 异常2 用户使用的的数据源是Azure Database for mysql, 需要导入的表数据行数330万行,数据大小在44个G左右。仔细检查了客户的notebook, 客户的语句其实非常简单:

Read more

Azure Databricks Job/notebook运行卡住三板斧 之二 查看ThreadDump

分类:  Azure Databricks 标签:  #Azure #Databricks #Spark 发布于: 2023-06-15 21:29:22

我们之前已经分享了如何快速的缓解Databricks job/notebook卡住的办法,如果要详细的分析job/notebook卡住的原因,那么还是得再来一板斧:查看long-running或者是stuck task的Threaddump, 如何缓解可以参考之前的文章: 如何通过Spark UI查看long-running task/stuck job的ThreadDump 要查看ThreadDump的步骤如下: 登录到Workspace, 左侧菜单选择Compute, 然后在cluster list里选择运行的cluster:

Read more