分类:
开源和Linux技术
◆
标签:
#Spark
#Windows Subsystem for Linux
◆
发布于: 2023-08-13 17:46:25
最近遇到一个非常棘手的问题,PowrBI Service通过Dataflow连接标准的Spark集群总是有问题会报错,为了重现并解决这个问题,我需要自己配置一个Spark的集群,之前一直使用的是Azure HDInsight Spark集群, 完全不用配置,但是Azure HDInsight Spark和标准的Spark集群完全是两回事,到最后仍然需要自己搭建一个Spark集群,我之前还记得我是如何在自己的机器上创建了8个虚拟机,使用这个8个虚拟机来配置hadoop的集群,如果这次仍然要使用hardoop以及Resource Manager来管理Spark的话, 我觉得我头都会大一圈,要花太多的时间了。仔细重新看了一下Spark的文档,Spark也支持standalone的模式运行,然后比较
Read more
分类:
Azure Databricks
◆
标签:
#Azure
#Databricks
#Spark
◆
发布于: 2023-06-18 19:40:13
近期遇到一个非常典型的用户案例: 用户使用Azure Databricks通过JDBC数据源向Delta Table输入大量的数据,在运行了两个半小时之后报错,数据导入失败,并且报了两种异常:
异常1: 异常2
用户使用的的数据源是Azure Database for mysql, 需要导入的表数据行数330万行,数据大小在44个G左右。仔细检查了客户的notebook, 客户的语句其实非常简单:
Read more
分类:
Azure Databricks
◆
标签:
#Azure
#Databricks
#Spark
◆
发布于: 2023-06-15 21:29:22
我们之前已经分享了如何快速的缓解Databricks job/notebook卡住的办法,如果要详细的分析job/notebook卡住的原因,那么还是得再来一板斧:查看long-running或者是stuck task的Threaddump, 如何缓解可以参考之前的文章:
如何通过Spark UI查看long-running task/stuck job的ThreadDump
要查看ThreadDump的步骤如下:
登录到Workspace, 左侧菜单选择Compute, 然后在cluster list里选择运行的cluster:
Read more