AzureDeveloper

五分钟快速的设置一个Standalone的Spark集群

分类: 开源和Linux技术 ◆ 标签: #Spark ◆ 发布于: 2025-02-15 21:44:47

最近遇到一个非常棘手的问题，PowrBI Service通过Dataflow连接标准的Spark集群总是有问题会报错，为了重现并解决这个问题，我需要自己配置一个Spark的集群，之前一直使用的是Azure HDInsight Spark集群, 完全不用配置，但是Azure HDInsight Spark和标准的Spark集群完全是两回事，到最后仍然需要自己搭建一个Spark集群，我之前还记得我是如何在自己的机器上创建了8个虚拟机，使用这个8个虚拟机来配置hadoop的集群，如果这次仍然要使用hardoop以及Resource Manager来管理Spark的话，我觉得我头都会大一圈，要花太多的时间了。仔细重新看了一下Spark的文档，Spark也支持standalone的模式运行，然后比较

使用Azure Databricks Struct Stream存取Azure HDInsight Kafka

分类: Azure Databricks ◆ 标签: #Databricks #Spark ◆ 发布于: 2025-02-15 18:34:02

如果想要使用Azure Databricks Struct Stream存取Azure HDInsight Kafka，需要满足一些必要的条件： Azure HDInsight不允许通过公网存取Kafka服务，客户端或者应用要存取这个服务，必须通过适当的途径连入Azure HDInsight的虚拟网络里。 Azure HDInsight Kafka服务默认情况下不能通过IP地址访问，需要更改它的配置，使得该服务可以通过IP地址进行访问。

五分钟快速的设置一个Standalone的Spark集群

分类: 开源和Linux技术 ◆ 标签: #Spark #Windows Subsystem for Linux ◆ 发布于: 2023-08-13 17:46:25

最近遇到一个非常棘手的问题，PowrBI Service通过Dataflow连接标准的Spark集群总是有问题会报错，为了重现并解决这个问题，我需要自己配置一个Spark的集群，之前一直使用的是Azure HDInsight Spark集群, 完全不用配置，但是Azure HDInsight Spark和标准的Spark集群完全是两回事，到最后仍然需要自己搭建一个Spark集群，我之前还记得我是如何在自己的机器上创建了8个虚拟机，使用这个8个虚拟机来配置hadoop的集群，如果这次仍然要使用hardoop以及Resource Manager来管理Spark的话，我觉得我头都会大一圈，要花太多的时间了。仔细重新看了一下Spark的文档，Spark也支持standalone的模式运行，然后比较

使用Azure Databricks通过JDBC读入大量数据异常处理(一)问题介绍

分类: Azure Databricks ◆ 标签: #Azure #Databricks #Spark ◆ 发布于: 2023-06-18 19:40:13

近期遇到一个非常典型的用户案例：用户使用Azure Databricks通过JDBC数据源向Delta Table输入大量的数据，在运行了两个半小时之后报错，数据导入失败，并且报了两种异常：异常1: 异常2 用户使用的的数据源是Azure Database for mysql, 需要导入的表数据行数330万行，数据大小在44个G左右。仔细检查了客户的notebook, 客户的语句其实非常简单：

Azure Databricks Job/notebook运行卡住三板斧之二查看ThreadDump

分类: Azure Databricks ◆ 标签: #Azure #Databricks #Spark ◆ 发布于: 2023-06-15 21:29:22

我们之前已经分享了如何快速的缓解Databricks job/notebook卡住的办法，如果要详细的分析job/notebook卡住的原因，那么还是得再来一板斧：查看long-running或者是stuck task的Threaddump, 如何缓解可以参考之前的文章：如何通过Spark UI查看long-running task/stuck job的ThreadDump 要查看ThreadDump的步骤如下：登录到Workspace, 左侧菜单选择Compute, 然后在cluster list里选择运行的cluster: