AzureDeveloper

诡异的Databricks Delta Lake Table History

分类: Azure Databricks ◆ 标签: #Databricks #大数据 ◆ 发布于: 2025-02-16 20:00:33

如果大家对于什么是Databricks Delta Lake Table History还不是太清楚，那么你一定要参考Databricks的官方文档: https://docs.databricks.com/en/delta/history.html, 这篇官方文档里详细的描述了什么是Delta Lake的Table History，以及主要支持的场景: Time Travel Query。

使用Azure Databricks Struct Stream存取Azure HDInsight Kafka

分类: Azure Databricks ◆ 标签: #Databricks #Spark ◆ 发布于: 2025-02-15 18:34:02

如果想要使用Azure Databricks Struct Stream存取Azure HDInsight Kafka，需要满足一些必要的条件： Azure HDInsight不允许通过公网存取Kafka服务，客户端或者应用要存取这个服务，必须通过适当的途径连入Azure HDInsight的虚拟网络里。 Azure HDInsight Kafka服务默认情况下不能通过IP地址访问，需要更改它的配置，使得该服务可以通过IP地址进行访问。

Azure Databricks上创建View不返回结果

分类: Azure Databricks ◆ 标签: #Databricks ◆ 发布于: 2024-01-16 15:54:13

在Azure Databricks上创建视图，然后查询该视图时候发现没有返回任何结果

Azure Databricks入门 - 认识一下Databricks的数据对象

分类: Azure Databricks ◆ 标签: #基础 #Azure #大数据 #入门 ◆ 发布于: 2023-08-07 20:46:28

Unity Catalog: 是下一代由databricks开发的元数据管理服务，目前还是在public preview，还不能用于正式生产，而且Azure China也不支持。这个服务将数据对象分为三个级别：catalog.database.table。 hive metastore: 目前应用成熟的元数据服务，直接使用了Hive的服务。在Databricks中，每个集群的节点上都会安装一个Hive metastore的客户端，这些客户端都会链接到Control panel的Hive Meta store服务上，在Azure Databricks中，后端默认是Azure Database for MySQL。

Azure Databricks入门 - 认识一下DBFS

分类: Azure Databricks ◆ 标签: #Azure #基础 #入门 ◆ 发布于: 2023-07-27 9:54:28

Databricks File System简称DBFS, 在Databricks的部署中，它是一个分布式文件系统，是基于云的文件系统，为Spark计算引擎提供统一文件存取接口，这主要体现在如下几个方面： DBFS是跟随Worksapce的，一个Workspace共享一个根DBFS文件系统。每个在Workspace里启动的集群都会自动挂载DBFS到根目录/dbfs 通过DBFS文件系统mount进入到workspace的其他对象存储都严格的限制在DBFS的mnt下无论什么云对象存储系统通过DBFS的mount过来之后，都是可以直接简单的使用文件操作命令进行操作，例如Azure Storage Data Lake或者AWS S3等等。另外需要注意的是DBFS有几个特殊的根目

Azure Databricks入门 - 创建一个worksapce并安装Databricks CLi

分类: Azure Databricks ◆ 标签: #Azure #基础 #入门 ◆ 发布于: 2023-07-27 9:48:18

我们前面的文章简单的介绍了什么Azure Databricks, 在开始其他的内容学习之前，我们要先创建一个Azure Databricks的workspace，并安装好databricks cli。请先准备好一个Azure账号，如果你还没有Azure账号，那么请按照这个链接申请一个免费的Azure账号：创建Azure Databricks 使用你的Azure账户登录到Azure Portal之后，从左侧的菜单上选择创建新资源，然后搜索Databricks：

学习一个Spark内存的管理案例

分类: Azure Databricks ◆ 标签: #Azure #Databricks ◆ 发布于: 2023-06-18 19:56:24

在学习Databricks的内存管理时，我发现在stackoverflow上有一篇非常好的案例，我总结了一下这个案例并分享给大家。用户场景用户在本机写了一个Spark的应用。这个应用从本地读取14KB的文本文件，读入Spark之后，然后对这部分数据进行一定的转换操作，最后存储到数据库中。使用的环境是: 8个Core，16G物理内存。 Java max heap size被设为了12G. 然后用户使用如下的命令提交任务到Spark本地执行：

Azure Databricks入门 - 概述

分类: Azure Databricks ◆ 标签: #Azure #入门 #Databricks ◆ 发布于: 2023-06-18 19:54:40

我开始学习Azure Databricks的时候遇到的最大困难是没有搞清楚Azure Databicks里面各种各样的名词和概念，这极大的阻碍了我学习该服务的热情和进度。认识到了这个问题之后，我调整了自己的方向，花了一些时间整理了Azure Databricks的基本结构，以及众多的工具和名词，后面再学习这个服务就感觉顺畅了很多，我将这个学习过程记录下来，就有了这个系列的入门文章了。学习Azure Databricks的时候首先要明确的是Azure Databricks是为谁准备的平台？

再次深入Databricks内存管理

分类: Azure Databricks ◆ 标签: #Azure #Databricks ◆ 发布于: 2023-06-18 19:52:08

我们之前有一篇文章就用户的案例提及了Databricks的内存管理，我们本章计划再次深入学习一下内存管理。虽然Databricks是基于Spark开发的平台，但是Databricks的部署和用户自己搭建的Spark集群在配置上还是有不一样的地方。谁在管理内存所有的Spark应用都是运行在JVM的进程内的，对于JVM来说，它主要是通过GC来管理内存，而GC对于Spark的内存使用模式是一无所知的，也就是说Spark需要自己管理内存。相对于GC， Spark管理的内存其模式相对固定，它管理的内存主要是被分成两大块，Execute Memory和Storage Memory, 同时Spark应用运行时还有一块内存称为保留内存，需要注意的是这块内存并不是由Spark来管理的，而是由JVM

Azure Databricks技巧 - 谁删除Azure Databricks Workspace

分类: Azure Databricks ◆ 标签: #Azure #Databricks ◆ 发布于: 2023-06-18 19:50:01

如果发现Azure Databricks Workspace被删除了，可以通过Azure Portal的Activity log检查谁删除了Azure Databricks Workspace, 具体步骤如下：登录到Azure Portal。在搜素框里搜索Activity, 然后选择Activity Log, 如下图：