AzureDeveloper

在Azure Synpase Spark Pool中移动外部分区表数据到新位置后新建分区表发现丢失所有数据

分类: Azure Synapse ◆ 标签: #Azure #Trouble Shooting #大数据 ◆ 发布于: 2025-02-19 13:20:17

最近在测试Azure Synapse Spark Pool的功能，发现如果在创建外部表的时候指定了分区，然后移动这个外部表到另外的位置，重建表，然后查询数据发现所有的数据都丢失。但是如果创建外部表时不指定分区，则没有这个问题。

Azure Databricks入门 - 认识一下Databricks的数据对象

分类: Azure Databricks ◆ 标签: #基础 #Azure #大数据 #入门 ◆ 发布于: 2023-08-07 20:46:28

Unity Catalog: 是下一代由databricks开发的元数据管理服务，目前还是在public preview，还不能用于正式生产，而且Azure China也不支持。这个服务将数据对象分为三个级别：catalog.database.table。 hive metastore: 目前应用成熟的元数据服务，直接使用了Hive的服务。在Databricks中，每个集群的节点上都会安装一个Hive metastore的客户端，这些客户端都会链接到Control panel的Hive Meta store服务上，在Azure Databricks中，后端默认是Azure Database for MySQL。

Azure Databricks入门 - 认识一下DBFS

分类: Azure Databricks ◆ 标签: #Azure #基础 #入门 ◆ 发布于: 2023-07-27 9:54:28

Databricks File System简称DBFS, 在Databricks的部署中，它是一个分布式文件系统，是基于云的文件系统，为Spark计算引擎提供统一文件存取接口，这主要体现在如下几个方面： DBFS是跟随Worksapce的，一个Workspace共享一个根DBFS文件系统。每个在Workspace里启动的集群都会自动挂载DBFS到根目录/dbfs 通过DBFS文件系统mount进入到workspace的其他对象存储都严格的限制在DBFS的mnt下无论什么云对象存储系统通过DBFS的mount过来之后，都是可以直接简单的使用文件操作命令进行操作，例如Azure Storage Data Lake或者AWS S3等等。另外需要注意的是DBFS有几个特殊的根目

Azure Databricks入门 - 创建一个worksapce并安装Databricks CLi

分类: Azure Databricks ◆ 标签: #Azure #基础 #入门 ◆ 发布于: 2023-07-27 9:48:18

我们前面的文章简单的介绍了什么Azure Databricks, 在开始其他的内容学习之前，我们要先创建一个Azure Databricks的workspace，并安装好databricks cli。请先准备好一个Azure账号，如果你还没有Azure账号，那么请按照这个链接申请一个免费的Azure账号：创建Azure Databricks 使用你的Azure账户登录到Azure Portal之后，从左侧的菜单上选择创建新资源，然后搜索Databricks：