分类:
Azure Databricks
◆
标签:
#基础
#Azure
#大数据
#入门
◆
发布于: 2023-08-07 20:46:28
Unity Catalog: 是下一代由databricks开发的元数据管理服务,目前还是在public preview,还不能用于正式生产,而且Azure China也不支持。这个服务将数据对象分为三个级别:catalog.database.table。
hive metastore: 目前应用成熟的元数据服务,直接使用了Hive的服务。在Databricks中,每个集群的节点上都会安装一个Hive metastore的客户端,这些客户端都会链接到Control panel的Hive Meta store服务上,在Azure Databricks中,后端默认是Azure Database for MySQL。
Read more
分类:
Azure Databricks
◆
标签:
#Azure
#基础
#入门
◆
发布于: 2023-07-27 9:54:28
Databricks File System简称DBFS, 在Databricks的部署中,它是一个分布式文件系统,是基于云的文件系统,为Spark计算引擎提供统一文件存取接口,这主要体现在如下几个方面:
DBFS是跟随Worksapce的,一个Workspace共享一个根DBFS文件系统。
每个在Workspace里启动的集群都会自动挂载DBFS到根目录/dbfs
通过DBFS文件系统mount进入到workspace的其他对象存储都严格的限制在DBFS的mnt下
无论什么云对象存储系统通过DBFS的mount过来之后,都是可以直接简单的使用文件操作命令进行操作,例如Azure Storage Data Lake或者AWS S3等等。
另外需要注意的是DBFS有几个特殊的根目
Read more
分类:
Azure Databricks
◆
标签:
#Azure
#基础
#入门
◆
发布于: 2023-07-27 9:48:18
我们前面的文章简单的介绍了什么Azure Databricks, 在开始其他的内容学习之前,我们要先创建一个Azure Databricks的workspace,并安装好databricks cli。
请先准备好一个Azure账号,如果你还没有Azure账号,那么请按照这个链接申请一个免费的Azure账号:
创建Azure Databricks
使用你的Azure账户登录到Azure Portal之后,从左侧的菜单上选择创建新资源,然后搜索Databricks:
Read more
分类:
Azure指南
◆
标签:
#Azure
#
◆
发布于: 2023-06-19 12:08:29
Azure DevOps 自动部署Pipeline配置
Read more
分类:
Azure入门
◆
标签:
#Azure
#Azure入门
#入门
◆
发布于: 2023-06-19 11:11:11
Azure入门指南系列文章
Read more
分类:
Azure指南
◆
标签:
#Azure
#指南
◆
发布于: 2023-06-19 11:06:40
Azure计算服务系列文章列表
Read more
分类:
Azure指南
◆
标签:
#Azure
#指南
◆
发布于: 2023-06-19 11:04:22
Azure AI和机器学习系列文章
Read more
分类:
Azure指南
◆
标签:
#Azure
#指南
◆
发布于: 2023-06-19 10:54:49
Azure物联网指南
Read more
分类:
Azure指南
◆
标签:
#Azure
#指南
◆
发布于: 2023-06-19 10:39:50
Azure大数据系列文章
Read more
分类:
Azure Databricks
◆
标签:
#Azure
#Databricks
◆
发布于: 2023-06-18 19:56:24
在学习Databricks的内存管理时,我发现在stackoverflow上有一篇非常好的案例,我总结了一下这个案例并分享给大家。
用户场景
用户在本机写了一个Spark的应用。这个应用从本地读取14KB的文本文件,读入Spark之后,然后对这部分数据进行一定的转换操作,最后存储到数据库中。
使用的环境是: 8个Core,16G物理内存。 Java max heap size被设为了12G.
然后用户使用如下的命令提交任务到Spark本地执行:
Read more