Skip to main content

Azure Databricks入门 - 认识一下Databricks的数据对象

分类:  Azure Databricks 标签:  #基础 #Azure #大数据 #入门 发布于: 2023-08-07 20:46:28

Unity Catalog: 是下一代由databricks开发的元数据管理服务,目前还是在public preview,还不能用于正式生产,而且Azure China也不支持。这个服务将数据对象分为三个级别:catalog.database.table。 hive metastore: 目前应用成熟的元数据服务,直接使用了Hive的服务。在Databricks中,每个集群的节点上都会安装一个Hive metastore的客户端,这些客户端都会链接到Control panel的Hive Meta store服务上,在Azure Databricks中,后端默认是Azure Database for MySQL。

Read more

Azure Databricks入门 - 认识一下DBFS

分类:  Azure Databricks 标签:  #Azure #基础 #入门 发布于: 2023-07-27 9:54:28

Databricks File System简称DBFS, 在Databricks的部署中,它是一个分布式文件系统,是基于云的文件系统,为Spark计算引擎提供统一文件存取接口,这主要体现在如下几个方面: DBFS是跟随Worksapce的,一个Workspace共享一个根DBFS文件系统。 每个在Workspace里启动的集群都会自动挂载DBFS到根目录/dbfs 通过DBFS文件系统mount进入到workspace的其他对象存储都严格的限制在DBFS的mnt下 无论什么云对象存储系统通过DBFS的mount过来之后,都是可以直接简单的使用文件操作命令进行操作,例如Azure Storage Data Lake或者AWS S3等等。 另外需要注意的是DBFS有几个特殊的根目

Read more

Azure Databricks入门 - 创建一个worksapce并安装Databricks CLi

分类:  Azure Databricks 标签:  #Azure #基础 #入门 发布于: 2023-07-27 9:48:18

我们前面的文章简单的介绍了什么Azure Databricks, 在开始其他的内容学习之前,我们要先创建一个Azure Databricks的workspace,并安装好databricks cli。 请先准备好一个Azure账号,如果你还没有Azure账号,那么请按照这个链接申请一个免费的Azure账号: 创建Azure Databricks 使用你的Azure账户登录到Azure Portal之后,从左侧的菜单上选择创建新资源,然后搜索Databricks:

Read more

Azure Databricks入门 - 概述

分类:  Azure Databricks 标签:  #Azure #入门 #Databricks 发布于: 2023-06-18 19:54:40

我开始学习Azure Databricks的时候遇到的最大困难是没有搞清楚Azure Databicks里面各种各样的名词和概念,这极大的阻碍了我学习该服务的热情和进度。认识到了这个问题之后,我调整了自己的方向,花了一些时间整理了Azure Databricks的基本结构,以及众多的工具和名词,后面再学习这个服务就感觉顺畅了很多,我将这个学习过程记录下来,就有了这个系列的入门文章了。 学习Azure Databricks的时候首先要明确的是Azure Databricks是为谁准备的平台?

Read more

理解Azure提供的服务级别协议(SLA)

分类:  Azure入门 标签:  #Azure #基础 #入门 #Azure入门 发布于: 2023-06-15 15:01:30

当传统的IT系统迁移到云之后,除了我们要考量的成本问题之外,还需要考量运维问题。用户在本地机房部署系统的时候,用户可能要100%负责整个系统的所有部分,但是将系统迁移到云之后,有些部分会是由提供商来负责,传统的IT运维商或者开发商需要理解哪些部分是由云服务商提供并得以保证,哪些部分还是自己的工作,Azure通过为每项服务提供一个服务级别协议,为客户提供最佳的指导以及服务保证,这也就是我们在使用Azure服务的时候常说的SLA。 需要注意的是SLA是Azure和客户之间的正式协议,对于Azure而言,SLA也是微软对客户的承诺。 客户在使用每一项服务的时候,非常有必要了解每项服务提供的SLA的详细信息,要理解SLA承诺每项服务的内容,是保证性能达到多少指标?还是保证服务可用性到达什

Read more

如何评估Azure的使用成本和服务价格

分类:  Azure入门 标签:  #Azure #基础 #Azure入门 #入门 发布于: 2023-06-15 14:59:03

很多客户在选择Azure的时候一个很重要的问题是:假如要将自己本地的服务迁移到Azure上,如何快速的评估上云的成本。 Azure提供了一个工具:总拥有成本计算器(Total Cost of Owership Calculator - TCO), 你可以使用如下的地址使用该工具:https://azure.microsoft.com/zh-cn/pricing/tco/calculator/, TCO计算器可以帮助客户估算一段时间后在Azure中运行解决方案的成本。 TCO计算器使用的方式也很简单,用户打开该计算器之后,只需要将本地资源的详细信息,然后可以通过TCO查看建议的行业平均成本获得相关的运营成本,包括电力,网络维护以及IT人力成本。并以报表的形式将这些成本和Azure上运行

Read more

使用Azure提供的标识服务保护对应用程序的访问

分类:  Azure入门 标签:  #Azure #基础 #Azure入门 #入门 发布于: 2023-06-15 14:53:40

让我们简单了解一下身份验证和授权。 什么是身份验证? 身份验证是确定要访问资源的个人或服务的标识的过程。 这涉及向一方提出合法凭证质询的行为,并为创建用于标识和访问控制的安全主体提供基础。 身份验证可确定用户身份是否正确。 什么是授权? 身份验证确定用户的身份标识,而授权是确定经过身份验证的人员或服务具有的访问级别的过程。 它指定了允许其访问哪些数据及其可以使用这些数据做些什么。 身份验证和授权是什么关系?

Read more

如何选择Azure提供的管理工具用于管理Azure资源?

分类:  Azure入门 标签:  #Azure #基础 #Azure入门 #入门 发布于: 2023-06-15 14:51:24

在使用Azure的过程中,有很多种类型参与的人员,这包括管理员,开发人员均需要和云环境交互,为了满足这些交互, Azure提供了管理工具,这些工具可以帮助所有的参与人员: 一次部署数十个或者数百个资源。 以编程的方式配置各个服务。 向用户提供云环境使用情况,运行情况,成本等等报表。 管理工具可以从使用方式上分为两大类别: 可视化工具: 可视化管理工具提供了Azure所有功能的可视化友好访问,但是针对需要部署的项目中有大量的依赖配置项时,使用可视化工具可能就会捉襟见肘。 基于代码的管理工具: 基于代码的工具可以用于快速的以编程方式设定云资源,应用基础架构即代码的概念,使得管理和运维人员尽量参与到系统架构上来。 基础架构即代码包含两种方法:命令性代码和声明性代码。

Read more