Skip to main content

Azure Databricks入门 - 认识一下Databricks的数据对象

分类:  Azure Databricks 标签:  #基础 #Azure #大数据 #入门 发布于: 2023-08-07 20:46:28

Unity Catalog: 是下一代由databricks开发的元数据管理服务,目前还是在public preview,还不能用于正式生产,而且Azure China也不支持。这个服务将数据对象分为三个级别:catalog.database.table。 hive metastore: 目前应用成熟的元数据服务,直接使用了Hive的服务。在Databricks中,每个集群的节点上都会安装一个Hive metastore的客户端,这些客户端都会链接到Control panel的Hive Meta store服务上,在Azure Databricks中,后端默认是Azure Database for MySQL。

Read more

Azure Data Explorer(ADX)中如何修改表的列类型

分类:  Azure Data Explorer 标签:  #基础 #大数据 发布于: 2023-08-07 20:23:25

我们在Azure Data Explorer(ADX)中创建了一张表,例如如下的语法: .create table test1 (['id']: int, name: string, ob_length: string); 现在我们有一个需求:需要更改列ob_length 从类型string更改类型到long。 针对这个需求,大家第一映像肯定是直接使用alter column语法来更改就好了啊。语法也很简单: .alter column ['test1'].['ob_length'] type=long 好像看起来也没什么问题,但是很不巧,官方的文档明确的针对这个指令有一个说明:

Read more

如何在Windows Server Core下安装和配置SQL Server

分类:  Windows Server 标签:  #PowerShell #Windows Server Core #Windows #SQL Server 发布于: 2023-08-06 17:44:13

在准备将自己的网站迁移到Windows Server Core上时,第一个要考虑的问题就是如何在Windows Server Core上安装和配置SQL Server, 新网站的架构是基于OrchardCore来开发的,虽然可以继续使用sqlite,随着数据的增多,很担心sqlite不能应对更多更大的数据量,同时在需要和其他的代码及进行集成时,仅仅使用sqlite也会带来很多不方便的地方,这样就必须要将原有基于Piranha CMS的数据转换到SQL Server, 这又是一个伤心的故事,无论采用什么样的工具甚至是自己写代码,发现要将所有的数据从sqlite迁移到SQL Server的时候,仍然是困难重重。而且还得对Piranha CMS的底层设计要非常熟悉,倒腾了很多次依然以失败告终,这更

Read more

开启Windows Server Core上的远程PowerShell管理

分类:  PowerShell 标签:  #脚本编程 #Windows Server Core #Windows 发布于: 2023-08-05 18:30:54

当安装和测试完成了windows Server Core的系统之后,仍然需要经常对系统进行维护和管理,我们可以使用常规的管理工具,例如服务管理工具, 或者是Windows Admin来进行管理,不过对于一台两台服务器,我们还可以利用PowerShell的远程管理工具进行管理,如下是如何在Azure上远程开启PowerShell管理的基本步骤。 首先使用远程桌面登录到系统中,运行如下的命令: Enable-PSRemoting -SkipNetworkProfileCheck -Force 先开启配置,然后检查防火墙:

Read more

PowerShell在Windows Server Core上处理文件的技巧

分类:  PowerShell 标签:  #基础 #Windows Server Core #Windows #脚本编程 发布于: 2023-08-05 17:24:30

将自己的网站转为使用Windows Server Core 2022作为基础的系统之后,需要通过命令行对系统进行管理,特别是对于文件系统的管理,例如查询文件,列出文件, 查看文件夹或者文件的大小,删除文件夹,给用户授权等等,刚开始使用有很多不习惯的地方,这里记录一下一些使用PowerShell操作文件的小技巧。

Read more

Windows Server 2022 Core迁移记录

分类:  Windows Server 标签:  #Windows #Windows Server Core 发布于: 2023-08-05 0:42:10

最早的时候我将自己的博客部署在Ubuntu 20.04上,采用的架构是nginx + .Net 6 Kerstrel, 为了优化性能,减少从nginx到loopback之间的交互,配置nginx和Kerstrel之间的通讯走UnixSocket, 并将UnixSocket文件存入到/dev/shm中,这套配置经历一段时间, 使用benchmarkdotnet做了一些基准的测试并留下了数据。这之后,决定使用windows server 2019 datacenter作为操作系统,并配置IIS + Asp.net core Module V2直接走了in-process模式,迁移之后发现博客网站在使用同样的测试方案下,windows + IIS的模式居然比之前基于ubuntu + nginx的模

Read more

Azure Databricks入门 - 认识一下DBFS

分类:  Azure Databricks 标签:  #Azure #基础 #入门 发布于: 2023-07-27 9:54:28

Databricks File System简称DBFS, 在Databricks的部署中,它是一个分布式文件系统,是基于云的文件系统,为Spark计算引擎提供统一文件存取接口,这主要体现在如下几个方面: DBFS是跟随Worksapce的,一个Workspace共享一个根DBFS文件系统。 每个在Workspace里启动的集群都会自动挂载DBFS到根目录/dbfs 通过DBFS文件系统mount进入到workspace的其他对象存储都严格的限制在DBFS的mnt下 无论什么云对象存储系统通过DBFS的mount过来之后,都是可以直接简单的使用文件操作命令进行操作,例如Azure Storage Data Lake或者AWS S3等等。 另外需要注意的是DBFS有几个特殊的根目

Read more

Azure Databricks入门 - 创建一个worksapce并安装Databricks CLi

分类:  Azure Databricks 标签:  #Azure #基础 #入门 发布于: 2023-07-27 9:48:18

我们前面的文章简单的介绍了什么Azure Databricks, 在开始其他的内容学习之前,我们要先创建一个Azure Databricks的workspace,并安装好databricks cli。 请先准备好一个Azure账号,如果你还没有Azure账号,那么请按照这个链接申请一个免费的Azure账号: 创建Azure Databricks 使用你的Azure账户登录到Azure Portal之后,从左侧的菜单上选择创建新资源,然后搜索Databricks:

Read more

学习一个Spark内存的管理案例

分类:  Azure Databricks 标签:  #Azure #Databricks 发布于: 2023-06-18 19:56:24

在学习Databricks的内存管理时,我发现在stackoverflow上有一篇非常好的案例,我总结了一下这个案例并分享给大家。 用户场景 用户在本机写了一个Spark的应用。这个应用从本地读取14KB的文本文件,读入Spark之后,然后对这部分数据进行一定的转换操作,最后存储到数据库中。 使用的环境是: 8个Core,16G物理内存。 Java max heap size被设为了12G. 然后用户使用如下的命令提交任务到Spark本地执行:

Read more

Azure Databricks入门 - 概述

分类:  Azure Databricks 标签:  #Azure #入门 #Databricks 发布于: 2023-06-18 19:54:40

我开始学习Azure Databricks的时候遇到的最大困难是没有搞清楚Azure Databicks里面各种各样的名词和概念,这极大的阻碍了我学习该服务的热情和进度。认识到了这个问题之后,我调整了自己的方向,花了一些时间整理了Azure Databricks的基本结构,以及众多的工具和名词,后面再学习这个服务就感觉顺畅了很多,我将这个学习过程记录下来,就有了这个系列的入门文章了。 学习Azure Databricks的时候首先要明确的是Azure Databricks是为谁准备的平台?

Read more