Skip to main content

Azure认知搜索学习之使用Portal快速入门 - 创建知识库

分类:  Azure搜索 标签:  #Azure #Search #认知搜索 发布于: 2023-06-12 20:52:38

知识存储是 Azure 认知搜索的一项功能,它可以将输出从AI扩充管道发送到 Azure 存储,供后续分析或进行下游处理。

扩充管道接受非结构化文本和图像内容,应用认知服务提供技术支持的 AI 处理,并输出之前不存在的新结构和信息。 管道创建的物理数据结构之一是Azure Storage,可以通过连接到Azure storage的任何工具、应用或进程访问它。

在本快速入门中,我们需要先设置数据,然后运行import data向导来创建一个同样会生成知识存储的扩充管道。 知识存储将包含从源提取的原始文本内容,以及 AI 生成的内容,包括情绪标签、关键短语提取和非英语客户评论的文本翻译。

备注
本快速入门是在 Azure Storage中完成知识存储的最快途径。

本快速入门使用以下服务:

  • 具有活动订阅的 Azure 帐户。
  • Azure 认知搜索服务。 在帐户中创建服务或查找现有服务。 可以使用本快速入门的免费服务。
  • 具有 Blob 存储的 Azure 存储帐户。

注意
此快速入门还将认知服务用于 AI。 由于工作负荷很小,因此,认知服务在幕后会抽调一部分算力来免费处理事务(最多 20 个)。 这意味着,无需创建其他认知服务资源即可完成此练习。

设置数据

在以下步骤中,在 Azure 存储中设置 blob 容器以存储异类内容文件。

  1. 下载 HotelReviews_Free.csv:https://knowledgestoredemo.blob.core.windows.net/hotel-reviews/HotelReviews_Free.csv?sp=r&st=2019-11-04T01:23:53Z&se=2025-11-04T16:00:00Z&spr=https&sv=2019-02-02&sr=b&sig=siQgWOnI%2FDamhwOgxmj11qwBqqtKMaztQKFNqWx00AY%3D。 此数据是保存在某个 CSV 文件中的酒店评论数据(源自 Kaggle.com),其中包含客户对一家酒店的 19 条反馈。
  2. 创建 Azure 存储帐户或查找现有帐户。 需要使用 Azure 存储来存储要导入的原始内容,并使用知识存储来存储最终结果。
    选择“StorageV2 (常规用途 V2)”帐户类型。
  3. 在 Azure 存储资源中,使用存储资源管理器创建一个名为 hotel-reviews 的 blob 容器 。
  4. 选择页面顶部的“上传”,以加载从上一步骤下载的 HotelReviews-Free.csv 文件 。



  5. 请选择左侧导航窗格中的“访问密钥”以获取连接字符串,以便可以使用索引器检索此数据。
  6. 在“访问密钥”中,选择页面顶部的“显示密钥”以取消隐藏连接字符串,然后复制 key1 或 key2 的连接字符串 。
  7. 连接字符串具有以下格式:DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    现在可以在“导入数据”向导中转到下一步。

    启动向导

    1. 使用 Azure 帐户登录到 Azure 门户。
    2. 查找搜索服务,并在“概述”页中,单击命令栏上的“导入数据”,通过四个步骤创建知识存储。


步骤 1:创建数据源

由于数据在一个 CSV 文件中包含多行,因此请设置分析模式,为每一行获取一个搜索文档。

  1. 在“连接到数据”中,选择“Azure Blob 存储”,再选择创建的帐户和容器 。
  2. 对于“名称”,请输入 hotel-reviews-ds。
  3. 对于“分析模式”,请选择“分隔文本”,然后选中“第一行包含标头”复选框。 确保“分隔符”是逗号 (,)。
  4. 在“连接字符串”中,粘贴从 Azure 存储复制的连接字符串。
  5. 在“容器”中,输入保存数据 (hotel-reviews) 的 blob 容器的名称。
    页面应类似于以下屏幕截图。


继续转到下一页。

步骤 2:添加技能

在此向导步骤中,添加 AI 扩充技能。 源数据包括用英文和法语撰写的客户评论。 与此数据集相关的技能包括关键短语提取、情绪检测和文本翻译。 在后续步骤中,这些扩充内容将以 Azure 表的形式“投影”到知识存储。

  1. 展开“附加认知服务”。 默认已选择“免费(受限扩充)”。 之所以可以使用此资源,是因为 HotelReviews-Free.csv 中的记录数为 19 个,并且此免费资源每天最多允许 20 个事务。

  2. 展开“添加扩充”。

  3. 对于“技能集名称”,请输入 hotel-reviews-ss。

  4. 对于“源数据字段”,请选择“reviews_text”。

  5. 对于“扩充粒度级别”,请选择“页面(5000 个字符区块)” 。

  6. 对于“文本认知技能”,请选择以下技能:

    • 提取关键短语
    • 翻译文本
    • 语言检测
    • 检测情绪

    页面应类似于以下屏幕截图所示:



  7. 向下滚动并展开“将扩充内容保存到知识存储”。

  8. 选择以下“Azure 表投影”。 向导始终提供“文档”投影。 将根据你选择的技能(例如“关键短语”)或扩充粒度(“页面”)提供其他投影 :

    • 文档
    • 关键短语


  9. 输入在上一步骤中保存的 存储帐户连接字符串。

  10. 继续转到下一页。

步骤 3:配置索引

在此向导步骤中,为可选的全文搜索查询配置索引。 向导将对数据源进行采样,以推断字段和数据类型。 你只需为所需的行为选择属性。 例如,“可检索”属性将允许搜索服务返回一个字段值,而“可搜索”属性将对字段启用全文搜索。

  1. 对于“索引名称”,请输入 hotel-reviews-idx。

  2. 对于属性,请接受默认选项:“可检索”和“可搜索”(对于管道正在创建的新字段) 。
    索引应与下图类似: 由于该列表很长,图像中未显示所有字段。



  3. 继续转到下一页。

步骤 4:配置和运行索引器

在此向导步骤中,配置一个索引器,用于统一提取前面向导步骤中定义的数据源、技能集和索引。

  1. 对于“名称”,请输入 hotel-reviews-idxr。
  2. 对于“计划”,请保留默认设置“一次”。
  3. 选择“提交”运行索引器。 数据提取、索引编制和应用认知技能的操作都在此步骤中发生。

查看状态

在“概述”页面中,打开页面中间的“索引器”选项卡,然后选择“hotels-reviews-ixr” 。 在一两分钟内,状态应从“正在进行”变为“成功”,且没有任何错误和警告。

使用存储资源管理器查看表

在 Azure 门户中,切换到 Azure 存储帐户并使用存储资源管理器查看新的表。 应会看到三个表,每个表对应于“添加扩充”页的“保存扩充”部分提供的每个投影。

  • 文档表包含文档扩充树的所有第一级节点。
  • 如果指定“pages”或“sentences”级别的粒度,则会创建 pages 表(或 sentences 表)。 在页面或句子级别执行的技能会将输出投影到此表。
  • 输出集合(数组)(例如关键短语和实体)的技能将在独立表中输出。

同一投影组内的所有表都包含交叉引用信息,以支持其他工具和应用中的表关系。

本快速入门中的表应类似于以下屏幕截图:


每个表都是使用在查询中交叉链接表所需的 ID 生成的。 打开表时,滚动浏览这些字段可查看管道添加的内容字段。

  • hotelReviewssDocument: 包含从 CSV 结转的字段,例如 reviews_date 和 reviews_text。
  • hotelReviewssPages: 包含由技能集创建的扩充字段,例如情绪标签和已翻译的文本。
  • hotelReviewssKeyPhrases: 包含仅包含关键短语的长列表。