数据可视化 Amazon QuickSight介绍和使用
第一章Amazon QuickSight 基础概念1.1 什么是 Amazon QuickSightAmazon QuickSight 是亚马逊云科技AWS提供的一项全托管的、基于云的商业智能BI服务。它的核心目标是帮助组织内的任何员工无论其技术背景如何都能轻松地构建数据可视化、进行临时性的数据分析并快速从数据中获取商业洞察。与传统的本地部署BI解决方案相比QuickSight 最大的优势在于其云原生架构。它无需企业预先投资购买昂贵的硬件和软件许可证也无需耗费数月时间由数据工程师构建复杂的数据模型。通过将AWS云的规模和灵活性引入分析领域QuickSight 实现了快速上手和简易使用。1.2 QuickSight 的核心优势SPICE 引擎QuickSight 之所以能够提供快速响应的查询性能其核心秘密武器在于SPICESuper-fast, Parallel, In-memory Calculation Engine。这是一个专门为云构建的超快并行内存计算引擎。SPICE 的工作原理是当您连接到一个数据源并导入数据时QuickSight 会将数据持久化存储到这个内存引擎中而不是每次用户与仪表板交互时都去查询底层的原始数据库。想象一下如果您每次刷新图表都需要去查询一个巨大的 Terabyte 级数据仓库响应速度会非常慢并且可能对生产数据库造成巨大压力。SPICE 解决了这个问题高性能通过列式存储、内存技术和机器代码生成SPICE 能够在大规模数据集上实现亚秒级的交互式查询响应。高并发SPICE 会自动复制数据以实现高可用性并能轻松扩展到数十万用户让他们可以同时进行快速的分析而无需管理任何基础设施。成本效益数据一旦加载到 SPICE 中后续的所有分析查询都将针对 SPICE 进行不再产生针对底层数据源的查询费用例如 Amazon Athena 按扫描数据量计费。1.3 核心用户角色QuickSight 定义了三种主要的用户角色以满足不同场景下的需求角色主要职责核心权限计费模式作者数据的创作者和分析师连接数据源、创建数据集、使用计算字段和参数构建交互式分析、发布仪表板、使用所有高级功能。按月订阅费用读者仪表板的最终消费者查看共享的交互式仪表板、筛选数据、钻取详情、将数据导出为 CSV 文件。无法创建或编辑分析内容。按会话数或按月封顶计费管理员系统的管理者拥有作者的所有权限同时负责管理用户和组、配置账户级别的安全策略、购买 SPICE 容量和管理年度订阅。同作者计费模式1.4 核心术语解析在开始使用之前了解以下几个关键概念至关重要数据源指您的数据存放的位置。它可以是 AWS 内部的服务如 Amazon S3、Amazon Redshift、Amazon Athena、Amazon RDS也可以是外部数据源如本地部署的 SQL Server、MySQL或 SaaS 应用如 Snowflake、Databricks甚至可以直接上传的 Excel 或 CSV 文件。数据集是数据源的逻辑视图。您可以对一个数据源进行数据准备操作如选择特定表、应用筛选器、创建计算字段、或执行 Join 操作然后将结果保存为一个数据集供后续分析使用。分析这是作者的主要工作界面。在分析中您可以基于一个或多个数据集创建多个视觉元素图表配置布局、添加交互操作如筛选器和参数最终形成一个完整的分析故事。仪表板仪表板是分析的只读版本。当您完成一个分析的创作后可以将其发布为一个仪表板并与组织内的读者用户共享。读者只能查看和交互已发布的仪表板无法修改其底层设计。第二章环境搭建与数据连接入门篇2.1 创建 QuickSight 账户开始使用 QuickSight 的第一步是创建账户。过程非常简单通常在 30 分钟内即可完成。注册访问 AWS 管理控制台在搜索框中输入 QuickSight 并进入服务页面。如果您是首次使用点击 Sign up for QuickSight。选择版本QuickSight 提供标准版和企业版。企业版提供更多高级功能如ML Insights机器学习洞察、嵌入式分析、行级安全等对于组织级应用更为合适。配置账户详情区域选择离您或您的数据最近的数据中心。账户名称为您的 QuickSight 账户命名。通知邮箱用于接收服务通知。配置服务访问权限关键步骤QuickSight 需要获得授权才能访问您的其他 AWS 资源。勾选Amazon Athena和Amazon S3。如果您计划使用其他服务如 Redshift、RDS也请一并勾选。您可以选择指定的 S3 存储桶授予 QuickSight 访问权限。完成点击 Finish 或 Complete稍等片刻即可创建成功。2.2 连接数据源从简单到复杂QuickSight 提供了极其灵活的数据连接方式无论您的数据是在本地文件、云端数据库还是数据湖中。场景 A上传本地文件最简单的入门方式这是体验 QuickSight 最快的方式无需任何 AWS 基础设施。在 QuickSight 控制台点击左侧的数据集然后点击新数据集。选择上传文件。在弹出的窗口中选择您本地的 ExcelXLSX或 CSV 文件并打开。系统会提示您选择工作表并可以点击编辑/预览数据进行初步的清洗。确认无误后点击可视化数据即被加载到 SPICE 中并进入分析界面。场景 B连接到 Amazon Athena查询数据湖Athena 是一种无服务器交互式查询服务可以轻松分析存储在 S3 中的数据。这也是最常用的模式之一。在新数据集界面选择Athena。为数据源命名例如Athena-DataLake点击创建数据源。接下来您可以选择现有的表或者为了更灵活的分析选择使用自定义 SQL。例如您可以编写 SQL 来预先聚合数据或联接多个表。sql-- 示例从成本与使用报告表中筛选 EC2 实例的运行时长 SELECT line_item_resource_id as instance_id, SUM(line_item_usage_amount) as total_running_hours FROM my_database.my_cur_table WHERE line_item_product_code AmazonEC2 AND year 2024 AND month 10 GROUP BY line_item_resource_id完成 SQL 编辑后点击确认查询然后可视化。场景 C连接到 Amazon Redshift连接云数据仓库对于已有 Redshift 数据仓库的用户QuickSight 可以提供原生的高性能连接。在新数据集界面选择Redshift (Auto-discovered)或Redshift (Manual connect)。输入 Redshift 集群的连接信息包括服务器地址、端口、数据库名称以及用户名密码。网络配置如果 Redshift 集群位于私有子网中您需要确保 QuickSight 可以访问它。通常需要在 Redshift 的安全组Security Group中添加规则放行来自 QuickSight IP 地址范围的流量。2.3 数据准备与增强连接数据源后QuickSight 提供了一个可视化的数据准备界面允许用户在创建分析前对数据进行清洗和转换整个过程无需编写任何 SQL 代码。字段操作可以重命名字段、更改字段的数据类型如将字符串改为日期、排除不需要的字段。创建计算字段如果您需要原始数据中没有的指标可以通过公式创建。例如我们可以计算订单的处理时长点击添加计算字段。命名新字段为Processing Time。在公式编辑器中输入dateDiff({OrderDate}, {ShipDate})。点击保存这个新字段就会像普通字段一样出现在您的列表中。数据清洗与变换针对数据质量问题可以直接在界面上操作。例如如果发现邮政编码字段存在格式不一致如数字和字符串混用长度不统一可以通过计算字段使用left({postal_code}, 5)函数统一截取前5位并将数据类型转换为字符串以解决后续表关联时的数据不一致问题。高级变换企业版功能对于更复杂的数据准备需求QuickSight 正在不断推出可视化数据准备流程功能。您可以通过点选的方式执行Append纵向合并、Join横向联接、Unpivot列转行和Aggregate聚合操作构建可复用的、多步骤的数据准备流程这对零售业等需要处理多源、多格式数据的场景尤其有用。第三章创建您的第一个分析与仪表板实战篇当数据集准备就绪后就可以进入最激动人心的部分——创建可视化分析。3.1 AutoGraph智能可视化推荐对于新手来说面对一堆字段不知如何选择合适的图表类型是很常见的。QuickSight 的AutoGraph功能可以解决这个问题。在分析界面当您从字段列表中点击或拖拽一个或多个字段到画布上时AutoGraph 会根据字段的数据类型如日期、地理信息、数字、字符串和基数唯一值的数量自动为您选择最合适的图表类型。例如如果您拖入一个“日期”字段和一个“销售额”字段它会自动生成一个折线图如果您拖入一个“国家/地区”字段它可能会生成一个地图或条形图。3.2 构建可视化元素实战演练假设我们沿用 AWS 官方教程中的超市销售数据Sales Orders.xlsx我们来构建几个关键图表。示例一创建月度销售趋势图在分析画布上点击添加按钮添加一个新的视觉对象。在视觉对象类型面板中选择折线图。在字段列表中将Order Date字段拖拽到X 轴框。将Sales字段拖拽到值 (Y 轴)框。注意日期聚合。QuickSight 默认可能会将日期按“年”聚合。要查看月度趋势可以点击 X 轴上的Order Date字段右侧的下拉箭头选择聚合 - 月。如果 X 轴的日期顺序混乱例如按销售额大小排列而非时间顺序这是因为日期字段被当作文本处理了。解决方法是点击 Y 轴Sales字段的下拉菜单 -排序将排序字段从Sales更改为Order Date并将排序方式从“降序”改为升序。调整后图表就会按时间顺序正确显示。示例二创建区域销售构成饼图添加一个新的视觉对象选择饼图。将Region字段拖拽到分组/颜色框。将Sales字段拖拽到大小 (值)框。现在您就能清晰地看到各个销售区域对总销售额的贡献比例。示例三应用筛选器进行数据聚焦我们希望对图表进行筛选只查看美国的销售情况。点击顶部工具栏的筛选器图标。点击添加选择筛选字段为Country。在右侧的筛选器编辑面板中选择筛选类型为 值列表。取消勾选全选然后只勾选United States点击应用。您会看到画布上所有的视觉元素包括趋势图和饼图都立即响应筛选器仅显示美国的数据。这就是筛选器的全局作用。3.3 从分析到仪表板发布与共享当您在“分析”中设计好图表布局和交互逻辑后就可以将其分享给最终用户了。请记住最终用户看到的是只读的“仪表板”而不是可编辑的“分析”。在分析页面右上角点击发布按钮。选择发布新仪表板并为您的仪表板命名例如“销售分析看板 - 美国区域”。点击发布仪表板。发布成功后系统会提示您是否要分享仪表板。您可以选择管理访问权限然后输入组织内读者用户的邮箱或组名授予他们查看权限。读者将收到一封包含仪表板链接的邮件。第四章高级功能深度探索进阶篇QuickSight 不仅仅是一个绘图工具它还集成了许多高级功能以满足复杂的企业级需求。4.1 机器学习洞察ML Insights企业版 QuickSight 内置了多种由机器学习驱动的功能让数据分析更加智能。异常检测通过智能算法自动检测您数据时间序列中的异常峰值或低谷。例如它可以自动发现某一天某个产品的销售额突然飙升或暴跌并通过算法解释导致异常最可能的原因例如与某个特定区域的促销活动相关而无需人工逐个排查。预测基于历史数据使用机器学习模型自动生成未来的预测值。只需右键点击一个时间序列图表选择添加预测QuickSight 就会自动计算并展示未来一段时间的置信区间。自动叙述AI 可以为您仪表板中的图表自动生成文字性的解读摘要即“执行摘要”。例如它会总结“2024年3月销售额达到最高为1,233,000元远高于其他月份”帮助管理者快速抓住核心要点。需要注意的是如果原始数据字段格式未设置AI 可能会误读货币单位需要手动将数值字段格式设置为目标货币。4.2 参数与交互式控制参数是创建高级交互式分析的关键。它们允许最终用户动态地改变计算或筛选条件。示例创建一个允许用户选择月份来查看数据的下拉菜单沿用 Athena 数据源的例子我们可以在分析中添加两个参数year和month。创建参数在分析界面左侧点击参数创建两个新参数一个名为year整数一个名为month整数。添加控件为每个参数添加一个“控件”。对于month控件您可以在控件的设置中指定一个静态值列表1到12使其变成一个下拉选择框。将参数应用于数据集关键一步是让您的数据集知道要使用这些参数。点击画布上的数据集选择编辑数据集。在数据集的 SQL 语句中您可能已经定义了WHERE year $year AND month $month。在数据集编辑界面您需要将这些数据集参数映射到您在分析中创建的同名控件参数上。完成后仪表板顶部就会出现年份和月份的下拉框。用户选择后整个页面的数据都将基于所选月份进行刷新。4.3 行级安全控制在企业环境中数据安全性至关重要。您可能希望同一个仪表板销售经理可以看到所有数据而普通销售只能看到自己的数据。行级安全功能可以完美实现这一需求。实现原理是创建一个“规则数据集”。这个数据集告诉 QuickSight哪个用户或组可以看到主数据集中的哪些行。创建规则数据集创建一个 CSV 文件或数据库表包含以下列UserName或GroupArn以及用于过滤主数据集的列例如Customer_ID、Country。例如您可以定义一个规则为group/sales_us组设置CountryUS的权限。应用规则在您的主数据集例如销售数据的详情页面找到行级安全设置。选择启用并上传或选择您刚刚创建的规则数据集。结果当属于sales_us组的用户查看仪表板时无论他如何操作仪表板中只会显示CountryUS的数据实现了数据访问的精细化控制。4.4 像素级完美报表虽然交互式仪表板非常强大但有时企业需要生成格式固定的、可以分页打印或作为邮件附件的报表例如财务对账单、工资单等。QuickSight 的像素级报表功能就是为此而生。您可以在分析中创建一个“像素级报表”类型的 Sheet像使用传统报表设计器一样精确控制报表的页眉、页脚、边距和表格样式。然后您可以为这个报表设置一个调度任务让 QuickSight 按每天/每周的频率自动生成 PDF 报表并通过邮件分发给不同的用户组。结合行级安全您可以实现一个调度任务为 50 个不同的客户生成包含他们各自专属数据通过 Customer_ID 过滤的 50 种不同的 PDF 报表然后自动通过邮件发送极大地简化了报表分发流程。4.5 嵌入式分析QuickSight 不仅仅是 AWS 内部的一个服务它还可以“走出去”。开发者可以利用 QuickSight 提供的 JavaScript SDK将交互式仪表板或创作体验无缝嵌入到您自己的公司门户网站、内部 Wiki 甚至面向客户的 SaaS 应用程序中。仪表板嵌入让您的应用程序用户无需离开您的网站就能查看和分析数据。创作嵌入为您的应用程序中的高级用户提供在您应用内部创建新仪表板的能力。这种嵌入能力无需管理服务器能够自动扩展到十万用户并且支持单点登录让您的应用程序立即拥有专业的 BI 能力。第五章管理与维护运维篇5.1 用户与权限管理管理员可以通过 QuickSight 管理控制台管理用户。用户邀请可以手动邀请新用户或与 AWS IAM Identity Center (Successor to AWS Single Sign-On) 集成实现自动化的用户同步和单点登录。组管理创建用户组如Sales-Team、Marketing-Team并统一分配仪表板权限比单独管理用户更高效。5.2 SPICE 容量管理SPICE 提供了快速的内存查询但它的容量是有限的。每个 QuickSight 账户都默认包含一定量的 SPICE 容量根据用户订阅数而定。当您导入大量数据时可能会用尽 SPICE 容量。监控管理员可以在管理控制台的SPICE 容量页面查看当前使用情况。购买如果容量不足可以直接在管理控制台点击购买更多容量按需增加 SPICE 空间。优化为了节省 SPICE 空间可以考虑只导入分析所需的列排除不需要的字段或在数据准备阶段对数据进行预聚合例如按月聚合销售数据而非按天以减少行数。5.3 成本优化策略善用 SPICE对于频繁查询的 Athena 或 Redshift 数据源强烈建议将数据导入 SPICE。这既能提升查询性能又能避免每次查询都产生 Athena 扫描费用或增加 Redshift 集群的负载。选择 Reader 计费模式对于仅需查看仪表板的内部员工使用 Reader 计费是按会话或按月封顶的通常比 Author 费用低得多尤其适合大规模分发。清理无用资源定期清理不再使用的草稿分析、旧版本的数据集和仪表板释放 SPICE 空间并保持环境整洁。第六章最佳实践与案例6.1 案例零售公司的多团队协作如 AWS 官方博客所述零售公司 AnyCompany 的全球分析师需要创建一个包含多年销售数据的基础数据集。他使用 QuickSight 的可视化数据准备功能将 2023、2024、2025 年的数据表Append起来然后通过Join操作关联产品维表和区域维表。在关联过程中他发现邮政编码格式不一致立即通过添加计算字段left(postal_code, 5)进行了清洗。他将这个处理好的数据集命名为Sales Revenue Dataset并发布。随后美国中西部区域的区域分析师需要制作区域销售预测。他无需从头开始而是直接以Sales Revenue Dataset为基础新建数据集通过Filter操作筛选出自己负责的区域。接着他需要加入未来几个月的预测数据一个以月份为列的 Excel 文件他使用Unpivot列转行功能将预测数据转换为与历史数据相同的格式最后使用Append将历史和预测数据合并并创建同比分析图表。整个过程无需编写任何 SQL且充分复用了全球分析师的工作成果。6.2 案例跨客户群体的自动化报表分发另一家公司 AnyCompany 需要为 50 个客户生成各自独立的月度销售 PDF 报表。过去需要为每个客户设置一个单独的调度任务管理非常繁琐。他们利用 QuickSight 的像素级报表和行级安全功能创建了一个主报表和一个规则数据集。规则数据集定义了每个客户组能看到的数据范围通过Customer_ID。然后他们创建了一个调度任务将这个报表一次性发送给所有客户组。QuickSight 在生成报表时会根据规则数据集自动为每个客户生成只包含其自身数据的 PDF并分发给对应的联系人。这通过一个调度任务替代了原先的 50 个任务极大地简化了运维。6.3 设计与性能优化建议仪表板设计明确受众为不同的角色设计不同的仪表板。管理层可能只需要关键 KPI 的摘要而一线分析师可能需要能钻取到明细数据。简洁清晰避免在一个仪表板上堆砌过多图表。利用筛选器和钻取功能让用户按需探索。使用颜色区分在图表中使用有意义的颜色例如红色代表下降绿色代表上升帮助用户快速识别趋势。性能优化SPICE 是首选尽可能将数据集加载到 SPICE 中。精简数据集只导入必要的列并对数据进行适当的预聚合减少数据量。优化计算字段尽量避免在计算字段中使用复杂的跨行或跨表函数。如果计算非常复杂建议在数据准备阶段ETL提前完成。限制一次性数据量在数据集设置中可以为 visual 设置数据限制避免一次性渲染过多数据点。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2424197.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!