助睿实验作业1-订单利润分流数据加工
一、实验背景1.1 实验目的本次实验旨在掌握零代码数据集成平台的核心操作与 ETL 基础方法具体包括• 熟悉数据转换任务的创建、组件添加与任务执行的完整流程• 掌握数据读取、多表关联、字段筛选、条件分流与文件输出等常用功能的配置• 理解数据关联、过滤与分支处理的设计逻辑。通过本次实验能够独立完成订单数据的利润计算与分类处理为后续数据加工任务打下基础。1.2 实验环境实验平台助睿数智Uniplore一站式数据科学平台https://lab.guilan.cn/数据库MySQL数据表订单表、产品表1.3 业务场景企业经营分析中常需要关联订单与产品数据计算利润并按利润正负对订单进行分类存储。本实验以此场景为例用零代码方式完成数据处理。1.4处理流程将订单明细表与产品信息表进行左外连接合并订单与产品数据清洗数据、去除冗余字段后按订单利润是否大于等于零进行分流最终将盈利订单和亏损订单分别导出为两个独立的 Excel 文件。二 实验步骤2.1登录助睿实验平台https://www.guilan.cn/home进入我的学习后点击进入实训平台2.2创建实验项目然后点击右上角进入项目2.3获取数据打开后在项目页面中我们能看见左侧包含 3 个核心菜单资源库、文件库、元数据管理。• 资源库用于工作流的全生命周期管理包括新建、删除、修改和查看工作流信息也支持工作空间的导入导出、任务调度管理等操作。• 文件库用于存储工作流运行所需的源文件以及工作流执行过程中生成的输出文件。• 元数据管理是数据集成的基础支撑模块可为工作流配置运行环境、数据库连接、Flink 集群等底层参数。本次实验中我们主要使用到资源库和文件库两大模块。首先我们点击右键同步数据随即进入文件夹后再切换回到元数据就可以看到成功同步的数据库“线上公共数据源(Readonly)”2.4新建转换流切换到资料库然后点击右键新建转换流输入名字然后进入转换流进入后要先点击锁解锁才能进行下一步操作2.5添加组件1 添加表输入组件在搜索输入框中输入“表输入”即可查询到“表输入”组件。通过拖拽添加表述瑞组件重复以上操作再次添加。然后右键点击进行表组件编辑。将名字编辑为我们想要的。2添加记录集连接组件使用表输入组件读取数据后需要通过记录集连接组件将表输入组件的数据进行关联。在搜索输入框中输入“记录集连接”将记录集连接组件拖拽至画布中。再将两个组件之间用箭头连接起来3添加字段选择组件然后右键编辑组件填写名字再将组件之间连接起来4添加过滤记录组件本次实验是根据订单的利润情况对订单进行分流。使用“过滤记录”组件可以根据记录中某个字段的值进行记录分流。在搜索输入框中输入“过滤记录”将过滤记录组件拖拽至画布中再将其宇前一个组件连接起来会有弹窗提示选择主输出步骤即可5添加 excel 输出组件记录经过“过滤记录”组件后会被分成2个记录流。我们可以根据业务需求将2个记录流输出到指定位置文件、数据库表。在本次实验中我们选择将记录输出到 Excel 文件中。在搜索输入框中输入“excel 输出”将2个表输出组件拖拽至画布中再右键编辑他们的名字将其与前一个组件连接时出现弹窗当连接的是盈利订单时选择true当连接的是亏损订单时选择false2.6配置组件信息1表输入组件配置双击订单_详细订单表输入组件弹出组件配置页面。在数据库连接下拉框中选择“线上公共数据源(Readonly)”再点击“获取SQL查询语句”自动生成SQL查询语句。点击后出现弹窗选择表。下滑找到“business_anaylsis.order_detail”并点击它再点击“确定”我们想要的sql语句自动生成了另外一个表组件使用相同的操作配置“business_anaylsis.product”的SQL查询语句。2 记录集连接组件配置编辑记录集连接组件在下拉列表中选择需要连接的数据来源第一个Transform选择详细订单第二个Transform选择产品信息连接类型选择LEFT OUTER然后点击获取连接字段另外一列相同操作第一个Transform字段保留 produc_id第二个Transform的字段保留 id连接类型选择LEFT OUTER第一个Transform字段中除了 produc_id 外的其他字段右键点击“删除选中的行”第一个Transform字段中除了id 外的其他字段右键点击“删除选中的行”3字段选择组件配置记录集连接后produc_id与id字段内容重复需移除id字段。操作双击 “移除产品 ID_1 字段” 组件选择 “移除” 模式点击 “获取字段” 并移除id字段即可。右键获取字段然后删除除了id以外的其他字段再点击确认4编辑配置过滤记录双击“过滤记录”选择字段利润profit选中“profit(Number)”后点击“确定”再在中间字段选择点击“value”值类型选择“Integer”值输入“0”5 编辑excel输出组件配置双击“盈利订单”excel表输出组件出现弹窗将文件名修改为“盈利订单”选择文件拓展名“xlsx [Excel 2007 and above]”另外一个excel组件进行相同的配置操作。再切换输出字段获取字段后2.7输出结果点击按钮进行转换执行成功三 实验结果获得两个表格输出文件内容说明盈利订单.xlsxprofit ≥ 0 的订单可进一步分析高利润产品亏损订单.xlsxprofit 0 的订单可用于亏损原因追踪四 问题与解决1. 当编辑过滤记录时发现没有profit选项解决方案往前寻找前面组件配置有没有出错发现在前一个组件中应在移除中保留id字段结果误在选择与修改中保留id导致出错五 实验总结本次实验基于助睿零代码 ETL 平台完成了订单数据的关联、清洗与分流处理。实验中我掌握了新建转换任务、配置表输入与 Excel 输出组件的操作流程熟练运用字段选择、记录集连接、过滤记录等组件实现了订单明细表与产品信息表的左外连接完成重复字段移除并按利润正负将数据分流导出为盈利与亏损订单文件。通过实验我理解了多表关联与数据分流的 ETL 设计思路提升了零代码数据处理的实践能力为后续复杂数据加工任务打下了基础
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2583390.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!