第8章 综合案例—构建DVD租赁商店数据仓库

news2025/7/17 17:49:16

目录

章节概要

案例背景介绍

数据仓库的架构模型

数据仓库的架构模型

数据库sakila的下载和安装 

数据库sakila简介

数据库sakila中 数据表之间的关系

数据表简介 

用于储存电影基本信息及相关介绍的数据,该数据表各个字段的含义如表。

 用于储存定义电影id所属电影类别id的数据,该数据表各个字段的含义如表。

用于储存电影类别名称所属类别id的数据,该数据表各个字段的含义如表

通过Kettle工具加载日期数据至dim_date日期维度表。


章节概要

sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。

案例背景介绍

在日益激烈的商业竞争中,在线DVD租赁商店的决策者都迫切地需要更加准确的战略决策信息。每个在线DVD租赁商店的数据都存储在数据库中,因此该数据库中拥有海量的数据,并不缺乏足够的信息,但是这些数据并不是战略决策需要的信息。虽然这些海量数据对于在线DVD租赁商店的运作是非常有用的,但是对于商业的战略决策和目标制定的作用是微乎其微的。对于在线DVD租赁商店的决策者来说,他们需要从多个不同的商业角度观察数据,例如时间、电影、演员、用户等角度观察数据,并进行相关的分析得出决策,但是数据库中的数据不适合从多个角度进行分析,无法得出战略决策。然而,数据仓库支持复杂的分析操作,侧重于决策支持,并且还提供直观易懂的查询结果,因此我们需要基于数据库sakila创建一个DVD租赁商店数据仓库,并将sakila数据库中的数据加载到数据仓库中,便于在线DVD租赁商店的决策者对数据进行分析得出商业决策。

数据仓库的架构模型

数据仓库sakila_dw的架构模型是一个星型模型,其中dim_film表、dim_customer表、dim_actor表、dim_store表、dim_staff表、dim_date表以及dim_time表均为维度表;fact_rental表为事实表。

数据仓库的架构模型

数据库sakila的下载和安装 

我们可以从MySQL的官网下载数据库sakila的建库脚本,若是在Windows环境下安装数据库sakila,则下载名称为sakila-db.zip的压缩包文件;若是在Linux环境下安装数据库sakila,需要下载名称为sakila-db.tar.gz的压缩包文件。 本书下载的是名称为sakila-db.zip的压缩包文件,该压缩包文件中包含三个文件,分别是文件sakila.mwb、文件sakila-data.sql和文件sakila-schema.sql。其中,文件sakila.mwb是一个MySQL Workbench数据模型,用于查看数据库结构;文件sakila-data.sql是用于创建数据库sakila的数据;文件sakila-schema.sql是用于创建数据库sakila的数据结构。

数据库sakila下载完成后,直接解压压缩包,然后使用MySQL图形化管理软件SQLyog先运行脚本文件sakila-schema.sql创建数据库sakila和数据表,再运行脚本文件sakila-data.sql向数据库sakila中的数据表加载数据,最后刷新数据库并查看数据库sakila中的数据表及数据表中的数据,若数据表中均含有数据则说明安装数据库sakila成功,否则说明安装不成功,需要重新解压安装。 需要注意的是,安装数据库sakila之前需要下载并安装MySQL关系型数据库,并且版本不可以低于5.0,本书使用的是MySQL 8.0.16版本。关于MySQL数据库的下载安装这里不作详细介绍,读者可自行下载安装即可。

数据库sakila简介

数据库sakila中一共含有十六张数据表,分别是actor(演员)表、address(地址)表、category(类别)表、city(城市)表、country(国家)表、customer(顾客)表、film(电影)表、film_actor(演员所属电影)表、film_category(电影所属的类别)表、film_text(电影描述)表、inventory(库存)表、language(语言)表、payment(付款)表、rental(租赁)表、staff(工作人员)表以及store(商店)表。

数据库sakila中 数据表之间的关系

数据表简介 

用于储存电影基本信息及相关介绍的数据,该数据表各个字段的含义如表。

字段名称

数据类型

相关说明

film_id

smallint

主键(电影id)

title

varchar

电影名称

description

text

电影描述

release_year

year

上映年份

language_id

tinyint

语言id

original_language_id

tinyint

原版语言id

rental_duration

tinyint

租赁时长

rental_rate

decimal

电影租赁费

length

smallint

电影时长

replacement_cost

decimal

替换成本

rating

enum

评分

special_features

set

特色

last_update

timestamp

最后更新时间

 用于储存定义电影id所属电影类别id的数据,该数据表各个字段的含义如表。

字段名称

数据类型

相关说明

film_id

smallint

主键(电影id)

category_id

tinyint

外键(电影类别id)

last_update

timestamp

最后更新时间

 

用于储存电影类别名称所属类别id的数据,该数据表各个字段的含义如表

字段名称

数据类型

相关说明

name

varchar

类别名称

category_id

tinyint

主键(电影类别id)

last_update

timestamp

最后更新时间

 用于储存定义演员id所属电影id的数据,该数据表各个字段的含义如表。

字段名称

数据类型

相关说明

actor_id

smallint

主键(演员id)

film_id

smallint

外键(电影id)

last_update

timestamp

最后更新时间

表过多 这里不一一陈述 

我们基于数据库sakila构建一个星型模型的DVD租赁商店数据仓库,并命名为sakila_dw。数据仓库sakila_dw中的事实表fact_rental是根据数据库sakila中的数据表rental创建的;维度表是根据数据表sakila中数据表的分类创建的,即从人员、时间、地点以及事件四个角度进行创建数据仓库sakila_dw的维度表,具体如下: 从人员角度角度创建维度表dim_customer和维度表dim_staff,分别表示租赁业务中的客户和员工; 从时间角度创建维度表dim_date和维度表dim_time,用于记录所有DVD的租赁时间和归还时间; 从地点角度创建维度表dim_store,用于记录DVD光盘是从哪个商店租赁的; 从事件角度创建维度表dim_actor和维度表dim_film,其中维度表dim_actor用于记录演员的基本信息,维度表dim_film用于记录电影的基本信息。由于电影是租赁和归还的实际对象,因此维度表dim_film应与事实表fact_rental关联。一部电影是由多位演员出演,所以会有桥接表dim_film_actor_bridge,该表将电影与演员相关联。

数据仓库sakila_dw中的每个维度表(dim_date和dim_time除外)都对应着数据库sakila中某个数据表,例如维度表dim_store对应着数据表store、维度表dim_actor对应着数据表actor。 本书为读者提供了创建sakila_dw数据仓库的SQL脚本文件,其脚本文件的名称为sakila_dw_schema.sql,读者只需要使用MySQL图形化管理软件SQLyog运行sakila_dw_schema.sql脚本文件创建sakila_dw数据仓库即可。

通过Kettle工具加载日期数据至dim_date日期维度表。

使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。

双击“生成记录”控件,进入“生成记录”配置界面。

 

 

在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化,具体如图所示。 

 

双击“JavaScript”控件,进入“JavaScript”配置界面,勾选“兼容模式?”处的复选框,使得JavaScript代码控件的兼容性更强;在Java Script代码框中编写代码,如图所示。 

 

 

//Script here
//生成locale
var locale = new java.util.Locale(language.getString(),country_code.getString());
//生成Calendar
var calendar = new java.util.GregorianCalendar(locale);
//设置时间
calendar.setTime(initial_date.getDate());
//设置日历为当前日期
calendar.add(calendar.DAY_OF_MONTH,DaySequence.getInteger()-1);
//获取日期
var date = new java.util.Date(calendar.getTimeInMillis());
//生成短日期
var date_short = java.text.DateFormat.getDateInstance(java.text.DateFormat.SHORT,locale).format(date);
//生成中日期
var date_medium = java.text.DateFormat.getDateInstance(java.text.DateFormat.MEDIUM,locale).format(date);
//生成长日期
var date_long = java.text.DateFormat.getDateInstance(java.text.DateFormat.LONG,locale).format(date);
//生成全日期
var date_full = java.text.DateFormat.getDateInstance(java.text.DateFormat.FULL,locale).format(date);
//简单格式化
var simpleDateFormat = java.text.SimpleDateFormat("D",locale);
//天在年的第几天
var day_in_year = simpleDateFormat.format(date);
//建立格式器
simpleDateFormat.applyPattern("d");
//天在月的第几天
var day_in_month = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("EEEE");
//星期的名称
var day_name = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("E");
//星期的缩写
var day_abbreviation = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("ww");
//一年的第几周
var week_in_year = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("W");
//一月的第几周
var week_in_month = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("MM");
//月份
var month_number = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("MMMM");
//月的名称
var month_name = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("MMM");
//月的缩写
var month_abbreviation = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("yy");
//两位的年
var year2 = simpleDateFormat.format(date);

simpleDateFormat.applyPattern("yyyy");
//四位的年
var year4 = simpleDateFormat.format(date);

//季度名称
var quarter_name = "Q";
//季度
var quarter_number;
switch(parseInt(month_number)){
	case 1:case 2:case 3:quarter_number = "1";break;
	case 4:case 5:case 6:quarter_number = "2";break;
	case 7:case 8:case 9:quarter_number = "3";break;
	case 10:case 11:case 12:quarter_number = "4";break;
}
quarter_name += quarter_number;
//定义常量
var yes = "yes";
var no = "no";
//获取周的第一天
var first_day_of_week = calendar.getFirstDayOfWeek();
var day_of_week = java.util.Calendar.DAY_OF_WEEK;

//判断是否为周的第一天
var is_first_day_in_week;
if(first_day_of_week == calendar.get(day_of_week)){
	is_first_day_in_week = yes;
}else{
	is_first_day_in_week = no;
}

//日历的下一天
calendar.add(calendar.DAY_OF_MONTH,1);
//获取下一天
var next_day = new java.util.Date(calendar.getTimeInMillis());
//判断是否周的最后一天
var is_last_day_in_week;
if(first_day_of_week == calendar.get(day_of_week)){
	is_last_day_in_week = yes;
}else{
	is_last_day_in_week = no;
}
//判断是否为月的第一天
var is_first_day_in_month;
if(day_in_month == 1){
	is_first_day_in_month = yes;
}else{
	is_first_day_in_month = no;
}

//判断是否为月的最后一天
var is_last_day_in_month;
if(java.text.SimpleDateFormat("d",locale).format(next_day)==1){
	is_last_day_in_month = yes;
}else{
	is_last_day_in_month = no;
}

//年_季度
var year_quarter = year4 + "-" + quarter_name;

//年_月份
var year_month_number = year4 + "-" + month_number;

//年_月缩写
var year_month_abbreviation = year4 + "-" + month_abbreviation;

//日期代理剑(唯一键)
var date_key = year4 + month_number + (day_in_month<10?"0":"") + day_in_month;

单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,具体如图所示。 

 运行结果如下:

 navicat查看如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/36989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python爬虫

前言 这个故事&#xff0c;从头讲起。 2022 年上班第一天&#xff0c;我们做了一个重要决定&#xff0c;就是打造精品学习路线&#xff0c;为初学者指明前进的方向&#xff0c;以及常见的避坑技巧。 &#xff08;文末送读者福利&#xff09; 我承认这是一件非常有挑战的事情…

自动驾驶感知算法实战6——目标分类详解(ResNet、VGG、GoogLeNet等)

自动驾驶感知算法实战专栏:https://blog.csdn.net/charmve/category_12097938.html目录 1 网络分类2 详解 ResNet3 详解 VGG4 稠密连接网络(DenseNet)5 详解 GoogLeNet6 详解 Fast R-CNN1 网络分类 来自:https://charmve.github.io/computer-vision-in-action/#/book_prefa…

构建房地产行业智慧采购新模式,采购协同商城系统护航企业采购数字化转型

采购是房地产企业控制成本的龙头&#xff0c;同时还直接影响着工程质量。随着采购工作推进的不断深化&#xff0c;对地产物资采购精细化管理的要求也在日益加强&#xff0c;如何做好采购工作成为房地产企业实现数字化转型升级进程必须突破的壁垒。 房地产作为一个资源整合性行…

排序算法及java实现

简介 排序算是非常基础的算法&#xff0c;为什么我们需要排序算法呢&#xff1f;假设我们只有10个数&#xff0c;或者100个数&#xff0c;其实根本不需要研究这么多的排序算法&#xff0c;正常我们会使用的插入排序或者选择排序足够了&#xff0c;没必要发明快排&#xff0c;基…

第九章 哈希表 AcWing 2 1549. 集合相似度

第九章 哈希表 AcWing 2 1549. 集合相似度 原题链接 AcWing 1549. 集合相似度 算法标签 哈希表 位运算 思路 使用unordered_set数据结构将数据插入指定集合 如何计算Nc&#xff08;两集合交集&#xff09; 如何计算Nt&#xff08;两集合并集&#xff09; 输出问题 WA 精…

干掉 “重复代码”,这三种方式绝了!

软件工程师和码农最大的区别就是平时写代码时习惯问题&#xff0c;码农很喜欢写重复代码而软件工程师会利用各种技巧去干掉重复的冗余代码。 业务同学抱怨业务开发没有技术含量&#xff0c;用不到设计模式、Java 高级特性、OOP&#xff0c;平时写代码都在堆 CRUD&#xff0c;个…

BCD编码和ASCII码

计算机里&#xff0c;字母&#xff0c;各种字符以及指挥计算机执行操作的指令&#xff0c;均用二进制数的组合表示&#xff0c;称为二进制编码 目录 ASCII码&#xff08;汇编语言程序设计的时候会常用&#xff09; BCD码&#xff08;了解&#xff09; ASCII码&#xff08;汇…

等数值计算方法学习笔记第4章第三部分【数值积分(数值微分)】

高等数值计算方法学习笔记第4章第三部分【数值积分&#xff08;数值微分&#xff09;】六、数值微分&#xff08;第四次课&#xff09;1、中点方法与误差分析2、插值型的求导公式3、习题和表格4、知识结构图六、数值微分&#xff08;第四次课&#xff09; 1、中点方法与误差分析…

【图像处理】小波编码图像中伪影和纹理的检测(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

一年一度的科技狂欢盛会——2022亚马逊云科技re:Invent全球大会

一年一度的科技狂欢盛会&#xff0c;2022年亚马逊云科技re:Invent全球大会即将于北京时间2022年11月29日盛大开启&#xff01;届时全球各领域关注“云计算圈”发展的人都将齐聚一堂&#xff0c;共同聆听5大重磅嘉宾的主题演讲&#xff0c;700前沿技术话题…… 携全球合作伙伴&…

《计算机工程》投稿经验分享

历经两个月终于录用了 投稿过程真的太心酸了 第一次投计算机工程与应用&#xff1a;历时两周&#xff0c;拒稿 第二次投计算机科学&#xff1a;加急15天&#xff0c;增刊录用&#xff0c;撤稿 第三次投计算机应用与软件&#xff1a;说文件太大&#xff0c;修改文件大小重投&…

选择合作伙伴是最大关键:网宿科技的云业务拓展之路

关注IT圈子的小伙伴们&#xff0c;对网宿科技这个名字想必都是耳熟能详。在众多发力云计算业务的科技企业当中&#xff0c;近年来业绩表现出众的网宿科技&#xff0c;无疑是相当引人瞩目的一家。那么问题就来了&#xff1a;网宿科技当初是怎样走上了这条云业务拓展之路&#xf…

【知识网络分析】二模网络(two node)、多模网络(multi node)与多级别网络(multi level)

二模网络(two node)、多模网络(multi node)与多级别网络(multi level) 1 二模网络(two node)1.1 读取本地文献并构建二模网络数据集1.2 网络数据集精简1.3 网络图绘制及美化2 多模网络(multi node)3 多级别网络(multi level)1 二模网络(two node) 1.1 读取本地文…

web期末网站设计大作业 奶茶店网站美食餐饮网站设计与实现(HTML+CSS+JavaScript)

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

【网页设计】HTML做一个属于我的音乐页面(纯html代码)

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

JAVA学习笔记- - - day 2

&#x1f495;前言&#xff1a;作者是一名正在学习JAVA的初学者&#xff0c;每天分享自己的学习笔记&#xff0c;希望能和大家一起进步成长&#x1f495; 目录 &#x1f495;前言&#xff1a;作者是一名正在学习JAVA的初学者&#xff0c;每天分享自己的学习笔记&#xff0c;希望…

15.变量的存储类别

变量的存储类别 内存的分区 1.内存&#xff1a;物理内存&#xff0c;虚拟内存。 虚拟内存&#xff1a;操作系统虚拟出来的的内存。 操作系统会再物理内存和虚拟内存之间做映射。 在32位系统下&#xff0c;每个进程的寻址范围是4G&#xff1a;0x00 00 00 00 ~ 0xff ff ff ff …

XSStrike工具使用说明

今天继续给大家介绍渗透测试相关知识&#xff0c;本文主要内容是XSStrike工具使用说明。 免责声明&#xff1a; 本文所介绍的内容仅做学习交流使用&#xff0c;严禁利用文中技术进行非法行为&#xff0c;否则造成一切严重后果自负&#xff01; 再次强调&#xff1a;严禁对未授权…

详解设计模式:工厂方法模式

工厂方法模式&#xff0c;又称工厂模式、多态工厂模式和虚拟构造器模式&#xff0c;通过工厂父类定义负责创建产品的公共接口&#xff0c;子类负责生产具体对象。可以理解为简单工程模式的升级&#xff0c;解决简单工厂模式的弊端。 &#xff5e; 本篇内容包括&#xff1a;关于…

CANdelaStudio-从入门到深入到实践目录

前文介绍诊断协议那些事儿专栏&#xff0c;为大家深入介绍了ISO 14229各个服务的基础知识、请求与响应的报文格式&#xff0c;详情可查看&#xff1a;诊断协议那些事儿&#xff0c;从本专题开始&#xff0c;将由浅入深的展开诊断实际开发与测试的数据库编辑&#xff0c;包含大量…