数据库系统概论第二章:关系模型、完整性与关系运算
数据库系统概论第二章关系模型、完整性与关系运算目录数据库系统概论第二章关系模型、完整性与关系运算前言一、关系的定义关系是笛卡尔积的有限子集1. 域2. 笛卡尔积3. 关系二、关系的基本性质1. 每一列来自同一个域2. 不同属性必须有不同属性名3. 元组不能重复4. 元组顺序无关5. 属性顺序理论上无关6. 每个分量必须是原子值三、关系的完整性数据必须满足的约束四、实体完整性主码不能取空值五、参照完整性外码必须引用已存在的对象六、用户定义完整性业务规则必须合法七、关系运算总览八、选择运算选出满足条件的行九、投影运算选出需要的列十、笛卡尔积连接运算的基础十一、连接运算按条件把两个关系拼起来十二、等值连接连接条件是相等比较十三、非等值连接连接条件不是相等比较十四、自然连接自动按同名属性相等连接并去掉重复列十五、象集理解除法的前置概念十六、除法运算查询“全部满足”的对象十七、用选课例子理解除法十八、除法和 SQL 的对应写法十九、几个关系运算的易混点1. 投影不是完整的 SELECT 语句2. 选择运算不是 SQL 的 SELECT3. 等值连接不等于自然连接4. 除法解决的是“全部”问题总结前言《数据库系统概论》第二章是关系数据库的基础章。后面 SQL、关系代数、数据库设计、规范化理论都要依赖这一章。这一章可以抓住三件事关系是什么关系不是普通表而是域的笛卡尔积的有限子集。关系必须满足什么约束实体完整性、参照完整性、用户定义完整性。关系怎么运算选择、投影、连接、除法等运算如何表达查询。如果只把关系理解成“表”会觉得第二章很简单但一到连接、象集、除法就容易卡住。下面按学习顺序整理。一、关系的定义关系是笛卡尔积的有限子集关系模型里的“关系”可以直观看成二维表但它的数学定义更严格关系 R 是若干域 D1, D2, ..., Dn 的笛卡尔积 D1 × D2 × ... × Dn 的有限子集。 即 R ⊆ D1 × D2 × ... × Dn这里有几个基础概念。1. 域域是一组具有相同类型的值的集合。例如学号域 {2024001, 2024002, 2024003, ...} 姓名域 {张三, 李四, 王五, ...} 系名域 {计算机系, 数学系, 外语系, ...}2. 笛卡尔积如果有多个域D1, D2, ..., Dn它们的笛卡尔积是所有可能组合的集合D1 × D2 × ... × Dn其中每个元素都是一个 n 元组(d1, d2, ..., dn)并且d1 ∈ D1, d2 ∈ D2, ..., dn ∈ Dn3. 关系关系就是从笛卡尔积中挑出来的一部分合法组合。例如Student(Sno, Sname, Dept)可以理解为Student ⊆ Sno域 × Sname域 × Dept域一个具体的关系值可以表示为SnoSnameDept2024001张三计算机系2024002李四数学系2024003王五计算机系这里Student是关系。每一行是一个元组。Sno、Sname、Dept是属性。每个单元格里的值是分量。Sno可以作为这个关系的码。二、关系的基本性质关系不是普通表格因为关系的本质是集合。它有几个重要性质。1. 每一列来自同一个域同一个属性下的所有分量必须来自同一个域。例如Age属性应该都取年龄值不能一行是20另一行是计算机系。2. 不同属性必须有不同属性名同一个关系中属性名不能重复。不能写成Student(Sno, Name, Name)否则无法区分两个Name的含义。但是不同属性可以来自同一个域。例如Course(Cno, Cname, TeacherName, AssistantName)TeacherName和AssistantName都可以来自“姓名域”但属性名不同语义不同。3. 元组不能重复关系是集合集合里不能有重复元素。所以同一个关系里不能出现两行完全相同的元组。4. 元组顺序无关关系中的元组没有先后顺序。下面两个关系在数学意义上是同一个关系SnoSname2024001张三2024002李四和SnoSname2024002李四2024001张三SQL 查询如果没有ORDER BY就不应该依赖返回顺序这和关系的集合性质有关。5. 属性顺序理论上无关关系模型中属性通过属性名识别而不是只靠列的位置识别。所以理论上Student(Sno, Sname, Dept)和Student(Dept, Sno, Sname)只要属性名和值对应清楚表达的是同一批信息。实际 SQL 中列顺序会影响SELECT *的显示结果但这是实现和显示层面的事情不是关系模型的核心。6. 每个分量必须是原子值关系中每个单元格只能存一个不可再分的值。下面这种设计不规范SnoSnamePhone2024001张三138xxx, 139xxx因为Phone里放了多个电话。更合适的设计是拆成Student(Sno, Sname) StudentPhone(Sno, Phone)这也是第一范式的基础思想。三、关系的完整性数据必须满足的约束关系的完整性就是数据库中数据必须满足的正确性约束。第二章重点是三类实体完整性 参照完整性 用户定义完整性可以先这样记实体完整性一行数据自己要能被唯一识别 参照完整性表和表之间引用要合法 用户定义完整性业务规则要合法四、实体完整性主码不能取空值实体完整性规定主码的属性不能取空值例如Student(Sno, Sname, Dept)如果Sno是主码那么下面这行不合法SnoSnameDeptNULL张三计算机系原因很直接主码用于唯一标识一个元组。主码为空就无法判断这行数据代表哪个学生。如果主码是组合码例如SC(Sno, Cno, Grade)主码是(Sno, Cno)那么Sno和Cno都不能为NULL。注意实体完整性不是说所有属性都不能空而是说主码属性不能空。普通属性能不能空要看业务规则。五、参照完整性外码必须引用已存在的对象参照完整性规定外码的取值要么为空要么等于被参照关系中某个主码值。例如学生选课数据库Student(Sno, Sname, Dept) Course(Cno, Cname, Credit) SC(Sno, Cno, Grade)其中SC.Sno 参照 Student.Sno SC.Cno 参照 Course.Cno也就是说选课表里的学生必须真实存在课程也必须真实存在。如果Student表中没有9999999这个学生那么下面这条选课记录不合法SnoCnoGrade9999999C0180如果Course表中没有C99这门课那么下面这条记录也不合法SnoCnoGrade2024001C9980外码本身可以为空但有两个前提业务语义允许为空。它不是主码的一部分。如果外码同时也是主码的一部分例如SC(Sno, Cno, Grade)中的Sno和Cno它们就不能空因为实体完整性要求主码非空。六、用户定义完整性业务规则必须合法用户定义完整性是具体应用场景里的业务约束。例如成绩必须在 0 到 100 之间 年龄必须大于 0 性别只能取指定枚举值 课程学分必须为正数 入学日期不能晚于毕业日期在 SQL 中常见实现方式包括CHECK、NOT NULL、UNIQUE、DEFAULT等。例如CREATETABLESC(SnoCHAR(10),CnoCHAR(10),GradeINTCHECK(Grade0ANDGrade100),PRIMARYKEY(Sno,Cno),FOREIGNKEY(Sno)REFERENCESStudent(Sno),FOREIGNKEY(Cno)REFERENCESCourse(Cno));这里PRIMARY KEY (Sno, Cno)体现实体完整性。FOREIGN KEY ... REFERENCES ...体现参照完整性。CHECK (Grade 0 AND Grade 100)体现用户定义完整性。七、关系运算总览关系运算可以分成两类传统集合运算并、差、交、笛卡尔积。专门关系运算选择、投影、连接、除法。常见符号如下运算符号直观含义选择σ选行投影π选列连接⋈按条件拼接两个关系除法÷查询“全部满足”的对象并∪合并两个关系差-从一个关系中去掉另一个关系的元组交∩取公共元组笛卡尔积×两个关系的所有元组组合下面重点讲容易混的运算。八、选择运算选出满足条件的行选择运算的符号是σ 条件 (R)它的作用是从关系 R 中选出满足条件的元组。例如σ Dept计算机系(Student)意思是选出计算机系的学生。对应 SQL 是SELECT*FROMStudentWHEREDept计算机系;注意教材里的“选择运算”对应 SQL 的WHERE不是 SQL 的SELECT关键字。九、投影运算选出需要的列投影运算的符号是π 属性列表 (R)它的作用是从关系 R 中选出若干属性列并去掉重复元组。例如π Dept(Student)如果Student是SnoSnameDept2024001张三计算机系2024002李四数学系2024003王五计算机系投影结果是Dept计算机系数学系注意结果里只有一个计算机系。因为关系代数基于集合重复元组会被消除。所以投影更严格地对应 SQLSELECTDISTINCTDeptFROMStudent;不是普通的SELECTDeptFROMStudent;因为 SQL 默认允许重复行。选择和投影经常组合使用π Sname (σ Dept计算机系(Student))含义是先选出计算机系学生再取这些学生的姓名。对应 SQLSELECTDISTINCTSnameFROMStudentWHEREDept计算机系;一句话记忆选择 σ选行对应 WHERE 投影 π选列对应 SELECT DISTINCT 列十、笛卡尔积连接运算的基础笛卡尔积的符号是R × S它会把R中的每个元组和S中的每个元组都组合一次。如果R有 3 行S有 4 行那么R × S 有 12 行例如StudentSnoSname2024001张三2024002李四CourseCnoCnameC01数据库C02操作系统Student × Course会得到SnoSnameCnoCname2024001张三C01数据库2024001张三C02操作系统2024002李四C01数据库2024002李四C02操作系统笛卡尔积本身通常不是最终查询结果但它是连接运算的基础。十一、连接运算按条件把两个关系拼起来连接可以理解为先做笛卡尔积再按连接条件筛选元组。一般形式是R ⋈ 条件 S更形式化地说R ⋈ 条件 S σ 条件 (R × S)根据条件不同可以分成等值连接、非等值连接和自然连接。十二、等值连接连接条件是相等比较等值连接就是连接条件中使用。例如Student ⋈ Student.Sno SC.Sno SC含义是把学生表和选课表按学号相等连接起来。对应 SQLSELECT*FROMStudentJOINSCONStudent.SnoSC.Sno;如果Student是SnoSname2024001张三2024002李四SC是SnoCnoGrade2024001C01902024001C02852024002C0178连接结果可以理解为Student.SnoSnameSC.SnoCnoGrade2024001张三2024001C01902024001张三2024001C02852024002李四2024002C0178注意等值连接结果中两个参与比较的属性通常都会保留。例如这里可能同时保留Student.Sno和SC.Sno。十三、非等值连接连接条件不是相等比较非等值连接就是连接条件中使用非等号比较例如, , , , !例如有两个关系Student(Sno, Sname, Age) AgeLevel(Level, MinAge, MaxAge)想查询每个学生属于哪个年龄段可以写Student ⋈ Student.Age AgeLevel.MinAge AND Student.Age AgeLevel.MaxAge AgeLevel对应 SQLSELECT*FROMStudentJOINAgeLevelONStudent.AgeAgeLevel.MinAgeANDStudent.AgeAgeLevel.MaxAge;这种连接不是按两个字段相等匹配而是按范围条件匹配。十四、自然连接自动按同名属性相等连接并去掉重复列自然连接的符号通常是R ⋈ S自然连接有两个关键规则1. 自动找出两个关系中的同名属性。 2. 要求同名属性取值相等并且结果中同名属性只保留一份。例如Student(Sno, Sname) SC(Sno, Cno, Grade)自然连接Student ⋈ SC等价于先按 Student.Sno SC.Sno 做等值连接 再去掉重复的 Sno 列结果是SnoSnameCnoGrade2024001张三C01902024001张三C02852024002李四C0178自然连接和等值连接的区别运算连接条件重复属性处理等值连接显式写出相等条件相等的两个属性通常都保留自然连接自动使用所有同名属性相等同名属性只保留一份实际 SQL 中也有NATURAL JOIN但工程实践中通常不推荐随意使用因为它会自动使用所有同名列。表结构一改连接语义可能悄悄变化。更安全的写法通常是SELECTStudent.Sno,Student.Sname,SC.Cno,SC.GradeFROMStudentJOINSCONStudent.SnoSC.Sno;十五、象集理解除法的前置概念象集是理解除法运算的关键。设关系R(X, Y)其中X和Y都可以是一组属性。对于某个xx在R中的象集就是R 中所有与 x 搭配出现过的 Y 值集合。用更直观的话说固定 X x看它对应了哪些 Y。例如选课关系SC(Sno, Cno)SnoCno2024001C012024001C022024002C012024003C012024003C022024003C03那么2024001 的象集 {C01, C02} 2024002 的象集 {C01} 2024003 的象集 {C01, C02, C03}象集本身不是查询结果里最常用的运算但它是理解“除法”的基础。十六、除法运算查询“全部满足”的对象除法运算最容易让初学者困惑。它的核心含义是找出那些对 S 中所有元素都满足关系 R 的对象。常见问题形式是查询选修了全部指定课程的学生。 查询供应了全部指定零件的供应商。 查询参加了全部指定项目的员工。这些问题都有“全部”这个关键词。设R(X, Y) S(Y)则R ÷ S得到的是那些X值并且这些X的象集包含S中的全部Y值。换句话说x ∈ R ÷ S 当且仅当 S 中每一个 y都有 (x, y) ∈ R十七、用选课例子理解除法关系SC(Sno, Cno)SnoCno2024001C012024001C022024002C012024003C012024003C022024003C03关系Need(Cno)CnoC01C02现在要求查询选修了 Need 中全部课程的学生。关系代数写成SC ÷ Need逐个看学生的象集2024001 的象集 {C01, C02} 2024002 的象集 {C01} 2024003 的象集 {C01, C02, C03}Need {C01, C02}。判断2024001的象集包含Need的全部课程所以满足。2024002只选了C01缺少C02不满足。2024003选了C01和C02还多选了C03仍然满足。所以Sno20240012024003除法不是要求“刚好等于”而是要求“至少包含”。多选了别的课程不影响结果。十八、除法和 SQL 的对应写法SQL 中没有直接的除法运算符通常用NOT EXISTS表达“没有一门必修课是这个学生没选的”。SELECTDISTINCTsc1.SnoFROMSCASsc1WHERENOTEXISTS(SELECT*FROMNeedASnWHERENOTEXISTS(SELECT*FROMSCASsc2WHEREsc2.Snosc1.SnoANDsc2.Cnon.Cno));这段 SQL 的逻辑是找学生 sc1.Sno 要求不存在这样一门 Need 课程 n 这个学生没有选 n也就是不存在“没选的必选课” 选了所有必选课这正是除法的语义。十九、几个关系运算的易混点1. 投影不是完整的 SELECT 语句投影对应的是 SQL 的列选择部分而且严格对应SELECT DISTINCT。π Dept(Student) ≈ SELECT DISTINCT Dept FROM Student;SQL 的完整SELECT语句还可以包含FROM、WHERE、GROUP BY、HAVING、ORDER BY等不等于投影本身。2. 选择运算不是 SQL 的 SELECT关系代数里的选择是选行对应 SQL 的WHERE。σ Dept计算机系(Student) ≈ WHERE Dept 计算机系3. 等值连接不等于自然连接等值连接只说明连接条件是相等。自然连接还要求自动按同名属性相等连接并且去掉重复的同名属性。4. 除法解决的是“全部”问题看到题目里有全部 所有 每一个就要考虑是否用除法。例如查询选修了全部课程的学生 查询供应了全部零件的供应商 查询参与了所有项目的员工这些都是典型除法语义。总结第二章可以压缩成一条学习主线关系的定义 ↓ 关系的性质 ↓ 关系的完整性 ↓ 关系运算其中最关键的理解是关系不是普通表而是笛卡尔积的有限子集。关系是集合所以元组不重复、行顺序无关、投影会消除重复。实体完整性保证主码非空参照完整性保证外码引用合法用户定义完整性保证业务规则合法。选择是选行投影是选列。连接可以理解成“笛卡尔积 条件筛选”。自然连接是特殊连接会自动按同名属性相等匹配并去掉重复列。象集是固定某个对象后它对应的另一组取值集合。除法用于表达“全部满足”的查询。只要把“关系是集合”这件事想清楚第二章的运算就不会只是符号记忆而会变成一套很自然的查询表达方法。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2572226.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!