一、数据仓库和数据挖掘概述
1.1 数据仓库的产生
- 数据仓库与数据挖掘: 
  
- 数据仓库和联机分析处理技术(存储)。
 - 数据挖掘:在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。
 
 - 数据仓库用于决策分析: 
  
- 数据仓库:是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,并不是‘大型数据库’。
 - 数据仓库与数据库的区别:
 
 
| 数据库 | 数据仓库 | 
|---|---|
| 事务处理 | 决策分析 | 
| 保持事务处理的当前状态 | 保存过去和当前的数据 | 
| 大量数据库的集成 | 
1.2 数据挖掘的基本概念
 
-  
数据挖掘定义:
- 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
 - 几层含义: 
    
- 数据:真实、大量、含噪声。
 - 发现的是用户感兴趣的知识。
 - 发现的知识:可接受、可理解、可运用。
 - 不要求发现全部的知识,仅对特定的问题。
 
 
 - 数据挖掘的一个过程

 -  
数据挖掘的功能
- 关联分析(描述) 
    
- 反映一个事件和其他事件之间依赖或关联的知识。
 - 广泛用于:购物篮、事务数据分析。
 
 - 聚类分析(描述) 
    
- 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
 - 找出数据集中的共性与差异,将具有共性的对象聚合在相应的类中。
 - 无指导的观察室学习,没有预先定义的类
 
 - 分类挖掘(预测) 
    
- 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法) 
      
- 类别:特征联系,决策树
 
 - 有指导的事例式学习,有预先定义的类
 - 过程:分析训练集中数据,为每个类别建立分类分析模型;用这个分类分析模型对DB中的其他记录进行分类。
 - 聚类与分类的区别:
 
 - 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法) 
      
 - 孤立点分析 
    
- 对差异和极端特例的描述。
 - 孤立点:事物偏离常规的异常现象。
 - 没有孤立点分析算法。
 - 异常检测:通过构建正常行为模型(特征描述),来检测与特征描述严重偏离的新的模式。
 
 
 - 关联分析(描述) 
    
 
二、数据仓库的基本概念
2.1概念
数据仓库(Data Warehouse)是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库
2.2数据仓库的两个主要作用
-  
存储经过加工处理的决策需要的数据
 -  
查询决策分析的依据
 
2.3数据仓库的关键特征
- 面向主题(从面向应用到面向主题)

 - 集成的(需要使用数据清洗、数据继承来处理数据)

 - 随时间而变化的(只进行两种数据访问:数据的初始装载、查询操作)

 - 不容易丢失的(包含时间元素)
 
2.4为什么要建立数据仓库
- 事务型处理(DB): 
  
- 日常事务处理
 - 处理细 节 信 息
 
 - 分析型处理(DW): 
  
- 用于管理员的决 策 分 析
 - 处理宏 观 信 息
 
 - 区别
 

2.5数据仓库与数据挖掘的关系
- 区别: 
  
- 数据仓库:存储技术,提供对不同决策的数据和信息。
 - 数据挖掘:分析技术,从数据中挖掘信息。
 
 - 联系: 
  
- 成功的数据挖掘:通过访问正确的、完整的、集成的数据,进行深层次的分析。
 - 数据仓库并不是数据挖掘的必要条件: 
    
- DM不一定建立在DW之上,DW不是实施DM的必要条件。
 - 在开发DW过程中所进行的数据集成、清洗、准备,才使得DW对DM有重要的价值。
 
 
 
2.6数据立方体
1. 概念分层(单个维)
- 定义:定义一个映射序列,将低层概念映射到更一般的高层概念中。
 - 比如:在城市->省份->国家->州,维度中,我们可以从中选取一个维度进行考查。
 
2.方体的格(维的集合)
- 定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体。
 - 0维方体:存放最高层的汇总,顶 点 方 体
 - 最底层汇总:基 本 方 体
 

2.7 数据仓库的三级模型
1.概念模型:
- 首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。
 - 数据仓库的第一层、最高层
 - 数据仓库用信 息 包 图表示概念模型。
 - 信息包图

 
eg:确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。
 
2.逻辑模型:
- 数据仓库第二层
 - 三种表示:星型、雪花模型、事实星座模型。
 - 几个基本概念: 
  
- 维:视角、观点;eg:时间维度、产地维度。
 - 维表:每一维都有一个表与之对应。
 - 事实:数字度量。
 - 事实表:事实的名称或度量、以及每个相关维表的关键字。
 
 - 星型模型 
  
-  
事实表在中心,周围围绕地连接维表。

 - 通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型
 
 -  
 - 雪花模型 
  
-  
相当于增加了外键,维护表与表的关系,减少了冗余。

 
 -  
 - 事实星座模型 
  
- 对主题的数据仓库,需要多个事实表共享维表。

 
 - 对主题的数据仓库,需要多个事实表共享维表。
 
3.物理模型:
- 定义:是逻辑模型在数据仓库中的实现。
 - 主要进行:数据存储结构、存储策略、索引策略、存储分配优化。
 - 两种常见的存储结构: 
  
- 分布式存储 
    
- 物理上分布、逻辑上统一。
 
 - 集中式存储 
    
- 通过FC(光纤通信)交换机来直接访问所有数据,而不需要其它节点。
 
 
 - 分布式存储 
    
 
2.8DW的设计
- 数据仓库设计与数据库设计的区别(** )

 - DW设计的原则 
  
- 以数据驱动为中心,数据驱动和需求驱动相结合
 - 数据驱动:根据当前数据基础和质量进行数据源分析
 - 需求驱动:根据业务方向需求进行调整。
 
 



















