概述
数据的概念:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。
数据类型:文本、图片、音频、视频
从数据的结构化程度来看可以分为:
- 结构化数据
- 半结构化数据
- 非结构化数据

 数据生命周期:创建、发布利用、修改、归档/销毁
 数据的使用:1. 数据清洗、2.数据管理、3. 数据分析

OLTP:联机事物处理,高并发且数据量级不大的查询,是主要用于管理事物的系统
 OLAP:联机事物分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果
 ETL:抽取、转换、加载,是数据获取的重要手段,需要知道具体格式
 ELT:ETL的时间成本和吞吐量限制(堵塞),导致ETL这种数据加工的方式不能满足于现在的企业发展需要
 把Transform(转换)和Load(加载)拆开,这样处理数据的部分就专心计算就行了,搬运数据的部分就专心搬运
大数据定义
大数据是大到无法通过现有手段在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息
| V | 描述 | 
|---|---|
| Volume | 规模大,达到难以处理 | 
| Variety | 类型多,多到难以处理 | 
| Velocity | 速度快,快到难以处理 | 
| Value | 有价值,价值密度稀疏 | 
| Veracity | 真实性,数据质量有保障 | 
科学研究的四范式
- 实验
- 理论
- 计算
- 数据
大数据技术属性






![[000-01-025].第07节:WorkBench](https://i-blog.csdnimg.cn/direct/aac292dbb9e143bfb1ed6e3217fed953.png)












