4v特点
volume(体量大)
velocity(处理速度快)
variety(数据类型多)
value(价值密度低)
核心设计理念
并行化
规模经济
虚拟化
分布式系统满足需求

系统架构





大数据处理流程
采集数据

结构化数据:可用二维表表示
非结构化数据:声音、图像、视频
半结构化数据:xml文档
- 爬虫采集数据
scrapy


- 感知设备数据采集


- 分布式数据采集系统









- 系统架构





- 定向数据采集




- 采集算法类型







- 网络数据采集

模型层:从数据库中获取相关的数据
控制层:负责处理用户的请求
视图层:负责把数据显示在页面上





处理数据




- 数据清洗









整个数据集来看是离群点;
从邻域来看是离群点;



- 数据集成


- 数据转换







- 数据归约


- 数据处理任务



大数据相关技术

2、分布式处理技术

大数据处理方法

- 分类步骤




- 聚类步骤


- 关联分析任务




OLAP(联机分析处理)


大数据计算框架


批处理系统


MapReduce处理过程


流处理系统


流处理模式



混合处理系统





大数据应用框架

- 通用大数据应用架构

- 混搭大数据应用架构


大数据框架技术


- 日志收集器fluentd




数据挖掘技术

- 学习类型


















































