大数据零基础学习day1之环境准备和大数据初步理解

news2025/6/12 23:05:10

学习大数据会使用到多台Linux服务器。

一、环境准备

1、VMware

基于VMware构建Linux虚拟机

  • 是大数据从业者或者IT从业者的必备技能之一
  • 也是成本低廉的方案
    所以VMware虚拟机方案是必须要学习的。

(1)设置网关

打开VMware虚拟机,点击编辑,找到虚拟网络编辑器。
VMware
点击VMware8,将VMware8的网卡的相应信息进行更改,
网段:192.168.88.0
网关:192.168.88.2
在这里插入图片描述

(2)下载镜像

我们需要下载对应的操作系统的安装文件,点击官网就可以直接点击自己电脑需要的版本进行下载了。
在这里插入图片描述

(3)安装镜像

打开虚拟机,点击创建新的虚拟机。
在这里插入图片描述

选择典型,继续下一步

在这里插入图片描述

如下图所示,找到刚刚下载的镜像文件地址,点击下一步。

在这里插入图片描述

自定义账号和密码

在这里插入图片描述

选择虚拟机存放的位置,自定义或者是系统默认都可以。

在这里插入图片描述
选择磁盘大小

在这里插入图片描述
点击完成
在这里插入图片描述
进入到虚拟机的安装中。
在这里插入图片描述

二、数据导论

1、数据是什么?

数据:一种可以被鉴定的对客观事件进行记录的符号。
简单来说就是:对人类的行为及产生的事件的一种记录。

2、数据的价值

数据的价值:数据的背后都会隐藏着巨大的价值,丰富的数据支撑可以让我们更好的了解,事和物在现实世界的运行规律。

大数据技术栈对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系。

三、大数据的诞生

大数据的诞生和信息化以及互联网的发展是密切相关的。

早期的计算机(上世纪70年代之前)
大多数是互相独立的,各自处理各自的数据。

上世纪70年代后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但大多数是军事、科研等用途。

上世纪90年代以后,全球互联的互联网出现。
个人、企业均可参与其中,真正逐步的实现了全球互联。

在2000年后,互联网上的商业行为剧增,现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增。

剧增的数据量,和赢弱的单机性能,让许多的科技公司开始尝试以数量来解决问题。在这个过程中,分布式处理技术诞生了。

分布式处理技术——在数据量巨大的基础下,以服务器的数量来解决大规模数据处理问题。

大规模服务器集群下的大规模数据存储(存)

大规模服务器集群下的大规模数据计算(用)

大规模服务器集群下的大规模数据传输技术(传)

在2008年之前,这些在当时较为“高端”的分布式技术基本上还处于大企业内部专用且不够成熟。

在2008年,Apache Hadoop开源,广大企业拥有了成熟的、开源的、分布式数据处理解决方案。

基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。

Apache Hadoop是一款开源的分布式处理技术栈为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术
  • 基于Hadoop MapReduce的:分布式数据计算技术
  • 基于Hadoop YARN的:分布式资源调度技术

Apache Hadoop的出现具有非常重大的意义:

  • 为业界提供了“第一款”企业级开源大数据分布式技术解决方案。
  • 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现。

四、大数据的概述

1、什么是大数据?

狭义的(技术思维的):大数据是一类技术栈,是一种用来处理海量数据的软件技术体系

  • 通过大数据的诞生,我们可以发现:大数据的出现,本质上是为了解决海量数据的处理难题。
  • 大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值

广义的:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能

  • 海量的数据:数字时代人人联网,日常活动产生数据记录是海量的,背后蕴含的价值也是巨大的。
  • 基础设施:大数据在技术上,是数字化时代的基础设施。数字化时代的发展离不开大数据技术的支撑。
  • 生活:警务、政务、电商。。。

2、大数据的特征

大数据有5个主要特征,称之为:5V特性

(1)Volume:体积(数据体量大)

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别起步

(2)Varity:种类(来源多样化)

  • 种类:结构化、半结构化、非结构化
  • 来源:日志文本、图片、音频、视频

(3)Value:价值(低价值密度)

  • 信息海量但是价值密度低
  • 深度复杂的挖掘分析需要机器学习参与

(4)Velocity:速度(速度快)

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

(5)Veracity:质量(数据的质量)

  • 数据的准确性
  • 数据的可信赖度

3、大数据的核心工作

大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

  • 数据存储:可以妥善存储海量待处理数据
  • 数据计算:可以从海量数据中计算出背后的价值
  • 数据传输:协助在各个环节中完成海量数据的传输

五、大数据软件生态

大数据软件生态:数据存储、数据计算、数据传输

1、数据存储

  • Apache Hadoop - HDFS

Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术。

  • Apache HBase

Apache HBase 是大数据体系内使用非常广泛的NoSQL KV型数据库技术,HBase是基于HDFS之上构建的分布式系统。

  • Apache KUDU

Apache KUDU 同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件

除此以外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等。

2、数据计算

  • Apache Hadoop -MapReduce

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献。

  • Apache Hive

Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术
Apache Hive至今仍活跃在大数据一线,被许多公司使用。

  • Apache Spark

Apache Spark是目前全球范围内最火热的分布式计算引擎。是大数据体系中的明星产品。

  • Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

3、数据传输

  • Apache Kafka

Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品。

  • Apache Pulsar

Apache Pulsar同样是一款分布式的消息系统,在大数据领域同样有非常多的使用者。

六、Hadoop的概述

1、什么是Hadoop?

Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

  • 分布式数据存储
  • 分布式数据计算
  • 分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃以成千上万台服务器节点上协调工作。
个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

2、Hadoop的功能

通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件:HDFS组件、MapReduce组件、YARN组件。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2407790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路

进入2025年以来,尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断,但全球市场热度依然高涨,入局者持续增加。 以国内市场为例,天眼查专业版数据显示,截至5月底,我国现存在业、存续状态的机器人相关企…

为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?

在建筑行业,项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升,传统的管理模式已经难以满足现代工程的需求。过去,许多企业依赖手工记录、口头沟通和分散的信息管理,导致效率低下、成本失控、风险频发。例如&#…

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)

服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述:iview使用table 中type: "index",分页之后 ,索引还是从1开始,试过绑定后台返回数据的id, 这种方法可行,就是后台返回数据的每个页面id都不完全是按照从1开始的升序,因此百度了下,找到了…

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…

Opencv中的addweighted函数

一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制&#xff0…

ESP32读取DHT11温湿度数据

芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架,相比 MapReduce 具有以下核心优势: 内存计算:数据可常驻内存,迭代计算性能提升 10-100 倍(文档段落:3-79…

汽车生产虚拟实训中的技能提升与生产优化​

在制造业蓬勃发展的大背景下,虚拟教学实训宛如一颗璀璨的新星,正发挥着不可或缺且日益凸显的关键作用,源源不断地为企业的稳健前行与创新发展注入磅礴强大的动力。就以汽车制造企业这一极具代表性的行业主体为例,汽车生产线上各类…

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …

HTML 列表、表格、表单

1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…

深入理解JavaScript设计模式之单例模式

目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…

【机器视觉】单目测距——运动结构恢复

ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛&#xf…

蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块&#xff0c;用户不点击提交按钮&#xff0c;只要输入框失去焦点&#xff0c;就会提前提示验证码是否正确。 一&#xff0c;模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…