大数据导论与Linux基础

news2025/7/27 4:26:00

目录标题

      • 什么是数据
      • 数据分析方向
      • 数据分析步骤
      • 分布式与集群
      • 操作系统
      • 虚拟机
      • ssh协议
      • Linux常用操作

什么是数据

数据:指对官方事件进行记录并可以鉴别的符号
数据如何产生:对客观事物的计量和记录产生数据

数据分析方向

数据分析在企业日常分析中三大方向:

  • 现状分析(当下数据):现阶段的整体情况,各个部分的构成占比、发展、变动

  • 原因分析(过去数据):某一现状为什么发生,发生原因,调整优化

  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

  • 离线分析:面向过去,面向历史,分析已有的数据。在时间维度明显成批次性变化。一周一分析(T+7)一天一分析(T+1),也叫批处理

  • 实时分析:所谓的实时是指数据产生到数据分析到数据应用的时间间隔很短,可细分秒级别

  • 机器学习:基于历史数据和当下产生的实时数据预测未来发生的事情(分类

  • 聚类、关联、预测等)

数据分析步骤

  1. 明确分析目的和思路,统计分析方法
  2. 数据收集(业务数据、日志数据、爬虫数据,互联网公开数据)
  3. 数据处理:数据清洗、数据转化、数据提取、
  4. 数据分析
  5. 数据展示
  6. 报告撰写

大数据5V特征:数据体量大、种类多、低价值密度、速度块、数据质量

分布式与集群

分布式:多台机器:每台机器上部署不同组件
集群:多台机器,每台机器上部署相同组件

如何存储?
单机存储瓶颈,多台机器分布式存储

如何计算?
单机计算瓶颈,多台机器分布式计算

操作系统

操作系统OS,是管理计算机硬件与软件资源的程序
没有操作系统的机器称之为裸机
操作系统也提供一个让用户与系统交互的操作界面

虚拟机

“云”:硬件资源的虚拟化
NMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等

快照:拍好照后,可以在适合时间恢复到快照状态
可以任何快照之间进行跳转,但三个节点组成的集群要一起进行快照跳转

ssh协议

SSH 是Secure Shell 的缩写,是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议

Linux中,SSH主要是用户加密实现远程登录,服务器之间的免密登录
SSH中采用非对称加密,两个密钥:公开密钥,和私有密钥
公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密
在这里插入图片描述
支持SSH协议的软件:FinalShell、Putty、xshell等
下载安装FinalShell:
在这里插入图片描述

Linux常用操作

tab键自动补全
ls 显示目录文件
ls -a 显示所有文件
ls -l 显示详细信息
cd 切换目录
cd …/ 切换上级目录
mkdir 创建目录
mkdir -p aa/bb
touch 创建空文件
rm 删除文件或者目录
rm -f 1.txt 强制删除
history显示历史记录
cp 复制、移动文件
cat 小文件的查看
more、tail
管道命令|
命令1 | 命令2 :将命令1的结果当时命令2的输入,再执行
tar 打包解包
data 显示日期和时间
free 显示内存情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/368267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

taobao.top.oaid.client.decrypt( 端侧OAID解密 )

¥开放平台免费API不需用户授权 解码OAID(Open Addressee ID),返回收件人信息。该接口用于客户端直接查看订单隐私数据,解密数据不经过ISV服务器,且包含风控等安全检测。 公共参数 请求地址: HTTP地址:http://gw.api.ta…

async和await用法理解和快速上手 , 同步任务和异步任务顺序安排和轻松理解 , js代码执行顺序表面知道

学习关键语句 : async , await 用法 await 怎么使用 同步任务和异步任务 微任务和宏任务 js中代码执行顺序 写在前面 虽然说 async 和 await 是 Promise 的语法糖 , 但是用惯了Promise 的人(我) , 还真不能超快速使用上这个语法糖 , 所以赶紧写一篇文章出来让各位了解了解这个…

【金三银四系列】Spring面试题-下(2023版)

Spring面试专题 1.介绍下Spring的初始化过程 Spring的初始化过程中会走refresh方法,这是个模板模式的实现,包含有如下的14个方法 每个方法的相关作用 把每个方法的作用按照这个图介绍下就可以了 2.配置文件的加载解析 Spring初始化的时候在obtainFresh…

内存管理框架---页(一)

文章目录物理内存的模型非一致内存访问--NUMA一致内存访问模型--UMA内存管理架构页页框管理页描述符页描述符字段flags字段详解gfp_mask 标志获得页alloc_pages__get_free_pages获得填充为0的页释放页kmallocvmalloc参考资料你用心写的每一篇文章,可能会带别人和自己…

【华为OD机试模拟题】用 C++ 实现 - 选座位(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 分积木(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 吃火锅(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - RSA 加密算法(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 构成的正方形数量(2023.Q1) 【华为OD机试模拟…

特征向量中心度(eigenvector centrality)算法原理与源码解析

前言 随着图谱应用的普及,图深度学习技术也逐渐被越来越多的数据挖掘团队所青睐。传统机器学习主要是对独立同分布个体的统计学习,而图深度学习则是在此基础上扩展到了非欧式空间的图数据之上,通过借鉴NLP和CV方向的模型思想,衍生…

供应商关系有哪些类型?如何优化管理?

供应商关系有两种主要类型。识别你与供应商的关系类型将有助于你有效地管理期望和调整目标。 1、垂直供应商关系 在垂直供应商关系中,供应链以卖方和买方之间的传统方式联系起来。各方都把重点放在确保个人和供应链目标的实现上。垂直供应商关系的例子包括分销商…

JVM面试总结

文章目录栈帧中存放的信息:对象的创建过程对象的内存布局?对象的访问定位方式?如何判断对象已死?可以作为GC Root的点:谈一下引用对象再被回收时如何逃脱?回收方法区如何判断常量是否废弃?垃圾回…

IMX Yocto SDK 拉取报错误fatal: Could not read from remote repository

IMX 平台Yocto SDK拉取步骤拉取步骤可以在NXP官方yocto指导文档里查看,这里再贴一次,然后针对的讲可能遇到的问题。1,首先下载repo。repo是谷歌开发的一款python小程序。是基于GIT工作的,可以批量拉取,合并多个代码仓库…

Springboot 使用thymeleaf 服务器无法加载resources中的静态资源异常处理

目录一、异常错误二、原因三、解决方法方法1. 将无法编译的静态资源放入可编译目录下方法2. 重新编译项目加载资源方法3. 修改pom.xml资源配置文件方法4. 不连接远程数据库启动,使用本地数据库一、异常错误 Springboot使用thymeleaf,并连接远程数据库启…

Vue3电商项目实战-商品详情模块5【14-商品详情-数量选择组件、15-商品详情-按钮组件、16-商品详情-同类推荐组件】

文章目录14-商品详情-数量选择组件15-商品详情-按钮组件16-商品详情-同类推荐组件14-商品详情-数量选择组件 目的:封装一个通用的数量选中组件。 大致功能分析: 默认值为1可限制最大最小值点击-就是减1 点击就是加1需要完成v-model得实现存在无label情况…

如何构建以应用为核心的运维体系

在微服务的架构模式下,我们的运维视角一定转到应用这个核心概念上来,一切要从应用的角度来分析和看待问题。 微服务架构一般都是从单体架构或分层架构演进过来的。软件架构服务化的过程,就是我们根据业务模型进行细化的过程,在这…

并发编程学习篇并发线程池底层原理详解与源码分析

一、线程池与线程对比 package bat.ke.qq.com.threadpool;import java.util.ArrayList; import java.util.List; import java.util.Random;/**** 使用线程的方式去执行程序*/ public class ThreadTest {public static void main(String[] args) throws InterruptedException {…

为Webpack5项目引入Buffer Polyfill

前言 最近在公司的一个项目中使用到了Webpack5, 然而在使用某个npm包的时候,出现了Buffer is not defined 这个问题,原因很明显了,因为浏览器运行时没有Buffer这个API,所以需要为浏览器引入Buffer Polyfill. Webpack5…

如何制定达人营销策略

如今,达人营销不再是一个新兴趋势,而是公司整个数字营销战略的一部分。虽然十年前,达人还不存在,但随着公司对数字化营销依赖度地提升,各个领域的大V群体逐渐壮大,越来越多的公司已经采用了达人营销策略。如…

JavaScript 库

文章目录JavaScript 库JavaScript 框架(库)jQueryPrototypeMooTools其他框架CDN -内容分发网络引用 jQuery使用框架JavaScript 库 JavaScript 库 - jQuery、Prototype、MooTools。 JavaScript 框架(库) JavaScript 高级程序设计…

界面控件DevExtreme的Data Grid组件——让业务信息管理更轻松!

DevExtreme拥有高性能的HTML5 / JavaScript小部件集合,使您可以利用现代Web开发堆栈(包括React,Angular,ASP.NET Core,jQuery,Knockout等)构建交互式的Web应用程序,该套件附带功能齐…

【阿旭机器学习实战】【35】员工离职率预测---决策树与随机森林预测

【阿旭机器学习实战】系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流。 本文的主要任务是通过决策树与随机森林模型预测一个员工离职的可能性并帮助人事部门理解员工为何离职。 目录1.获取数据2.数据预处理3.分析数据3.…

Python之正则表达式细讲

文章目录前言一、行定位符二、元字符三、限定符四、字符类五、排除字符六、选择字符七、转义字符八、分组九、正则表达式语法总结前言 在处理字符串时,经常会有查找符合某些复杂规则的字符串的需求。比如用爬虫批量抓取某网站图片,要从抓下来的网页信息中…

【AI写作】 机器人流程自动化 介绍 - Robotic Process Automation (RPA) Introduction

写一篇文章介绍RPA技术,未来的发展。使用markdown格式,有3级索引,超过3000字。 某位大师说过的: 任何行业、任何部门都有大量的场景,涉及重复、有规则逻辑的工作,都可以用 RPA 开发一个软件机器人帮助完成。 文章目录 机器人过程自动化(RPA)简介RPA的定义RPA的好处Robo…