Datawahle组队学习——妙趣横生大数据 Day1

news2025/7/20 14:07:15

妙趣横生大数据 Day1

  • [妙趣横生大数据 Juicy Big Data](https://datawhalechina.github.io/juicy-bigdata/#/?id=妙趣横生大数据-juicy-big-data)
    • 一、大数据概述
      • 大数据——第三次信息化浪潮
      • 大数据概念
      • 大数据应用
      • 大数据关键技术
    • 二、Hadoop
      • 背景
      • 介绍
      • 特性
      • 项目架构
    • 实验
        • 1. 准备工作
        • 2. 安装jdk
        • 3. 安装 openssh
        • 4. 安装 hadoop
      • 一、伪分布式安装
          • 1. 修改`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`这4个文件
          • 2. 格式化分布式文件系统
          • 3. 测试
      • 二、集群模式安装
          • 1. 修改、`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`这4个文件
          • 2. hadoop workers文件配置,编辑/etc/hosts文件,创建公钥并拷贝公钥
          • 3. 格式化分布式文件系统
          • 4. 测试

妙趣横生大数据 Juicy Big Data

Datawhale[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oJrzSM8H-1676443816587)(null)]大数据技术相关内容的导论课程:妙趣横生大数据 Juicy Big Data Day1


一、大数据概述

大数据——第三次信息化浪潮

信息化浪潮时间标志解决的问题
第一次浪潮1980个人计算机信息处理
第二次浪潮1995互联网信息传输
第三次浪潮2010物联网、云计算和大数据信息爆炸
  1. 大数据的价值不在于数据本身,而在于数据所反映问题的真实性和科学性。

  2. 数据的采集存储只是大数据运用的第一阶段,更关键的是对数据的分析、利用,达到发现新知识、创造新价值的效果。

大数据概念

4V

  • 数据量大(Volume) :物联网普及,传感器、摄像头产生的海量数据
  • 数据类型多(Variety):生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等;结构化数据(10%)和非结构化数据(90%)
  • 处理速度快(Velocity):为快速分析海量数据,新兴的大数据分析技术通常采用集群处理和独特的内部设计
  • 价值密度低(Value):价值密度却远远低于传统关系数据库中已经有的数据

大数据应用

领域大数据的应用
金融行业大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用
互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性的广告投放
餐饮行业利用大数据实现餐饮O2O模式,彻底改变传统餐饮的经营方式
生物医学大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘

大数据关键技术

  1. 大数据是数据和大数据技术这二者的综合

  2. 大数据技术,是指伴随着大数据的采集、传输、处理和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

  3. 从数据分析全流程的角度,大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。


二、Hadoop

背景

搜索:

  1. Lucene:工具包,在目标系统中实现全文检索的功能

  2. Nutch:建立在Lucene核心之上的网页搜索应用程序,开箱即用。站内检索–>全球网络搜索

搜索对象“体积”不断增大:

  1. 分布式文件存储系统(NDFS,Nutch Distributed File System):为了存储海量搜索数据而设计的专用文件系统,基于google的GFS

  2. MapReduce编程模型:大规模数据集(大于1TB)的并行分析运算

介绍

HadoopHDFS(Hadoop Distributed File System) + MapReduce

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。

特性

  • 高可靠性、高容错性:冗余数据存储方式
  • 高效性分布式存储和分布式处理两大核心技术,高效地处理PB级数据
  • 高可扩展性
  • 成本低:廉价的计算机集群
  • 运行在Linux平台上
  • 支持多种编程语言

项目架构

  • Common:为其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库
  • Avro:用于数据库序列化的系统
  • HDFS:分布式文件系统
  • HBase:列式数据库,一般采用HDFS作为其底层数据存储
  • Pig:一种数据流语言和运行环境
  • Sqoop:改进数据的互操作性,主要用来在Hadoop和关系数据库之间交换数据
  • Chukwa:数据收集系统
  • Zookeeper:一个为分布式应用所涉及的开源协调服务

实验

1. 准备工作

# 创建容器
docker run --name=hadoop ubuntu /bin/bash
# 添加用户,赋予权限
useradd zym -m -d /home/zym -s /bin/bash
passwd zym
usermod -aG sudo zym

2. 安装jdk

wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie"  http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz
sudo tar -xzvf /data/hadoop/jdk-8u131-linux-x64.tar.gz -C /opt

在这里插入图片描述

sudo mv /opt/jdk1.8.0_131/ /opt/java
sudo chown -R zym:zym /opt/java

在这里插入图片描述

修改系统环境变量

sudo vim /etc/profile
# 1. 添加java环境变量
# 2. 激活使环境变量生效
source /etc/profile
# 3. 查看版本
java -version

请添加图片描述

请添加图片描述

3. 安装 openssh

# 更新apt,并安装文本编辑器、SSH服务和screen服务
apt-get update && apt-get install -y vim openssh-server screen && rm -rf /var/lib/apt/lists/*

查看是否安装成功

service ssh start
# 设置 ssh 服务开机自启
echo 'service ssh start'>>~/.bashrc

SSH登录权限设置
请添加图片描述

解决方法:将容器内22端口和宿主机内端口完成映射即可。

教你如何修改运行中的docker容器的端口映射的三种方式_docker修改端口映射_是阿俏同学吖的博客-CSDN博客

4. 安装 hadoop

hadoop国内镜像站点:Index of /apache/hadoop/common/hadoop-3.3.1 (tsinghua.edu.cn)

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
sudo tar -xzvf hadoop-3.3.1.tar.gz -C /opt/
sudo mv /opt/hadoop-3.3.1/ /opt/hadoop
sudo chown -R zym:zym /opt/hadoop
sudo vim /etc/profile
1. 添加以下内容
#hadoop
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
2. 激活,查看版本
source /etc/profile
hadoop version

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cJZVaiCm-1676443808236)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230213161119633.png)]

修改hadoop-env.sh文件配置

vim etc/hadoop/hadoop-env.sh
# 追加
export JAVA_HOME=/opt/java/

测试

mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[a-z.]+'
cat output/*

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y1NtDreq-1676443808237)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230213161542965.png)]


一、伪分布式安装

1. 修改core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml这4个文件

详细见 [第二章:Hadoop (datawhalechina.github.io)](https://datawhalechina.github.io/juicy-bigdata/#/ch2 Hadoop?id=_2335-hadoop伪分布式安装)

2. 格式化分布式文件系统
hdfs namenode -format
/opt/hadoop/sbin/start-all.sh
3. 测试

输入jps命令可以查看Java进程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0Ag6ejr3-1676443808237)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230213164451118.png)]

执行wordcount程序, 测试

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6JwXlFUp-1676443808238)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230213164927253.png)]


二、集群模式安装

此处我将实验一伪分布式安装的docker容器commit为了镜像,用来构建子节点。 还可以直接search有Hadoop的镜像,或者直接编写dockerfile Task01 详读第1、2章Hadoop内容 (plutos.org.cn)

1. 修改、core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml这4个文件

详细见 [第二章:Hadoop (datawhalechina.github.io)](https://datawhalechina.github.io/juicy-bigdata/#/ch2 Hadoop?id=_2335-hadoop伪分布式安装)

2. hadoop workers文件配置,编辑/etc/hosts文件,创建公钥并拷贝公钥
# 1. 修改hadoop workers文件配置
vim /opt/hadoop/etc/hadoop/workers
# 2. 编辑/etc/hosts文件
sudo vim /etc/hosts
# 3. 创建公钥并拷贝公钥
ssh-keygen -t rsa
ssh-copy-id master
# 4. 修改文件权限
chmod 700 /home/zym/.ssh
chmod 700 /home/datawhale/.ssh/*
3. 格式化分布式文件系统
hdfs namenode -format
/opt/hadoop/sbin/start-all.sh
4. 测试

输入jps命令可以查看主节点和两个从节点的Java进程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tqLhDOq2-1676443808238)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230215135803073.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1urxGPFP-1676443808239)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230215135829861.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IG5aAGlr-1676443808239)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230215135849535.png)]

执行wordcount程序, 测试

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ciSn2epR-1676443808239)(C:\Users\ZYM\AppData\Roaming\Typora\typora-user-images\image-20230215140200578.png)]


遇到的问题汇总:

  1. Docker内22端口无法访问:

    解决方法:将容器内22端口和宿主机内端口完成映射即可。

    教你如何修改运行中的docker容器的端口映射的三种方式_docker修改端口映射_是阿俏同学吖的博客-CSDN博客

  2. 安装 hadoop 太慢

    hadoop国内镜像站点:Index of /apache/hadoop/common/hadoop-3.3.1 (tsinghua.edu.cn)

  3. DataNode 不显示
    Hadoop中DataNode没有启动

    log目录:/opt/hadoop/logs/hadoop-zym-datanode-df735624a7d9.log
    ​VERSION参考查询目录:/tmp/hadoop-datawhale/dfs/data/current/VERSION


Datawhale[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oJrzSM8H-1676443816587)(null)]大数据技术相关内容的导论课程:妙趣横生大数据 Juicy Big Data

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/347077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomcat 配置IPV6

文章目录一、场景二、tomcat开启ipv6三、ipv6环境配置四、访问总结一、场景 我们在linux下安装一个tomcat,启用ipv6的方式,然后在windows下用浏览器访问这个tomcat 二、tomcat开启ipv6 在server.xml配置文件的里面加上 address”[::]” ,这…

选择排序、快速排序、插入排序等经典八大算法稳定性分析

选择排序、快速排序、插入排序等经典八大算法稳定性分析稳定性定义:各排序算法的稳定性:一、冒泡排序二、选择排序三、插入排序四、快速排序五、归并排序六、希尔排序(shell)七、基数排序 :八、堆排序常用排序算法对比稳定性定义:…

代码的简单设计五原则

欢欢:“你看我的代码用了策略模式和状态模式,假如后面客户会有这样的需求,可以无缝扩展,多么健壮!” 清扬一脸狐疑,心中念叨了数遍 :“哼,过度设计!”,只见她…

APISpace 带你一起走进西湖美景

俗话说:“上有天堂,下有苏杭”。 “欲把西湖比西子,浓妆艳抹总相宜” 今天我就带大家走进杭州的西湖美景。自古以来,文人歌者面对西湖美景留下千古绝句,还以西湖为背景书写了一段段动人的爱情传说。 天生自带浪漫色…

医学生考研考博太卷,一篇文章轻松助力上岸——生物信息学及R语言基础知识之向量的运算(二)

考研考博太卷了,卷不过,想没想过本科发一篇文章呢? 330分考研人淘汰390分考研人这个故事,大家应该都知道吧。 本专栏带你六个月内,搞定一篇文章,本科生发文章也很容易。 在卷考研的同时,再卷一篇SCI,你就是新一任卷王。 本专栏教你不用花钱发一篇生信文章,从三个方…

态库、静态库之间的相互嵌套

本文的目的是测试各种类型库的编译后的使用效果,包括库又链接其他库的编译方法,使用方法,依赖性等。 太长不看版:请跳至文章最后的总结对比表。 一、内容包含: ①静态库libbb.a依赖静态库libaa.a的测试; …

学会分享,学会生活,分享5款简单易用的软件。

分享是一种博爱的心境,学会分享,就学会了生活。 1.在线图片编辑工具——佐糖 佐糖是一款在线免费图片编辑工具,采用AI人工智能技术,自动识别图片,支持一键抠图,更换背景,移除水印等。另外还提…

【向每个应用View中增加子控件 Objective-C语言】

一、把刚才计算九宫格的思路再给大家过一遍 1.现在我们要计算九宫格坐标 1)先把每一个格子,每一个九宫格的大小,先确定了, 在这里先指定宽和高 CGFloat appW = 75; CGFloat appH = 90; 2)再去计算第一个格子的一些间距, 到上面的间距,marginTop = 30; 再计算出…

别再花钱买 Chatgpt 资源了,这里有免费的,2 分钟上手

最近无论是打开社交网站,还是朋友圈,就连中午吃个饭都能听到大家都在聊 ChatGPT,仿佛如果这一刻你不懂这是个啥玩意儿,你就会觉得自己完全搭不上他们的话... 那ChatGPT 是什么? 百度上是这样解释的: ChatG…

最全的免费录屏工具,这 19 款录屏软件绝对值得你收藏

屏幕录制软件可让您捕获屏幕以与他人共享,创建与产品相关的视频、教程、课程、演示、视频等。这些软件是您能够从网络摄像头和屏幕录制视频。以下是精选的顶级屏幕录像机列表。 适用于 PC 的19 款免费录屏屏幕录像机软件 1)奇客免费录屏 奇客免费录屏&am…

2023家用投影仪怎么选?极米H5值得推荐

如今不管是手机还是电视都在不断向大屏幕靠近,消费者也在追求越来越大的屏幕尺寸。同时作为提升生活幸福指数的重要家居用品,投影仪正逐渐取代电视,成为消费者的首选。随着国内智能投影行业的不断发展,市面上智能投影产品也越来越…

Allegro移动器件时附带的孔和线被同步更改的原因和解决办法

Allegro移动器件时附带的孔和线被同步更改的原因和解决办法 用Allegro做PCB设计的时候,移动器件的时候,会出现附带的孔和线也会被同步更改,有时并不是期望的效果,如下图 Allegro其实将这个功能关闭即可,具体操作如下 选择Edit点击Move命令

Vulnhub 渗透练习(二)—— BILLU: B0X

环境下载 下载链接 环境搭建 直接用 vmware 打开,设为 NAT 模式。 信息收集 nmap 扫描 主机扫描: nmap -sP 192.168.200.0/24端口扫描: nmap -sV 192.168.200.129 开了一个 80 端口 apache 服务,和 ssh 服务,后…

时间轮算法概念

概述 在一些中间件中我们经常见到时间轮控制并发和熔断。 那么这个时间轮具体是什么呢,又是怎么使用的呢。 简介 其实时间轮可以简单的理解成我们日常生活中的时钟。 时钟里的指针一直在不停的转动,利用这个我们可以实现定时任务,目前lin…

c入门数的编程 拆数,构造数,c语言字符找出数字拼接,水仙花数 将一个多位数各位拆分

学会构造数和拆分数 目录 学会构造数和拆分数 1:一个三位数,求其各位数字之和 补充:将一个多位数各位拆分求和,(不知道位数怎么求) 2:串中取数(字符转数字) 3&#…

大数据之-Nifi-Nifi的应用场景1_创建并配置getfile处理器---大数据之Nifi工作笔记0004

来说一下nifi的应用场景,首先添加一个GETFILE处理器 添加以后设置处理器名称 设置处理器属性 getfile处理器的属性解释 这个加黑的是必须要选择的,非加黑的可以先不进行选择 这里我们只是设置这个input directory就可以了

是面试官放水,还是公司实在是太缺人?这都没挂,华为原来这么容易进...

华为是大企业,是不是很难进去啊?” “在华为做软件测试,能得到很好的发展吗? 一进去就有9.5K,其实也没有想的那么难” 直到现在,心情都还是无比激动! 本人211非科班,之前在字节和腾…

PMP是不是要考第七版了?

现在确实已经到第七版了,但是第六版还是需要学习的,就是结合两个版本去备考,新考纲把很多内容都缩减了,增加了敏捷管理的内容,但是第六版有很多详细的解析,所以如果你想稳一点,那么两个版本都需…

win10本地连接Xftp7时,压缩文件命名乱码解决方案

win10本地连接Xftp7时,压缩文件命名乱码解决方案1.问题如下图所示:2.解决方案如下: (1)如上所展示的问题,是因为所默认选则的语言是中文,计算机直接编译返回。 (2)修改属性中的选项中的编码语言&#xff0c…

Spring的概述

Spring框架是为解决企业应用开发的复杂性而诞生,它简化了Java应用开发,提高了应用开发的可测试性和可重用性。 Spring的核心理念是控制反转(IoC),其通过依赖注入(DI)的方式来实现控制反转。 Ja…