大数据开发--1.1大数据概论

news2024/10/13 22:47:38

目录

一.大数据的概念

什么是大数据?

二. 大数据的特点

三. 大数据应用场景

四. 大数据分析业务步骤

大数据分析的业务流程:

五.大数据职业规划

职业方向

岗位技术要求

六. 大数据学习路线


一.大数据的概念

什么是大数据?

  • 数据
    世界的本质是数据
            --大数据研究专家维克托·迈尔-世恩伯格博士
  • 大数据定义
         大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。
  • 大数据处理的数据量有多大?
    (2的10次方)
    目前的大数据应用,数据量主要集中在PB/EB级别
  • 大数据解决什么问题?
         海量数据存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
         海量数据运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

二. 大数据的特点

  • 大数据的特点可以使用5个字来概括:

                               结构化:文字、数字。
                               非结构化:图片、音频、视频。
                               半结构化:json。

三. 大数据应用场景

  • 行业领域

四. 大数据分析业务步骤

  • 大数据的应用场景--大数据让借贷更放心
          在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
         借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
         借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
         (逻辑回归、人物画像)
  • 大数据的应用场景-大数据让广告营销更高效
         广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
         在广告的投放期间,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
         在广告投放的中后期,通过实时的数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

                落地的产品,但是大数据不做这些,算法团队来做个性化推荐,大数据杀熟

        通过型的算法有:spark(MLlib),贝叶斯,效果非常的差。所以要自己写算法。

  • 大数据的应用场景--大数据让新媒体更懂你
         短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频。

         头条平台会根据你的浏览历史推荐你喜欢或者关注的内容。

大数据分析的业务流程:

五.大数据职业规划

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
    flink+kafka,sparksreaming+kafka
  • 数据仓库工程师
    Hive脚本开发(Hive开发工程师)
  • ETL开发工程师
  • BI开发工程师
    数据分析,Python+fineBI,tableau
  • 数据挖掘工程师
    算法
  • 数据架构师
    5年起步

职业方向

岗位技术要求

六. 大数据学习路线

  1. Linux系统
    (大数据的所有组件都是在Linux环境下搭建的)
  2. 编程语言
  3. 大数据框架
    (核心框架:Hadoop、Hive、Spark、Kakfa、Hbase)

    大数据工具:
         zookeeper
         Hadoop(MapReduce、hdfs)
         Hive
         azkaban:调度工具
         impala
         HBASE
         Phoenix
         Redis
         elasticsearch
         logstash
         kibana
         hue
         oozie
         spark
         flink
         kafka
         clickhouse
         DS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2185140.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【北京迅为】《STM32MP157开发板嵌入式开发指南》- 第十六章 Linux 第一个程序 HelloWorld

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

LC记录二:丑数专题,一文秒解丑数3题

文章目录 263.丑数1264.丑数21201.丑数3 263.丑数1 https://leetcode.cn/problems/ugly-number/description/ 简单题,丑数只包含质因子2、3、5。所以直接使用 n 循环 除 2 3 5最后判断结果是否等于1即可。 代码: class Solution {public boolean isUg…

01_SQLite

文章目录 ** SQLite 存储各类和数据类型 **** SQLite 五种亲缘类型** SQLite 创建数据表删除数据表插入数据信息从数据表中获取数据,以结果表的形式返回数据(结果集)updatedistinctorder bygroup byhaving触发器删除一个触发器(tr…

计网问答大题(期末复习)

计网总结笔记 概述 互联网的 2 个重要基本特点:连通性,资源共享 从互联网的工作方式上看,可以划分为两大块: •边缘部分: 由所有连接在互联网上的主机组成,由用户直接使用,用来进行通信&…

并查集【数据结构与算法】【C语言版-笔记】

目录 一、需求分析二、并查集三、代码实现3.1 Find函数3.2 Union函数3.3 优化13.4 终极优化2---压缩策略 一、需求分析 假设有n个互不相交的集合 ◼问题1:给定某个集合中的一个元素,查找该元素属于哪个集合? ◼问题2:如何合并两个…

建筑业挂靠行为的防范建议

在建筑行业中,挂靠行为的普遍存在给许多企业带来了法律风险和信誉风险。为了防范这些风险,企业需要采取一系列有效的措施。 一、加强资质管理 企业应当通过合法途径获取和提升自身的资质等级,避免因资质不足而产生挂靠的需求。加强资质管理是…

【半导体物理基础】第1章 半导体中的电子状态和能带,晶格结构,有效质量

目录 1.1 半导体晶格结构和结合性质 固体的种类 典型晶体 元素半导体 几种晶胞结构 晶向指数与晶面 半导体的晶体结构 金刚石结构 金刚石结构的结晶学原胞 硅、锗相关参数 硅、锗相关参数计算 闪锌矿结构 纤锌矿结构 氯化钠型结构 1.2 半导体中的电子状态和能带…

Study-Oracle-10-ORALCE19C-RAC集群搭建

一路走来,所有遇到的人,帮助过我的、伤害过我的都是朋友,没有一个是敌人。 ORACLE --RAC 搭建理念:准备工作要仔细,每个参数及配置都到仔细核对。环境准备完成后,剩下的就是图像化操作,没啥难度,所以图形化操作偷懒不续写了。 一、硬件信息及配套软件 1、硬件设置 RAC…

客厅落地台灯怎么摆放?五款客厅落地台灯款式分享

客厅落地台灯怎么摆放?客厅落地台灯是提升光线环境在室内光线质量的关键设备。但如果不慎购买到低质量的客厅落地台灯,可能会导致光线效果不佳,进而影响视力健康。因此,挑选一个可靠的品牌至关重要。那么,客厅落地台灯…

ubuntu 18.04 cuda 11.01 gpgpu-sim 裸机编译

1,环境 ubuntu 18.04 x86_64 cuda 11.01 gpgpu-sim master commit 90ec3399763d7c8512cfe7dc193473086c38ca38 2,预备环境 一个比较新的 ubuntu 18.04,为了迎合 cuda 11.01 的版本需求 安装如下软件: sudo apt-get instal…

Thinkphp/Laravel基于vue的的出版社书籍阅读管理系统

目录 技术栈和环境说明具体实现截图设计思路关键技术课题的重点和难点:框架介绍数据访问方式PHP核心代码部分展示代码目录结构解析系统测试详细视频演示源码获取 技术栈和环境说明 采用PHP语言开发,开发环境为phpstudy 开发工具notepad并使用MYSQL数据库…

netty之NettyClient半包粘包处理、编码解码处理、收发数据方式

前言 Netty开发中,客户端与服务端需要保持同样的;半包粘包处理,编码解码处理、收发数据方式,这样才能保证数据通信正常。在前面NettyServer的章节中我们也同样处理了;半包粘包、编码解码等,为此在本章节我们…

Pikichu-xss实验案例-通过xss获取cookie

原理图: pikachu提供了一个pkxss后台; 该后台可以把获得的cookie信息显示出来; 查看后端代码cookie.php:就是获取cookie信息,保存起来,然后重定向跳转到目标页面;修改最后从定向的ip&#xff0…

PTH 实验

1. 实验网络拓扑 kali: 192.168.72.128win2008: 192.168.135.129 192.168.72.139win7: 192.168.72.149win2012:(DC) 192.168.72.131 2. EXPLOIT 0x0. NTLM hash计算脚本 python3 -c import hashlib,binascii; print (binascii.hexlify(hashlib.new("md4", "…

基于51单片机的3路电压测量-proteus仿真

地址:https://pan.baidu.com/s/1PG2vzudc1QKHGSBfjPF0eQ 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectron…

Leecode热题100-84.柱状图中的最大矩形

给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 示例 1: 输入:heights [2,1,5,6,2,3] 输出:10 解释:最大的矩形为图…

SQL SERVER 从嫌弃存储到爱上存储过程我给存储过程开发了版本控制工具和远程调试功能...

优缺点 SQL SERVER 爱上存储过程我给存储过程开发了版本控制工具和远程调试功能 先说说 存储过程的优缺点吧存储过程的优点 提高执行效率:存储过程是预编译的,执行速度较快,减少了网络传输量。 减少开发工作量:存储过程可以将复杂…

删除GitHub仓库的fork依赖 (Delete fork dependency of a GitHub repository)

解除fork仓库依赖的原因 在 Fork 了一个仓库,进行了大量修改,导致与父仓库的功能差异很大。 在每次 Pull Request 的默认目标分支是父仓库,很容易就会 PR 到父仓库里。 Fork 的仓库被其他人提出贡献并使用了,但不能显示贡献者…

【Python报错已解决】TypeError: not enough arguments for format string

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

国庆普及模拟2总结

目录 题目链接: 官方题解: 概述: 总结反思: 题目 T1: 题目分析: 错误代码: 错因: AC代码: T2: 题目分析: 赛时代码&#xf…