数据分析案例-大数据相关招聘岗位可视化分析

news2025/8/9 2:18:27

数据集介绍

本次数据集来源于xx招聘网共计4223条招聘信息,每条招聘信息字段包括岗位名称、公司名称、工作经验要求、学历要求、工作地点、薪酬、公司规模、发布时间、公司福利共9条字段信息。

 数据预处理

首先导入本次数据集,

import pandas as pd
data = pd.read_csv('job_data.csv')
data.head()

查看数据缺失值情况,

data.isnull().sum()

 

通过缺失值情况,我们发现公司规模缺失值较多,而这个字段数据对于本次分析没有太大用处,故在这里直接删除这一列,对于其他少量缺失值,直接删除就好。

data.drop('公司规模',axis=1,inplace=True)
data.dropna(inplace=True)
data.shape

 

接着就是处理数据集中的字段信息,便于后面的数据可视化

# 处理工作经验要求
data['工作经验要求'] = data['工作经验要求'].replace(to_replace=
{'无需经验':'经验不限','经验在校/应届':'经验不限','1年经验':'1-3年','2年经验':'1-3年','经验1-3年':'1-3年',
'经验1年以下':'1-3年','3-4年经验':'3-5年','经验3-5年':'3-5年','5-7年经验':'5-10年','经验5-10年':'5-10年',
'8-9年经验':'5-10年','10年以上经验':'10年以上','经验10年以上':'10年以上'})
# 处理学历要求
data['学历要求'] = data['学历要求'].replace(to_replace={'大专':'专科及以下','高中':'专科及以下','不限':'专科及以下','中技/中专':'专科及以下'})
# 获取工作城市
data['工作城市'] = data['工作地点'].apply(lambda x:x.split('-')[0])
data['工作城市'] = data['工作城市'].apply(lambda x:x.split('·')[0])
def avg_salary(x):
    try:
        start = x.split('-')[0]
        end = x.split('-')[1]
        if end[-1] == '千':
            start_salary = float(start)*1000
            end_salary = float(end[:-1])*1000
        elif end[-1] == '万':
            if start[-1] == '千':
                start_salary = float(start[:-1])*1000
                end_salary = float(end[:-1])*10000
            else:
                start_salary = float(start)*10000
                end_salary = float(end[:-1])*10000
        elif end[-1] == 'k':
            start_salary = float(start[:-1])*1000
            end_salary = float(end[:-1])*1000
        elif end[-1] == '薪':
            salary_number = float(end.split('·')[1][:-1])
            if end.split('·')[0][-1] == '万':
                if start[-1] == '千':
                    start_salary = float(start[:-1])*1000/12*salary_number
                    end_salary = float(end.split('·')[0][:-1])*10000/12*salary_number
                else:
                    start_salary = float(start)*10000/12*salary_number
                    end_salary =  float(end.split('·')[0][:-1])*10000/12*salary_number
            elif end.split('·')[0][-1] == '千':
                start_salary = float(start)*1000/12*salary_number
                end_salary = float(end.split('·')[0][:-1])*1000/12*salary_number
        elif end[-1] == '年':
            end = end[:-2]
            if end[-1] == '万':
                if start[-1] == '千':
                    start_salary = float(start[:-1])*1000
                    end_salary = float(end[:-1])*10000
                else:
                    start_salary = float(start)*10000
                    end_salary = float(end[:-1])*10000
        return (start_salary+end_salary)/2
    except:
        return 10000
data['平均薪资'] = data['薪酬'].apply(avg_salary)
data.head()

 在这里,我把工作经验和学历要求进行了清洗整理,划分为固定的几个分类,然后提取了工作城市,以及处理了原始薪资数据(数据是真的很杂,需要花点时间来处理),最后得到平均薪资。

数据可视化 

先导入数据可视化需要用到的第三方包,

import pandas as pd
import matplotlib.pyplot as plt
from pyecharts.charts import *
from pyecharts import options as  opts 
from pyecharts.globals import ThemeType
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False

分析各工作经验要求占比

# 工作经验要求
df1 = data['工作经验要求'].value_counts()
a1 = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK))
a1.add(series_name='工作经验要求',
        data_pair=[list(z) for z in zip(df1.index.to_list(),df1.values.tolist())],
        radius='70%',
        )
a1.set_global_opts(title_opts=opts.TitleOpts(title="工作经验要求占比",
                    pos_left='center',
                    pos_top=30))
a1.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a1.render_notebook()

通过图表我们发现,除了10年以上,其他区间的经验要求占比相差不大,说明各个区间的经验要求需求岗位量大体相似。

 分析不同工作经验的岗位数量和薪资变化

x = ['经验不限','1-3年','3-5年','5-10年','10年以上']
bar =Bar()
bar.add_xaxis(x)
bar.add_yaxis('岗位数量',[399,724,870,535,27],label_opts=opts.LabelOpts(is_show=False))

bar.set_global_opts(
    title_opts=opts.TitleOpts('不同工作经验的岗位数量和薪资变化'),
    tooltip_opts=opts.TooltipOpts(is_show=True,trigger='axis',axis_pointer_type='cross'),
    xaxis_opts= opts.AxisOpts(type_='category',axispointer_opts=opts.AxisPointerOpts(is_show=True,type_='shadow'))
    )
bar.extend_axis(yaxis=opts.AxisOpts(
    name='月薪',min_=0,max_= 110000,
    interval = 10000
))
line = Line()
line.add_xaxis(x)
line.add_yaxis('平均薪资',[18468,17011,32701,40371,101429],yaxis_index=1,label_opts=opts.LabelOpts(is_show=False))
bar.overlap(line) # 合并图
bar.render_notebook()

通过图表,我们发现经验要求的需求量大体呈正态分布,薪酬是随着经验年限的增长而逐渐递增。

分析不同学历要求占比

# 学历要求
df2 = data['学历要求'].value_counts()
a2 = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK))
a2.add(series_name='学历要求',
        data_pair=[list(z) for z in zip(df2.index.to_list(),df2.values.tolist())],
        radius='70%',
        )
a2.set_global_opts(title_opts=opts.TitleOpts(title="学历要求占比",
                    pos_left='center',
                    pos_top=30))
a2.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a2.render_notebook()

通过图表我们发现,本科学历占据了65%,本科及以下共高达95%,对于学历这块,要求似乎要求不是很高。

分析不同学历要求的岗位数量和薪酬变化

x = ['专科及以下','本科','硕士','博士']
bar =Bar()
bar.add_xaxis(x)
bar.add_yaxis('岗位数量',[684,1753,109,9],label_opts=opts.LabelOpts(is_show=False))

bar.set_global_opts(
    title_opts=opts.TitleOpts('不同学历要求的岗位数量和薪资变化'),
    tooltip_opts=opts.TooltipOpts(is_show=True,trigger='axis',axis_pointer_type='cross'),
    xaxis_opts= opts.AxisOpts(type_='category',axispointer_opts=opts.AxisPointerOpts(is_show=True,type_='shadow'))
    )
bar.extend_axis(yaxis=opts.AxisOpts(
    name='月薪',min_=0,max_= 45000
))
line = Line()
line.add_xaxis(x)
line.add_yaxis('平均薪资',[11888,33784,44118,34148],yaxis_index=1,label_opts=opts.LabelOpts(is_show=False))
bar.overlap(line) # 合并图
bar.render_notebook()

 

随着学历的增长,薪资也在增长,这里博士学历应该是数据量太少导致出现了下滑异常,总体趋势肯定还是学历越高,薪资越高。

分析岗位需求量最高的前五名公司 

data['公司名称'].value_counts().head().plot(kind='barh')
plt.title('岗位需求量最高的前五名公司')
plt.show()

 岗位需求量大的公司貌似都集中在深圳北京等一线城市。

词云图可视化

先定义一个制作词云图的函数 

import jieba
import collections
import re
import stylecloud
from PIL import Image

# 封装一个画词云图的函数
def draw_WorldCloud(df,pic_name,color='black'):
    data =  ''.join([item for item in df])
    # 文本预处理 :去除一些无用的字符只提取出中文出来
    new_data = re.findall('[\u4e00-\u9fa5]+', data, re.S)
    new_data = "".join(new_data)
    # 文本分词
    seg_list_exact = jieba.cut(new_data, cut_all=True)
    result_list = []
    with open('停用词库.txt', encoding='utf-8') as f: #可根据需要打开停用词库,然后加上不想显示的词语
        con = f.readlines()
        stop_words = set()
        for i in con:
            i = i.replace("\n", "")   # 去掉读取每一行数据的\n
            stop_words.add(i)

    for word in seg_list_exact:
        if word not in stop_words and len(word) > 1:
            result_list.append(word)
    word_counts = collections.Counter(result_list)

    # 词频统计:获取前100最高频的词
    word_counts_top = word_counts.most_common(100)
    print(word_counts_top)

    # 绘制词云图
    stylecloud.gen_stylecloud(text=' '.join(result_list), 
                            collocations=False, # 是否包括两个单词的搭配(二字组)
                            font_path=r'C:\Windows\Fonts\msyh.ttc', #设置字体
                            size=800, # stylecloud 的大小
                            palette='cartocolors.qualitative.Bold_7', # 调色板
                            background_color=color, # 背景颜色
                            icon_name='fas fa-circle', # 形状的图标名称 
                            gradient='horizontal', # 梯度方向
                            max_words=2000, # stylecloud 可包含的最大单词数
                            max_font_size=150, # stylecloud 中的最大字号
                            stopwords=True, # 布尔值,用于筛除常见禁用词
                            output_name=f'{pic_name}.png') # 输出图片
    # 打开图片展示
    img=Image.open(f'{pic_name}.png')
    img.show()

接着使用岗位名称数据来进行词云图可视化,看看大数据相关岗位的情况

draw_WorldCloud(data['职位名称'],'大数据职位名称词云图')

通过词云图发现,大数据相关岗位大体主要分为数据分析、大数据开发、架构师等。

使用公司福利数据来词云图分析一下

draw_WorldCloud(data['公司福利'],'公司福利词云图')

 通过词云图看出,大数据相关岗位福利主要为各种奖金、补贴、培训等等。

通过热力地图分析各城市岗位分布

# 各城市岗位数量分布热力地图
df3 = data['工作城市'].value_counts()
city_data = city_data = [[x,y] if x[-3:] != '自治州' else [x,y] for x,y in zip(df3.index.to_list(),df3.values.tolist())]
map = Map()
map.add('地区',city_data,
    maptype='china-cities',
    label_opts=opts.LabelOpts(is_show=False))
map.set_global_opts(
    title_opts=opts.TitleOpts('各城市岗位数量分布'),
    visualmap_opts=opts.VisualMapOpts(max_=500,min_=1)
)
map.render(path='各城市岗位数量分布.html')
map.render_notebook()

 

通过热力地图我们看出,大数据岗位在上海,北京、深圳等城市需求量较高 。(热力地图如在手机端无法查看可用PC端打开查看)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34178.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Cent Browser+Aria2+Bilibili Envolved下载b站视频--保姆级安装步骤

1 使用前准备 Cent Browser百分浏览器下载&#xff1a;https://www.centbrowser.cn/加强版谷歌浏览器&#xff0c;chrome内核。 Tempermonkey&#xff1a;https://chrome.zzzmh.cn/info/dhdgffkkebhmkfjojejmpbldmpobfkfo Aria2&#xff1a;https://github.com/aria2/aria2/re…

外汇天眼:多位支持加息放缓!美元走弱黄金上涨

黄金小时图 黄金方面&#xff1a; 周三&#xff08;11月23日&#xff09;晚间&#xff0c;黄金短线下挫至1728美元之后快速收回。 美联储11月的会议纪要显示&#xff0c;尽管通胀前景风险上行&#xff0c;但大多数的与会者认为尽早放缓加息是合适的&#xff0c;利率正在接近足…

哪些岗位需要考CDMP/CDGA/CDGP证书?

大数据时代&#xff0c;数据成为社会和组织的宝贵资产&#xff0c;像工业时代的石油和电力一样驱动万物。假如数据的真实性、可用性大打折扣&#xff0c;那么数据的价值将会大大折扣&#xff0c;甚至根本不可用&#xff0c;不敢用。因此&#xff0c;数据治理是大数据时代我们用…

把报文再扔回内核,DPDK这样做

在DPDK中经常看到一个词&#xff0c;exception path&#xff0c;它是什么&#xff1f; 在DPDK使用环境中&#xff0c;物理网卡收到的报文不再进入内核协议栈&#xff0c;而是直接到达DPDK应用。但是在有些场景中&#xff0c;用户希望把报文&#xff08;如控制报文&#xff09;…

iTOP3A5000_7A2000开发板龙芯全国产处理器LoongArch架构核心主板

主要参数 处理器: 龙芯3A5000 主频: 2.3GHz-2.5GHz 桥片: 7A2000 内存: 8GB、16GB DDR4带ECC纠错&#xff08;配置可选&#xff09; 系统: Loongnix 典型功耗: 35W 核心板: 16层 底板: 4层 核心板参数 尺寸: 125*95mm CPU: 龙芯四核3A5000处理器 主频: 2.3GHz-2.5GHz 桥片…

101个CV模型集体开源,魔搭社区视觉AI深度解析

作者&#xff1a;谢宣松 达摩院开放视觉智能团队 11月3日&#xff0c;在2022云栖大会上&#xff0c;阿里达摩院联手 CCF 开源发展委员会共同推出了 AI 模型社区“魔搭”ModelScope&#xff0c;旨在降低 AI 的应用门槛。 AI 模型较为复杂&#xff0c;尤其是要应用于行业场景&…

前后端分离项目,vue+uni-app+php+mysql在线考试系统设计与实现(H5移动项目)

功能介绍 用户首次登陆系统需要注册一个用户或直接使用微信作为账号&#xff0c;用户在登录平台后&#xff0c;可以进行平台的操作。主要模块包括以下几点&#xff1a; 注册登录功能&#xff1a;注册普通账号登录&#xff1b;也可以直接使用微信登录&#xff1b;登录后可以修改…

python学习——numpy库的使用[超详细的学习笔记]

目录 前言 1 导入及查看版本信息 2 数组的创建 2.1 基础数据类型转换为数组 2.2 数组内置方法 2.2.1 np.arange() 线性序列数组 2.2.2 np.linspace() 等差数组 2.2.3 np.logspace() 等比数组 2.2.4 np.zeros() 全零的数组 2.2.5 np.ons() 全一的数组 float型 2.2.6 np.zeros_…

浅谈数商云供应链协同系统物流管理功能在医疗器械行业的作用

近年来&#xff0c;我国医疗器械行业发展快速&#xff0c;但医疗器械物流作为医疗器械供应链中承上启下的重要环节&#xff0c;目前仍处于相对传统和粗放的发展阶段。随着国家经济的发展及人民对医疗健康需求的不断增加&#xff0c;医疗器械供应链与物流的升级已是大势所趋。 …

程序员在平台兼职接单,月入30K,方法我全写出来了!(附接单渠道和注意事项)

本月兼职的收入又到账了&#xff0c;程序员副业实在是太香了&#xff01; 虽然这点小钱还远远达不到财富自由&#xff0c;也比不上那些真正的大佬&#xff0c;但在这个行业寒冬里&#xff0c;能有一笔相对稳定的收入&#xff0c;作为全职之外的补充&#xff0c;还是让人倍感踏实…

海棉结构sponge construction

海棉结构&#xff0c;或称海绵哈希&#xff0c;是当前密码学中一种重要构造结构&#xff0c;如当前sha-3采用的即是海绵结构。 海绵结构是一类具有有限内部状态的算法&#xff0c;可以将任意有限长的输入消息变成任意长度输出的消息摘要&#xff0c;其结构如下&#xff0c;其中…

docker-network网络

docker network网桥 作用&#xff1a;实现主机和容器之间可以通过网桥相互通信。 定义 正常不指定网络的情况下。所有的应用都跑在一个网桥上,影响其他应用的交互、网络传输。一般都是一个应用使用一个网桥&#xff0c;容器之间互通&#xff0c;则进行容器间通信的配置&…

粉丝提问:26想转行做Python开发,是不是已经晚了?

前言 26岁基本上是一个硕士研究生刚毕业的年纪&#xff0c;相当于本科毕业工作了2年&#xff0c;总体来说时间耽误的并不算太多&#xff0c;想转行做Python开发&#xff0c;不算太晚&#xff01; &#xff08;文末送读者福利&#xff09; 1、转行前先想清楚这5点&#xff01…

【vue.js】使用高德地图选择省市区后,再点击确认当前选择的位置

成品展示 前期准备 先去高德开放平台申请一个web端的key。 2022年后申请的key&#xff0c;必须和它生成的secret一起使用。 可使用服务选择web端 在vue项目中&#xff0c;可以通过直接引入js文件&#xff0c;也可以安装vue-amap等插件使用。 使用 安装官方的js API 插件 …

数据治理系列:数仓建模之数仓主题与主题域

背景&#xff1a; 数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的、集成的、稳定的、反应历史变化的数据集合&#xff0c;用于支持管理者的决策过程。 从上面的引言里面&#xff0c;我们其实可以知道主题在数仓建设里面绝对是很重要的一环&#xff0c;这的确是的。…

警惕,11月这6本期刊已被剔除SCI/SSCI

2022年11月22日晚&#xff0c;科睿唯安更新了Web of Science核心期刊目录&#xff0c;SCIE/SSCI期刊数据库剔除(Dropped)或停止检索(Ceased)了6本期刊&#xff0c;被剔除的6本期刊中&#xff0c;有4本期刊是信息更改&#xff0c;其中1本期刊更改了名称和ISSN号&#xff0c;2本期…

S4 image save:save_image_lzo函数分析

save_image_lzo函数分析 save_image_lzo在S4中运行&#xff0c;运于保存image数据&#xff0c;函数的调用逻辑如下&#xff1a; hibernate()->swsusp_write()->save_image_lzo()1. 基本流程 该函数实现了S4中内核image压缩的功能&#xff0c;大致流程如下图所示&#…

35+程序员该怎么办?有哪些破局方法?

在互联网行业一直有一种说法&#xff0c;如果35岁还没到管理岗&#xff0c;基本就是被裁的命运了。作为互联网行业的主力军&#xff0c;程序员的职业发展&#xff0c;也被人总结成&#xff0c;三年升高工、七年做架构、十年送外卖。虽然是个段子&#xff0c;也透露了大家对于年…

Python列表类型详解

今天继续给大家介绍Python相关知识&#xff0c;本文主要内容是Python列表类型 一、列表类型定义与创建 在Python中&#xff0c;列表类型是序列类型的一种&#xff0c;也是一种非常重要、非常常用的数据类型。列表使用方括号[]或list()函数创建&#xff0c;列表中的元素使用逗…

如何转变固定资产管理方式,让企业降本增效?

作为企业资产的重要组成部分&#xff0c;固定资产管理直接影响到企业的运营和核心的支出。固定资产的科学管理是企业管理者很关心问题。传统的纸质表格固定资产管理方式&#xff0c;通常是企业在成立之初采取的方式。因为成立之初企业需要节省成本&#xff0c;而且资产数量和种…