Python数据分析及可视化中常用的6个库及函数(二)
摘要:以下是Python数据分析及可视化常用的6个库的详细介绍,包括它们的概述以及每个库中最常用的10个函数(如果某些库常用函数不足10个,则列出所有常用函数)。每个函数都附带功能描述、用法说明和使用示例。这些库在数据科学、机器学习和数据可视化领域被广泛使用。
1. NumPy
- 概述:NumPy 是 Python 中用于科学计算的基础库,提供多维数组对象和各种数学函数,支持高效的数值运算。
1.1 常用函数:
-
numpy.array()
功能:创建一个 NumPy 数组。
用法:numpy.array(object, dtype=None)
,object
是输入数据(如列表、元组),dtype
是数据类型。
示例:import numpy as np data = [1, 2, 3, 4] arr = np.array(data) print(arr) # 输出: [1 2 3 4]
-
numpy.mean()
功能:计算数组的平均值。
用法:numpy.mean(a, axis=None)
,a
是输入数组,axis
指定计算平均值的轴。
示例:import numpy as np arr = np.array([1, 2, 3, 4]) avg = np.mean(arr) print(avg) # 输出: 2.5
-
numpy.sum()
功能:计算数组元素的总和。
用法:numpy.sum(a, axis=None)
,a
是输入数组,axis
指定求和的轴。
示例:import numpy as np arr = np.array([1, 2, 3, 4]) total = np.sum(arr) print(total) # 输出: 10
-
numpy.reshape()
功能:改变数组的形状。
用法:numpy.reshape(a, newshape)
,a
是输入数组,newshape
是新的形状。
示例:import numpy as np arr = np.array([1, 2, 3, 4, 5, 6]) reshaped = np.reshape(arr, (2, 3)) print(reshaped) # 输出: [[1 2 3] [4 5 6]]
-
numpy.zeros()
功能:创建一个全零数组。
用法:numpy.zeros(shape, dtype=float)
,shape
是数组形状,dtype
是数据类型。
示例:import numpy as np arr = np.zeros((2, 3)) print(arr) # 输出: [[0. 0. 0.] [0. 0. 0.]]
-
numpy.ones()
功能:创建一个全一数组。
用法:numpy.ones(shape, dtype=float)
,shape
是数组形状,dtype
是数据类型。
示例:import numpy as np arr = np.ones((2, 3)) print(arr) # 输出: [[1. 1. 1.] [1. 1. 1.]]
-
numpy.random.rand()
功能:生成均匀分布的随机数(0到1之间)。
用法:numpy.random.rand(d0, d1, ...)
,d0, d1, ...
是数组的维度。
示例:import numpy as np rand_arr = np.random.rand(2, 3) print(rand_arr) # 输出: 2x3 的随机数数组
-
numpy.std()
功能:计算数组的标准差。
用法:numpy.std(a, axis=None)
,a
是输入数组,axis
指定计算标准差的轴。
示例:import numpy as np arr = np.array([1, 2, 3, 4]) std_dev = np.std(arr) print(std_dev) # 输出: 1.118033988749895
-
numpy.max()
功能:返回数组中的最大值。
用法:numpy.max(a, axis=None)
,a
是输入数组,axis
指定查找最大值的轴。
示例:import numpy as np arr = np.array([1, 2, 3, 4]) max_val = np.max(arr) print(max_val) # 输出: 4
-
numpy.min()
功能:返回数组中的最小值。
用法:numpy.min(a, axis=None)
,a
是输入数组,axis
指定查找最小值的轴。
示例:import numpy as np arr = np.array([1, 2, 3, 4]) min_val = np.min(arr) print(min_val) # 输出: 1
2. Pandas
- 概述:Pandas 是一个强大的数据分析和操作库,提供 DataFrame 和 Series 数据结构,适用于数据清洗、分析和处理。
2.1 常用函数:
-
pandas.read_csv()
功能:从 CSV 文件读取数据并创建 DataFrame。
用法:pandas.read_csv(filepath, delimiter=',')
,filepath
是文件路径,delimiter
是分隔符。
示例:import pandas as pd df = pd.read_csv('data.csv') print(df.head()) # 输出数据的前5行
-
pandas.DataFrame.groupby()
功能:按指定列对数据进行分组,并可应用聚合函数。
用法:DataFrame.groupby(by)
,by
是分组依据的列名。
示例:import pandas as pd data = {'Name': ['Alice', 'Bob', 'Alice'], 'Score': [85, 90, 88]} df = pd.DataFrame(data) grouped = df.groupby('Name').mean() print(grouped) # 输出: 按Name分组的平均分
-
pandas.DataFrame.describe()
功能:生成数据的描述性统计信息(如均值、标准差)。
用法:DataFrame.describe()
示例:import pandas as pd data = {'Score': [85, 90, 88, 92]} df = pd.DataFrame(data) stats = df.describe() print(stats) # 输出: Score列的统计信息
-
pandas.DataFrame.fillna()
功能:用指定值填充数据中的缺失值。