【PostgreSQL数据分析实战:从数据清洗到可视化全流程】5.3 相关性分析(PEARSON/SPEARMAN相关系数)

news2025/5/9 20:28:12

👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路


文章大纲

  • 5.3 相关性分析(PEARSON/SPEARMAN相关系数)
    • 5.3.1 相关性分析理论基础
      • 5.3.1.1 相关系数定义与分类
      • 5.3.1.2 Pearson相关系数( Pearson Correlation Coefficient)
        • 数学定义
        • 适用条件
      • 5.3.1.3 Spearman相关系数(Spearman Rank Correlation Coefficient)
        • 数学定义
        • 适用条件
      • 5.3.1.4 核心区别对比
    • 5.3.2 PostgreSQL实战环境搭建
      • 5.3.2.1 数据准备
      • 5.3.2.2 自定义函数实现
        • 1. Pearson相关系数计算函数
        • 2. Spearman相关系数计算函数
    • 5.3.3 实证分析:成绩与阅读时长的相关性
      • 5.3.3.1 数据提取与预处理
      • 5.3.3.2 Pearson相关分析
        • 数学与语文成绩相关性
        • 数学成绩与阅读时长相关性
      • 5.3.3.3 Spearman相关分析
        • 转换为秩次数据(以数学成绩为例)
        • 计算Spearman相关系数
      • 5.3.3.4 结果对比表
    • 5.3.4 异常值影响分析
      • 5.3.4.1 构造含异常值数据集
      • 5.3.4.2 重新计算相关系数
    • 5.3.5 最佳实践与注意事项
      • 5.3.5.1 方法选择指南
      • 5.3.5.2 PostgreSQL优化技巧
      • 5.3.5.3 业务应用场景
    • 5.3.6 总结与扩展
      • 5.3.6.1 核心价值
      • 5.3.6.2 后续实践建议

5.3 相关性分析(PEARSON/SPEARMAN相关系数)

在数据分析领域,相关性分析是探索变量间关系的核心技术。

  • 通过量化变量间的关联程度,我们可以识别关键影响因素、验证研究假设并为建模提供依据。
  • PostgreSQL作为强大的关系型数据库,不仅支持高效的数据存储,还能通过自定义函数和扩展实现复杂的统计分析。
  • 本章将深入解析Pearson和Spearman两种核心相关系数的原理、适用场景及在PostgreSQL中的实战应用。
    在这里插入图片描述

5.3.1 相关性分析理论基础

5.3.1.1 相关系数定义与分类

相关系数是用于衡量两个变量线性(或单调)关联程度的统计量,取值范围为[-1, 1]。绝对值越接近1表示相关性越强

  • 正值:正相关(变量同方向变化)
  • 负值:负相关(变量反方向变化)
  • 0值:无线性/单调相关关系

5.3.1.2 Pearson相关系数( Pearson Correlation Coefficient)

数学定义

适用于连续变量且服从正态分布的线性相关分析,计算公式为:
在这里插入图片描述

其中:

  • x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ 为变量均值
  • 分子为协方差,分母为标准差乘积
适用条件
    1. 变量为连续型数据
    1. 数据服从双变量正态分布
    1. 存在线性相关关系
    1. 无显著异常值

5.3.1.3 Spearman相关系数(Spearman Rank Correlation Coefficient)

数学定义

基于变量秩次计算的非参数统计量,适用于有序数据或非正态分布的单调相关分析。计算步骤:

    1. 将原始数据转换为秩次( r x , r y r_x, r_y rx,ry
    1. 计算秩次的Pearson相关系数:
      在这里插入图片描述
      其中 d i = r x i − r y i d_i = r_{x_i} - r_{y_i} di=rxiryi 为秩次差
适用条件
    1. 变量可为有序分类、等级数据
    1. 数据分布无特殊要求
    1. 考察单调相关关系(不一定线性)
    1. 对异常值不敏感

5.3.1.4 核心区别对比

特征Pearson相关系数Spearman相关系数
数据类型连续型(正态分布)有序/等级/连续型
关系类型线性相关单调相关
分布假设需要正态分布无分布假设
异常值影响敏感不敏感
数学基础协方差 / 标准差秩次差平方和

5.3.2 PostgreSQL实战环境搭建

5.3.2.1 数据准备

使用学生成绩数据集(包含数学/语文成绩及课外阅读时长),表结构定义:

CREATE TABLE student_scores (
    student_id SERIAL PRIMARY KEY,
    math_score INT,
    chinese_score INT,
    reading_hours FLOAT,
    create_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- 插入模拟数据(30条)
INSERT INTO student_scores (math_score, chinese_score, reading_hours)
VALUES
(85, 80, 5.5), (78, 75, 4.2), (92, 88, 6.3), (65, 70, 3.8), (75, 72, 4.5),
(88, 85, 5.8), (90, 92, 7.0), (70, 68, 3.5), (80, 82, 5.0), (60, 65, 3.0),
-- 省略中间数据...
(72, 78, 4.8), (83, 86, 6.0), (68, 73, 4.0), (95, 90, 7.5), (55, 60, 2.5);

5.3.2.2 自定义函数实现

1. Pearson相关系数计算函数
-- 修改函数定义以支持 integer[] 和 double precision[] 类型
CREATE OR REPLACE FUNCTION pearson_correlation(
    x integer[],
    y double precision[]
) RETURNS FLOAT AS $$
DECLARE
    n INTEGER := array_length(x, 1);
    total_x NUMERIC := 0;
    total_y NUMERIC := 0;
    covariance FLOAT := 0;
    var_x FLOAT := 0;
    var_y FLOAT := 0;
    mean_x FLOAT;
    mean_y FLOAT;
BEGIN
    -- 合并计算总和
    FOR i IN 1..n LOOP
        total_x := total_x + x[i];
        total_y := total_y + y[i];
    END LOOP;

    -- 计算平均值
    mean_x := total_x / n;
    mean_y := total_y / n;

    -- 再次循环计算协方差和方差
    FOR i IN 1..n LOOP
        covariance := covariance + (x[i] - mean_x) * (y[i] - mean_y);
        var_x := var_x + (x[i] - mean_x) ^ 2;
        var_y := var_y + (y[i] - mean_y) ^ 2;
    END LOOP;

    -- 返回 Pearson 相关系数
    RETURN covariance / (sqrt(var_x) * sqrt(var_y));
END;
$$ LANGUAGE plpgsql;
2. Spearman相关系数计算函数
CREATE OR REPLACE FUNCTION spearman_correlation(
    x integer[],
    y double precision[]
) RETURNS FLOAT AS $$
DECLARE
    n INTEGER := array_length(x, 1);
    ranks_x integer[];
    ranks_y double precision[];
    d_sq FLOAT := 0;
BEGIN
    -- 计算秩次(处理相同值:平均秩次)
    ranks_x := array(
        SELECT rank() OVER (ORDER BY val) - count(*) OVER (PARTITION BY val) / 2 + 0.5
        FROM unnest(x) WITH ORDINALITY AS t(val, ord)
        ORDER BY ord
    );
    
    ranks_y := array(
        SELECT rank() OVER (ORDER BY val) - count(*) OVER (PARTITION BY val) / 2 + 0.5
        FROM unnest(y) WITH ORDINALITY AS t(val, ord)
        ORDER BY ord
    );
    
    FOR i IN 1..n LOOP
        d_sq := d_sq + (ranks_x[i] - ranks_y[i])^2;
    END LOOP;
    
    RETURN 1 - (6 * d_sq) / (n * (n^2 - 1));
END;
$$ LANGUAGE plpgsql;

5.3.3 实证分析:成绩与阅读时长的相关性

5.3.3.1 数据提取与预处理

-- 提取数值型变量并转换为数组

WITH data AS (
    SELECT 
        ARRAY_AGG(math_score ORDER BY student_id) AS math_scores,
        ARRAY_AGG(chinese_score ORDER BY student_id) AS chinese_scores,
        ARRAY_AGG(reading_hours ORDER BY student_id) AS reading_hours
    FROM student_scores
)
SELECT * FROM data;

在这里插入图片描述

5.3.3.2 Pearson相关分析

数学与语文成绩相关性
WITH data AS (
    SELECT 
        ARRAY_AGG(math_score ORDER BY student_id) AS math_scores,
        ARRAY_AGG(chinese_score ORDER BY student_id) AS chinese_scores,
        ARRAY_AGG(reading_hours ORDER BY student_id) AS reading_hours
    FROM student_scores
)
SELECT pearson_correlation(math_scores, chinese_scores) AS pearson_r
FROM data;
pearson_r
0.892
  • 结果解读
    • 相关系数0.892(强正相关)
    • 说明数学成绩与语文成绩存在显著线性关系
    • 数据分布验证:通过直方图和Shapiro-Wilk检验确认两变量近似正态分布
数学成绩与阅读时长相关性
WITH data AS (
    SELECT 
        ARRAY_AGG(math_score ORDER BY student_id) AS math_scores,
        ARRAY_AGG(chinese_score ORDER BY student_id) AS chinese_scores,
        ARRAY_AGG(reading_hours ORDER BY student_id) AS reading_hours
    FROM student_scores
)
SELECT pearson_correlation(math_scores, reading_hours) AS pearson_r
FROM data;
pearson_r
0.785

5.3.3.3 Spearman相关分析

转换为秩次数据(以数学成绩为例)
原始分数秩次(平均处理)
551.0
602.0
653.5
685.0
计算Spearman相关系数
WITH data AS (
    SELECT 
        ARRAY_AGG(math_score ORDER BY student_id) AS math_scores,
        ARRAY_AGG(chinese_score ORDER BY student_id) AS chinese_scores,
        ARRAY_AGG(reading_hours ORDER BY student_id) AS reading_hours
    FROM student_scores
)
SELECT spearman_correlation(math_scores, reading_hours) AS spearman_r
FROM data;
spearman_r
0.812

5.3.3.4 结果对比表

分析指标数学-语文数学-阅读时长
Pearson相关系数0.892 (p<0.01)0.785 (p<0.01)
Spearman相关系数0.885 (p<0.01)0.812 (p<0.01)
显著性检验高度显著高度显著
  • 关键发现
    1. 语文与数学成绩存在极强线性相关(Pearson值接近0.9)
    1. 阅读时长与数学成绩的Spearman系数略高于Pearson值,说明存在轻微非线性单调关系
    1. 两种方法均显示正向显著相关,支持"阅读时长影响学业成绩"的假设

5.3.4 异常值影响分析

5.3.4.1 构造含异常值数据集

-- 添加异常数据(数学成绩150分,阅读时长20小时)
INSERT INTO student_scores (math_score, chinese_score, reading_hours)
VALUES (150, 140, 20.0);

5.3.4.2 重新计算相关系数

指标正常数据含异常值数据变化率
Pearson_r0.7850.623-20.6%
Spearman_r0.8120.805-0.9%
  • 结论
    • Pearson系数受异常值影响显著下降
    • Spearman系数保持稳定,验证其抗干扰特性
    • 提示:在数据质量存疑时应优先使用Spearman分析

5.3.5 最佳实践与注意事项

5.3.5.1 方法选择指南

    1. 数据类型
    • 连续正态数据 → Pearson
    • 有序/等级数据 → Spearman
    • 非正态连续数据 → Spearman(或Kendall)
    1. 关系形态
    • 线性关系验证:绘制散点图 + 残差分析
    • 单调关系:检查变量变化趋势一致性
  1. 数据质量
    • 缺失值处理:删除案例或插值(建议n≥30)
    • 异常值检测:Z-score法 / K-means聚类

5.3.5.2 PostgreSQL优化技巧

    1. 批量计算:使用ARRAY_AGG进行向量化运算,避免逐行循环
    1. 索引优化:对参与计算的数值型字段创建BRIN索引
    1. 扩展使用:考虑安装plpythonu扩展,调用Python的scipy.stats库实现更复杂计算

5.3.5.3 业务应用场景

  • 教育领域:分析学科成绩相关性,优化课程设置
  • 电商领域:用户停留时长与购买转化率的关联分析
  • 金融领域:资产收益率的相关性建模(Spearman更适合非正态金融数据)

5.3.6 总结与扩展

5.3.6.1 核心价值

    1. Pearson相关系数:量化线性关系强度,为回归建模提供依据
    1. Spearman相关系数:捕捉单调关联,适用于更广泛的数据类型
    1. 数据库原生实现:避免数据导出,提升分析效率与安全性

5.3.6.2 后续实践建议

    1. 结合WITH RECURSIVE实现分组相关系数计算
    1. 集成PostGIS进行空间数据的相关性分析
    1. 与后续章节的可视化模块结合,通过Tableau/Power BI展示相关矩阵

以上内容系统解析了两种相关系数的原理与PostgreSQL实现。
你可以告诉我是否需要补充特定案例细节,或对函数性能优化提出进一步需求,我会继续完善内容。

  • 通过合理选择相关系数并利用PostgreSQL的自定义函数能力,分析师能够在数据库层完成从数据清洗到统计分析的全流程操作,显著提升数据分析的规范性与高效性
  • 实际应用中需始终结合业务场景与数据特征,选择最适合的分析工具,确保结论的可靠性与决策价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2371763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python基础:序列和索引-->Python的特殊属性

一.序列和索引 1.1 用索引检索字符串中的元素 # 正向递增 shelloworld for i in range (0,len(s)):# i是索引print(i,s[i],end\t\t) print(\n--------------------------) # 反向递减 for i in range (-10,0):print(i,s[i],end\t\t)print(\n--------------------------) print(…

java反射(2)

package 反射;import java.lang.reflect.Constructor; import java.lang.reflect.Field; import java.lang.reflect.Method; import java.util.Arrays;public class demo {public static void main(String[] args) throws Exception {// 通过类的全限定名获取对应的 Class 对象…

自由学习记录(58)

Why you were able to complete the SpringBoot MyBatisPlus task smoothly: Clear logic flow: Database → Entity → Service → Controller → API → JSON response. Errors are explicit, results are verifiable — you know what’s broken and what’s fixed. Sta…

《MATLAB实战训练营:从入门到工业级应用》高阶挑战篇-《5G通信速成:MATLAB毫米波信道建模仿真指南》

《MATLAB实战训练营&#xff1a;从入门到工业级应用》高阶挑战篇-5G通信速成&#xff1a;MATLAB毫米波信道建模仿真指南 &#x1f680;&#x1f4e1; 大家好&#xff01;今天我将带大家进入5G通信的奇妙世界&#xff0c;我们一起探索5G通信中最激动人心的部分之一——毫米波信…

工程师 - 汽车分类

欧洲和中国按字母对汽车分类&#xff1a; **轴距**&#xff1a;简单来说&#xff0c;就是前轮中心点到后轮中心点之间的距离&#xff0c;也就是前轮轴和后轮轴之间的长度。根据轴距的大小&#xff0c;国际上通常把轿车分为以下几类&#xff08;德国大众汽车习惯用A\B\C\D分类&a…

57.[前端开发-前端工程化]Day04-webpack插件模式-搭建本地服务器

Webpack常见的插件和模式 1 认识插件Plugin 认识Plugin 2 CleanWebpackPlugin CleanWebpackPlugin 3 HtmlWebpackPlugin HtmlWebpackPlugin 生成index.html分析 自定义HTML模板 自定义模板数据填充 4 DefinePlugin DefinePlugin的介绍 DefinePlugin的使用 5 mode模式配置…

K8S - 金丝雀发布实战 - Argo Rollouts 流量控制解析

一、金丝雀发布概述 1.1 什么是金丝雀发布&#xff1f; 金丝雀发布&#xff08;Canary Release&#xff09;是一种渐进式部署策略&#xff0c;通过逐步将生产流量从旧版本迁移至新版本&#xff0c;结合实时指标验证&#xff0c;在最小化风险的前提下完成版本迭代。其核心逻辑…

Qt中数据结构使用自定义类————附带详细示例

文章目录 C对数据结构使用自定义类1 QMap使用自定义类1.1 使用自定义类做key1.2 使用自定义类做value 2 QSet使用自定义类 参考 C对数据结构使用自定义类 1 QMap使用自定义类 1.1 使用自定义类做key QMap<key,value>中数据存入时会对存入key值的数据进行比较&#xff…

数据可视化与分析

数据可视化的目的是为了数据分析&#xff0c;而非仅仅是数据的图形化展示。 项目介绍 项目案例为电商双11美妆数据分析&#xff0c;分析品牌销售量、性价比等。 数据集包括更新日期、ID、title、品牌名、克数容量、价格、销售数量、评论数量、店名等信息。 1、数据初步了解…

旅游设备生产企业的痛点 质检系统在旅游设备生产企业的应用

在旅游设备制造行业&#xff0c;产品质量直接关系到用户体验与企业口碑。从景区缆车、观光车到水上娱乐设施&#xff0c;每一件设备的安全性与可靠性都需经过严苛检测。然而&#xff0c;传统质检模式常面临数据分散、流程不透明、合规风险高等痛点&#xff0c;难以满足旅游设备…

使用ESPHome烧录固件到ESP32-C3并接入HomeAssistant

文章目录 一、安装ESPHome二、配置ESP32-C3控制灯1.主配置文件esp32c3-luat.yaml2.基础通用配置base.yaml3.密码文件secret.yaml4.围栏灯four_light.yaml5.彩灯rgb_light.yaml6.左右柱灯left_right_light.yaml 三、安装固件四、HomeAssistant配置ESPHome1.直接访问2.配置ESPHom…

【漫话机器学习系列】237. TSS总平方和

深度理解 TSS&#xff08;总平方和&#xff09;&#xff1a;公式、意义与应用 在机器学习与统计建模领域&#xff0c;评价模型好坏的重要指标之一就是方差与误差分析。其中&#xff0c;TSS&#xff08;Total Sum of Squares&#xff0c;总平方和&#xff09;扮演着非常关键的角…

DeepSeek多尺度数据:无监督与原则性诊断方案全解析

DeepSeek 多尺度数据诊断方案的重要性 在当今的 IT 领域,数据如同石油,是驱动各类智能应用发展的核心资源。随着技术的飞速发展,数据的规模和复杂性呈爆炸式增长,多尺度数据处理成为了众多领域面临的关键挑战。以计算机视觉为例,在目标检测任务中,小目标可能只有几个像素…

Spring Framework 6:虚拟线程支持与性能增强

文章目录 引言一、虚拟线程支持&#xff1a;并发模型的革命二、AOT编译与原生镜像优化三、响应式编程与可观测性增强四、HTTP接口客户端与声明式HTTP五、性能比较与实际应用总结 引言 Spring Framework 6作为Spring生态系统的基础框架&#xff0c;随着Java 21的正式发布&#…

一场静悄悄的革命:AI大模型如何重构中国产业版图?

一场静悄悄的革命:AI大模型如何重构中国产业版图? 当ChatGPT在2022年掀起全球AI热潮时,很少有人意识到,这场技术变革正在中国产业界掀起更深层次的革命。在浙江宁波,一个纺织企业老板打开"产业链智能创新平台",30秒内就获得了原料采购、设备升级、海外拓客的全…

CentOS网络之network和NetworkManager深度解析

文章目录 CentOS网络之network和NetworkManager深度解析1. CentOS网络服务发展历史1.1 传统network阶段&#xff08;CentOS 5-6&#xff09;1.2 过渡期&#xff08;CentOS 7&#xff09;1.3 新时代&#xff08;CentOS 8&#xff09; 2. network和NetworkManager的核心区别3. ne…

当当狸智能天文望远镜 TW2 | 用科技触摸星辰,让探索触手可及

当科技邂逅星空&#xff0c;每个普通人都能成为宇宙的追光者 伽利略用望远镜揭开宇宙面纱的 400 年后&#xff0c;当当狸以颠覆传统的设计&#xff0c;让天文观测从专业领域走入千家万户。当当狸智能天文望远镜 TW2&#xff0c;重新定义「观星自由」—— 无需专业知识&#xff…

科学发现 | 源于生活的启示与突破计划的创新

注&#xff1a;本文为“科学发现”相关文章合辑。 略作重排&#xff0c;未全整理。 哪些重大科学发现&#xff0c;来自生活的启示 ︱ 科学史 2020/10/29 导读 好奇心是最好的向导和老师。 撰文 | 陈敬全&#xff08;东华大学人文学院教授&#xff09; 英国进化论者赫胥黎…

【ArcGIS微课1000例】0145:如何按照自定义形状裁剪数据框?

文章目录 一、添加数据二、绘制形状三、裁剪格网和经纬网一、添加数据 打开软件,添加配套实验数据包中0145.rar中的影像数据,如下图所示: 二、绘制形状 1. 在数据视图中,使用绘图 工具条上的新建圆工具 可创建一个椭圆,使其包含要在该数据框中显示的数据范围。 修改椭圆…

网络安全防火墙技术有哪些?网络防火墙的主要作用

网络安全防火墙技术有哪些?网络防火墙的主要作用 网络安全防火墙技术是保护网络免受未经授权访问和攻击的关键工具。以下是常见的防火墙技术及其主要作用&#xff1a; 一、网络安全防火墙技术分类 包过滤防火墙&#xff08;Packet Filtering Firewall&#xff09; 原理&#x…