【菜菜的sklearn课堂笔记】逻辑回归与评分卡-二元逻辑回归损失函数的数学解释,公式推导与解惑

news2025/7/9 17:27:20

视频作者:菜菜TsaiTsai
链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili

白板推导里有写过程,但是当时理解的不太好, ψ ( x i , ω ) \psi(x_{i},\omega) ψ(xi,ω)的理解有点问题也就是下面的 y θ ( x i ) y_{\theta}(x_{i}) yθ(xi)

我们基于极大似然法来推导二元逻辑回归的损失函数,这个推导过程能够帮助我们了解损失函数怎么得来的,以及为什么 J ( θ ) J(\theta) J(θ)的最小化能够实现模型在训练集上的拟合最好。

请时刻记得我们的目标:让模型对训练数据的效果好,追求损失最小。

关键概念:损失函数

衡量参数 θ \theta θ的优劣的评估指标,用来求解最优参数的工具
损失函数小,模型在训练集上表现优异,拟合充分,参数优秀
损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕
我们追求,能够让损失函数最小化的参数组合

注意:没有”求解参数“需求的模型没有损失函数,比如KNN,决策树

二元逻辑回归的标签服从伯努利分布(即0-1分布),因此我们可以将一个特征向量为 x x x,参数为 θ \theta θ的模型的一个样本 i i i的预测情况表现为如下形式:
样本 i i i在由特征向量 x i x_{i} xi和参数 θ \theta θ组成的预测函数中,样本标签被预测为1的概率为
P 1 = P ( y i ^ = 1 ∣ x i , θ ) = y θ ( x i ) P_{1}=P(\hat{y_{i}}=1|x_{i},\theta)=y_{\theta}(x_{i}) P1=P(yi^=1xi,θ)=yθ(xi)
样本 i i i在由特征向量 x i x_{i} xi和参数 θ \theta θ组成的预测函数中,样本标签被预测为0的概率为
P 1 = P ( y i ^ = 0 ∣ x i , θ ) = 1 − y θ ( x i ) P_{1}=P(\hat{y_{i}}=0|x_{i},\theta)=1-y_{\theta}(x_{i}) P1=P(yi^=0xi,θ)=1yθ(xi)
预测值与真实值之间的关系以及信息损失的关系如下图
![[附件/Pasted image 20221101160443.png|500]]

将两种取值的概率整合,我们可以定义如下等式:
P ( y i ^ ∣ x i , θ ) = P 1 y i ⋅ P 0 1 − y i P(\hat{y_{i}}|x_{i},\theta)=P_{1}^{y_{i}}\cdot P_{0}^{1-y_{i}} P(yi^xi,θ)=P1yiP01yi

这个等式同时代表了 P 1 P_{1} P1 P 0 P_{0} P0
当样本 i i i的真实标签 y i y_{i} yi为1的时候, 1 − y i 1-y_{i} 1yi就等于0, P 0 P_{0} P0的0次方就是1,所以 P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)就等于 P 1 P_{1} P1,这个时候,如果 P 1 P_{1} P1为1,模型的效果就最好,损失最小。
同理,当 y i y_{i} yi为0的时候, P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)就等于 P 0 P_{0} P0,此时如果 P 0 P_{0} P0非常接近1,模型的效果就很好,损失就很小。

为了达成让模型拟合好,损失小的目的,我希望任何取值下 P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)的值等于1。
P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)的本质是样本 i i i由特征向量 x i x_{i} xi和参数 θ \theta θ组成的预测函数中,预测处所有可能的 y i ^ \hat{y_{i}} yi^的概率,因此1是它的最大值。也就是说,每时每刻,我们都在追求 P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)的最大值,这就将模型拟合中的“最小化损失”问题,转化成函数求解极值的问题

P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)是对单个样本 i i i而言的函数,对一个训练集的 n n n个样本来说,我们可以定义如下等式来表达所有样本在特征矩阵 X X X和参数 θ \theta θ组成的预测函数中,预测处所有可能的 y ^ \hat{y} y^的概率 P P P
P = ∏ i = 1 n P ( y i ^ ∣ x i , θ ) = ∏ i = 1 n ( P 1 y i ⋅ P 0 1 − y i ) = ∏ i = 1 n ( y θ ( x i ) y i ⋅ ( 1 − y θ ( x i ) ) 1 − y i ) \begin{aligned} P&=\prod\limits_{i=1}^{n}P(\hat{y_{i}}|x_{i},\theta)\\ &=\prod\limits_{i=1}^{n}(P_{1}^{y_{i}}\cdot P_{0}^{1-y_{i}})\\ &=\prod\limits_{i=1}^{n}(y_{\theta}(x_{i})^{y_{i}}\cdot (1-y_{\theta}(x_{i}))^{1-y_{i}}) \end{aligned} P=i=1nP(yi^xi,θ)=i=1n(P1yiP01yi)=i=1n(yθ(xi)yi(1yθ(xi))1yi)
两侧同时取对数
log ⁡ P = log ⁡ ∏ i = 1 n ( y θ ( x i ) y i ⋅ ( 1 − y θ ( x i ) ) 1 − y i ) = ∑ i = 1 n log ⁡ ( y θ ( x i ) y i ⋅ ( 1 − y θ ( x i ) ) 1 − y i ) = ∑ i = 1 n ( y i ⋅ log ⁡ y θ ( x i ) + ( 1 − y i ) ⋅ log ⁡ ( 1 − y θ ( x i ) ) ) \begin{aligned} \log P&=\log \prod\limits_{i=1}^{n}(y_{\theta}(x_{i})^{y_{i}}\cdot (1-y_{\theta}(x_{i}))^{1-y_{i}})\\ &=\sum\limits_{i=1}^{n}\log(y_{\theta}(x_{i})^{y_{i}}\cdot (1-y_{\theta}(x_{i}))^{1-y_{i}})\\ &=\sum\limits_{i=1}^{n}(y_{i} \cdot \log y_{\theta}(x_{i})+(1-y_{i})\cdot \log(1-y_{\theta}(x_{i}))) \end{aligned} logP=logi=1n(yθ(xi)yi(1yθ(xi))1yi)=i=1nlog(yθ(xi)yi(1yθ(xi))1yi)=i=1n(yilogyθ(xi)+(1yi)log(1yθ(xi)))
这就是我们的交叉熵函数。为了数学上的便利以及更好地定义”损失”的含义,我们希望将极大值问题转换为极小值问题,因此我们对 log ⁡ P \log P logP取负,并且让参数 θ \theta θ作为函数的自变量,就得到了损失函数 J ( θ ) J(\theta) J(θ)
J ( θ ) = − ∑ i = 1 n ( y i ⋅ log ⁡ y θ ( x i ) + ( 1 − y i ) ⋅ log ⁡ ( 1 − y θ ( x i ) ) ) J(\theta)=-\sum\limits_{i=1}^{n}(y_{i} \cdot \log y_{\theta}(x_{i})+(1-y_{i})\cdot \log(1-y_{\theta}(x_{i}))) J(θ)=i=1n(yilogyθ(xi)+(1yi)log(1yθ(xi)))
这就是一个,基于逻辑回归的返回值 y θ ( x i ) y_{\theta}(x_{i}) yθ(xi)的概率性质得出的损失函数。在这个函数上,我们只要追求最小值,就能让模型在训练数据上的拟合效果最好,损失最低。
其中 θ \theta θ表示求解出来的一组参数, n n n是样本个数, y i y_{i} yi是样本 i i i上的真实标签, y θ ( x i ) y_{\theta}(x_{i}) yθ(xi)是样本 i i i上基于参数 θ \theta θ计算出来的逻辑回归返回值, x i x_{i} xi是样本 i i i各个特征的取值
注意,在逻辑回归的本质函数 y ( x ) y(x) y(x)例,特征矩阵 x x x是自变量,参数㐊 θ \theta θ。但在损失函数中,参数 θ \theta θ是损失函数的自变量, x x x y y y都是已知的特征矩阵和标签,相当于是损失函数的参数。

不同的函数中,自变量和参数各有不同,因此大家需要在数学计算中,尤其是求导的时候避免混淆。

关键概念:似然与概率

以样本 i i i为例,我们有表达式
P ( y i ^ ∣ x i , θ ) P(\hat{y_{i}}|x_{i},\theta) P(yi^xi,θ)
对于这个表达式而言,如果参数 θ \theta θ是一致的,特征向量 x i x_{i} xi是未知的,我们便称 P P P是在探索不同特征取值下获取所有可能的 y ^ \hat{y} y^的可能性,这种可能性就被称为概率,研究的是自变量和因变量之间的关系
如果特征向量 x i x_{i} xi是已知的,参数 θ \theta θ是未知的,我们便称 P P P是探索不同参数下获取所有可能的 y ^ \hat{y} y^的可能性,这种可能性就被称作似然,研究的是参数取值与因变量之间的关系

在逻辑回归的建模过程中,我们的特征矩阵是已知的,参数是未知的,因此我们讨论的所有“概率”其实严格来说都是“似然”,所以逻辑回归的损失函数推导方法叫做“极大似然法”。也因此,一下式子又被称为“极大似然函数”
P ( y i ^ ∣ x i , θ ) = y θ ( x i ) y i ⋅ ( 1 − y θ ( x i ) ) 1 − y i P(\hat{y_{i}}|x_{i},\theta)=y_{\theta}(x_{i})^{y_{i}}\cdot (1-y_{\theta}(x_{i}))^{1-y_{i}} P(yi^xi,θ)=yθ(xi)yi(1yθ(xi))1yi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/8912.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker(二):Windows系统安装Docker

安装环境 在安装之前,Windows 版 Docker 的环境有以下要求: 1、Windows 10 Pro(专业版) / Enterprise(企业版) / Education(教育版)(1607 Anniversary Update、Build 14…

Vue3路由——基本使用、动态路由、路由正则、重复参数、嵌套路由、编程式导航、命名路由、重定向、别名、路由模式与导航守卫

文章目录P23 Vue3路由的基本使用P24 动态路由和404NotFound动态路由404NotFoundp25 路由正则与重复参数路由正则重复参数p26 嵌套路由p27 使用js跳转页面(编程式导航)p28 命名路由与重定向别名命名路由重定向别名p29 路由模式与导航守卫P23 Vue3路由的基本使用 npm init vite-…

[附源码]java毕业设计基于的花店后台管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

《Nature》STING 与 cGAMP 结合导致 TBK1 激酶募集和活化

来自细菌或病毒的核酸在受感染的细胞中会产生强效的免疫反应,而病原体衍生核酸的检测是宿主感知感染并启动保护性免疫反应的核心策略。cGAS (Cyclic GMP-AMP synthase) 是一种双链 DNA 传感器,可催化 cGAMP(cyclic GMP-AMP)的合成…

中间件简介

中间件简介 1. 中间件概述 随着网络和软件技术的飞速发展,软件面临更多的问题,例如:不同的操作系统、不同的网络环境等。在每个软件中解决这些问题加大了软件开发人员的负担,因此倾向于将这些具有广泛应用的共性功能提取出来&am…

【离散数学】第二章 测试

1.单选题 谓词推理要 A. 先US,后ES B. 先ES,后US 正确答案: B 2.单选题 前提: (∀x)(F(x)→G(x)),(∃x)F(x), 结论: (∃x)G(x)。 A. 成立 B. 不成立 正确答案: A 3.单选题 根据ES规则,若(∃x)P(…

gRPC(八)生态 grpc-gateway 应用:同一个服务端支持Rpc和Restful Api

目录前言一、gRPC-Gateway概述1、简述2、出现二、准备工作1、目录结构2、环境准备1)Protobuf2)gRPC3)gRPC-Gateway3、编写 IDL1)google.api2)hello.proto3)编译proto4、制作证书1)生成CA根证书2…

香港服务器一定比美国服务器好吗?

香港服务器一定比美国服务器好吗?从出海业务兴起以来就有不少的站长拿较为热门的香港服务器和美国服务器来作出对比,对其两者孰优孰劣的探讨一直都没有停止过。在这里,我们对两者做个比较。 香港服务器和美国服务器两者的对比: 1. 香港服务器…

linux笔记(3):东山哪吒STU开发板初体验

文章目录1.开发板上电观察串口1.1 从nand flash启动1.2 从SD卡启动2.上传文件到开发板2.1 使用FileZilla软件连接开发板2.2 使用ADB软件双11下单后,经过多日的等待,终于在昨天下午收到了开发板。在等待的过程中,看了一下文档和B站东山老师的视…

Rhino Linux:滚动发布但也很稳定的 Ubuntu

导读滚动发布的 Ubuntu 发行版?等等,什么? Rhino Linux 听起来不错……Ubuntu but rolling but also stable! Thats what Rhino Linux aims to be Rhino Linux 将成为 Rolling Rhino Remix 的继任者。这个由 http.llamaz 构建的 Linux 发行版…

01 Jenkins CICD 之 Git 命令使用

1. 前言 由于项目没有外网,需要在内网打镜像。但自己对git 还不是太熟悉。看着pipline 一脸的懵。所有针对git 命令在工作中常用的参数及用法简单学习记录下 git 技能树链接 2. git 常用参数 2.1 git全局设置 git config --global user.name "xxxxx" …

STC51单片机27——控制无刷电机

编写程序控制电调&#xff1a; #include<reg52.h> sbit PpmP2^0; sbit UpP2^1; sbit DownP2^2; sbit Led_UpP2^3; sbit Led_DownP2^4; unsigned char k0; unsigned char a0; void Control() { if(Up0&am…

云原生网关的可观测性体系实践

作者&#xff1a;井轶 概述 可观测性一词来源于控制理论&#xff0c;是指系统可以由其外部输出推断其其内部状态的程度&#xff0c;随着 IT 行业几十年的发展&#xff0c;IT 系统的监控、告警、问题排查等领域的逐渐成熟&#xff0c;IT 行业也将其抽象形成了一整套可观测性工…

Linux基础学习记录

LInux学习 文章目录LInux学习1. Linux快捷键2. Shell基本命令”*“&#xff0c;”&#xff1f;“&#xff0c;”[]“&#xff1a;通配符pwd&#xff1a;显示当前目录cd&#xff1a;改变目录ls&#xff1a;列出目录内容cat和more&#xff1a;查看文本文件catmorehead和tail&…

为什么C语言需要指定平台开发?

前言&#xff1a; 笔者心血来潮&#xff0c;特意站在初学者角度去思考为什么C语言需要指定平台去开发呢&#xff1f; 物有本末&#xff0c;事有终始&#xff0c;知其先后&#xff0c;则近道矣。 语言历史&#xff1a; 读者应该能明白程序最底层无非就是01010101二进制被CPU给调…

(续)SSM整合之springmvc笔记(SpringMVC获取请求参数)(P131-135)

目录 一 通过ServletAPI获取 1 . 新建TestParamController类 2 . index.html 3 . 在TestParamController类里面写getParamByServletAPI 4. 测试 重新部暑 二 通过控制器方法的形参获取请求参数 1 . index.html 2 . TestParamController 3. 测试 三 RequestPar…

Vue2.0开发之——Vue基础用法-事件绑定$event(20)

一 概述 事件参数对象$event表示事件参数对象event事件修饰符 二 事件参数对象 2.1 说明 在原生的 DOM 事件绑定中&#xff0c;可以在事件处理函数的形参处&#xff0c;接收事件参数对象 event 2.2 示例 布局代码 <button v-on:click"addCount">1</bu…

高光谱解混和图片去噪(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

使用id限定优化mysql分页查询limit偏移量大问题

在工作中可能偶尔会遇到&#xff0c;当使用limit实现分页查询时&#xff0c;当limit的偏移量越大时&#xff0c;sql语句的耗时也越大。 如图&#xff1a; 偏移量为0时&#xff0c;sql语句耗时在35毫秒。 顺便说下偏移量与页码、页大小的关系&#xff1a; 偏移量 (页码 - 1…

Spark的内存管理机制

在执行Spark 的应用程序时&#xff0c;Spark 集群会启动 Driver 和 Executor 两种 JVM 进程&#xff0c;前者为主控进程&#xff0c;负责创建 Spark 上下文&#xff0c;提交 Spark 作业&#xff08;Job&#xff09;&#xff0c;并将作业转化为计算任务&#xff08;Task&#xf…