双重机器学习DML介绍
本文参考[1]我在开始团做运筹_DML一、核心原理与数学框架双重机器学习Double Machine Learning, DML由Chernozhukov等学者于2018年提出是一种结合机器学习与传统计量经济学的因果推断框架。其核心目标是在高维数据和非线性关系下无偏估计处理变量如政策、治疗对结果变量如收入、健康的因果效应。结果变量和处理变量分别对协变量进行回归然后用两者的残差进行最终回归以排除协变量的混杂影响。1. 基本模型设定DML框架可以应用于多种因果模型最常见的是部分线性回归Partially Linear Regression, PLR模型2. 核心步骤两阶段残差回归步骤一正交化去偏这是Neyman正交性的实现步骤。首先通过机器学习模型分别对结果变量和处理变量建模然后将各自的预测值从实际观测值中减去得到残差。这一过程剥离了协变量的混杂影响使得后续估计更加纯净。步骤二交叉拟合这是DML的另一项关键技术主要用于避免第一阶段机器学习模型过拟合带来的偏差。3. 关键技术交叉拟合与正交化4.DML的优势处理高维数据通过机器学习自动筛选重要协变量避免“维度诅咒”。非线性关系建模支持随机森林、神经网络等非线性模型适应复杂数据结构。稳健性交叉拟合和正交化技术降低过拟合风险确保估计无偏。二、DML无偏的数学原理1.数学框架部分线性模型PLRDML的核心基于以下部分线性模型2. 正交化剥离协变量影响步骤1残差化处理步骤2残差回归3. Cross-fitting交叉拟合4.Neyman正交性对模型偏误不敏感5. 关键点总结正交化通过残差化剥离协变量X的影响确保T~ 和 Y~ 与X正交。交叉拟合避免过拟合提高估计的稳健性。Neyman正交性对第一阶段模型偏误不敏感保证无偏性。机器学习灵活性支持非线性模型如随机森林、神经网络适应复杂数据结构。三、DML的双重稳健体现双重机器学习DML的“双重稳健”性体现在其对两种独立误差来源的稳健性以及通过正交化与交叉拟合技术实现的双重保障。以下是具体体现对第一阶段模型偏误的稳健性即使第一阶段模型存在误差只要满足正交性条件第二阶段估计仍无偏。对模型选择的稳健性无论使用线性还是非线性模型只要正确应用正交化和交叉拟合估计量都是无偏的。交叉拟合的双重保障通过样本分割和交叉验证避免过拟合并提高稳健性。3.1.对第一阶段模型偏误的稳健性DML的核心思想是通过两阶段残差回归剥离协变量X的影响。其双重稳健性首先体现在即使第一阶段模型用于拟合Y和T关于X的预测值存在误差只要满足正交性条件第二阶段的估计仍能保持无偏。3.2.对模型选择的稳健性DML的双重稳健性还体现在无论使用线性模型还是非线性机器学习模型只要正确应用正交化和交叉拟合估计量都是无偏的。3.3.交叉拟合的双重保障DML通过交叉拟合Cross-fitting技术进一步强化了稳健性3.4.数学证明Neyman正交性DML的双重稳健性可严格证明为Neyman正交性四、Neyman正交Neyman正交性Neyman Orthogonality是统计学和计量经济学中的一个核心概念尤其在因果推断和双重机器学习DML中扮演关键角色。其核心思想是确保估计量对第一阶段模型偏误不敏感从而保证估计的无偏性。以下是详细解释4.1.定义与数学表达4.2.核心意义Neyman正交性确保了以下两点4.3.在DML中的作用在双重机器学习中Neyman正交性通过以下步骤实现4.4.直观理解Neyman正交性可理解为一种“双重保护”总结Neyman正交性是双重机器学习DML无偏性的核心数学保障。它通过要求估计量对第一阶段模型的偏误“不敏感”并结合正交化和交叉拟合技术确保了在高维数据和非线性场景下因果效应的准确估计。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2515200.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!