【因子挖掘】遗传规划概述

news2025/5/25 3:12:19

多因子选股的框架下,因子的产生通常有两条途径:

  • 先有逻辑,后有公式:根据经济学逻辑、历史经验、直觉进行人工构造一些因子;
    • 例如:动量(Momentum)因子:当最近的股价呈现连续上升时,认为股价产生了 “动量”,这样的动量会持续一段时间,因此当期股价 相对于前期股价 的涨幅可能决定了一期股价 的走势,那么可以作为一个简单的动量因子,认为它潜在地与未来收益率相关

  • 先有公式,后有逻辑:使用大量的历史数据与收益率数据,通过机器学习的方法进行拟合,大批量的生成因子;
    • 例如:利用遗传规划(������� �����������)进行符号回归(�������� ����������)
    • 这就是本文要引入的第一个话题

符号回归 (Symbolic Regression)

从参数估计讲起

有统计学基础的伙伴都知道,许多较为简单的机器学习模型本质是在做参数估计。比如我们想要对X 与Y 之间的关系进行挖掘,我们首先假设他们有如下的关系:
�=�(�)
其中,� 是我们已经假设好,或者挑选好的形式,比如:�(�)=�0+�1�+�2�2

那么我们传统的机器学习,或者说统计回归,都是对参数θ0,�1,�2 进行估算,使得我们根据Y=�(�) 算出的预测值Y^ 与真实值Y 之间的差距尽可能的小,即我们需要:
��� ||�−�^||2
总结之,我们的有如下的流程:

  1. 获取已有的样本特征(�������)� 与样本标签(�����)� 数据
  2. 人工挑选或构建Y 与X 之间的关系,即模型的显示形式f(�^|�)
  3. 通过调整参数θ^,使得预测值与真实值尽可能接近(过拟合的问题不是这里的重点)
  4. 完成模型的学习,模型f(�|�) 用于未来的预测等功能

看起来很完美了,那为什么还需要符号回归呢?问题在于f 形式的选取。结合前言的叙述,很容易想到:

  • 传统的参数估计思想→给定公式的形式,优化公式的内部(基于参数的优化)
  • 所围的符号回归思想→不给定公式的形式,从公式里面挑选(基于公式的优化)

这样,符号回归的意思就很明显了:用各种变量与算子(符号)构造许多公式,用不同的公式去逼近数据的真实分布,达到回归的效果。

符号回归的实现

符号回归听起来很不错,但是怎么实现呢?参数回归本质是在高维空间对参数进行有规律的搜索,从而达到优化目的。符号回归也要在 “符号空间” 里进行搜索吗?实际上是的。

我们假设两个变量 � 和 � 的真实关系就是下面这样:
�=1+�+�2+�3
现在我们有来自这个关系的数据样本:(−1,0),(0,1),(1,4),(2,15)

假设我们随便进行两个猜测:
�����1:�=�+�2; �����2:�=1+�+�2
很明显,�����2 更好,所以我们抛弃了G����1,走向了G����2。

那如果再来一个呢?
�����2:�=1+�+�2; �����3:�=1+�+�2+�3
无疑地,我们从G����2 走向了G����3,我们离 “正确” 答案越来越近了!(甚至已经完美达到了正确答案)

其实以上过程已经大体揭示了遗传规划进行符号回归的大体思路:产生很多公式,然后优中选优,然后再产生,再优中选优…. 总体上,我们会越来越接近。

遗传规划 (Genetic Programming)

基本概念

经过漫长的 General Sense 的讲解,相信可以明白:遗传规划是借鉴了生物种群的进化理论,认为优秀的 “基因”(����),也就是公式对数据的拟合能力,会在一次又一次的产生、挑选、变异、交叉中被保存、传递。

在开始遗传规划的具体步骤之前,我们需要知道几个基本概念:

  • 公式树:任意一个合法的数学公式,都可以改写为一棵树(����)

    ​ 例如:�=�02−3�1+0.5 可以改写为:�=�0×�0−3×�0+0.5,转换为一个 S - 表达式(�−����������)即为:�=(+(−(×�0�0)(×3�1))0.5),那么他的公式树就长成这个样子:

  • 变量 / 常数:公式树的叶子,含一个数值

  • 算子:公式树的结点,是一个对变量 / 常数的运算函数

主要步骤

由以上基础,遗传规划的主要步骤如下:

  1. 定义算子库与变量 / 常数库:首先要清楚你有几个变量、叫什么名字,有哪些算子、算子的具体内容;

    • 算子库例如:+、-、×、÷、平方根、相反数….
    • 变量库例如:开盘价、收盘价、交易量…
  2. 生成公式种群:从因子库和变量库里获取元素,随机组成若干公式树,这是 “公式种群”;

  3. 定义适应度函数:“选优” 的标准是什么?需要定义一个函数评估公式的优劣,很明显,适应度函数通常(只是通常)衡量通过公式计算的结果与真实数据的差距;

    • 例如:评价X 的一个适应度函数F(�)=||����(�)−(�2)||1,衡量根据公式树t���(·) 计算的结果t���(�) 和y=�2 之间的差的一范数
  4. 自然选择 / 选优:从公式种群中,挑选适应度最高(或最低)的一批公式,作为优种;

  5. 交叉组合与基因变异

    • 很明显,这都是从自然进化中启发而来的,主要是为了保持公式树的多样性,提升公式树种群的 “潜力”

    • 具体来说,是在不同的公式树之间进行:

      • 交叉 (���������):

      • 子树变异 (������� ��������)

      • Hoist 变异 (����� ��������)

      • 点变异 (����� ��������)

  6. 循环进行 4-5,直到达到设定的条件

因子挖掘

很明显,遗传规划算法可以用于因子挖掘,只需要将对应的基础概念代入即可:

  • 公式树 → 用一些基础因子组合成的新因子
  • 变量 / 常数 → 基础因子
    • 例如:最基本的 “开高低收” 这样的行情属性)
  • 算子 → 基础算子(+ - × ÷)或时序算子(MA)等

遗传迭代的过程,即代表因子挖掘的过程:

  • 公式种群 → 一批挖出的因子
  • 适应度函数 → 评估因子的一些指标
    • 例如:因子暴露与一期收益的相关系数I�
  • 自然选择 / 选优 → 选择评价最好的因子,传入下一代

反思:为什么要用 Genetic Programming?

用一个模型不是为了用而用。遗传规划之所以可以用于尝试因子挖掘的一个方向,笔者认为有如下几个原因:

  1. 生成海量新因子:在生成初代种群的时,可以快速生成海量的新因子;
  2. 遗传迭代的过程模拟了 “符号搜索” 的过程:通过每一代的选优,可以快速对符号结构进行筛选和优化;
  3. 保留符号的变异性、多样性,防止过拟合速度过快:在每一代的繁殖过程中,交叉和变易保证了新因子结构的潜力,从而可以防止过快的过拟合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/491510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cadence Allegro 布局操作Move命令的应用

在布局的时候,常常需要对一些元素去进行移动位置以方便进行设计。 1、执行菜单命令Edit-Move,此时PCB界面的左下角会显示Move,就表示正在执行移动命令,如图1所示。 图1 移动命令 2、在PCB界面右边的Find面板中所选择需要进行移动…

Charles抓包工具使用

一、Charles的安装与激活 安装 官方地址:https://www.charlesproxy.com/ 根据自己系统安装最新版本即可 安装后可直接打开使用 激活 打开Charles -> 【Help】 -> 【Register Charles】 -> 输入 Registered Name : https://zhile.io Lic…

智能座舱的“宏大蓝图”和“残酷现实”

配图来自Canva可画 2023年上海车展各大车企发布新车、新配置和新战略好不热闹,“智能驾驶”、“智能座舱”等关键词频频出现,智能化已然成为车企技术比拼的关键。 Unity中国发布最新智能座舱解决方案,可为车企提供成熟、可量产落地的HMI&…

学系统集成项目管理工程师(中项)系列17b_范围管理(下)

1. 创建工作分解结构WBS 1.1. 自上而下的分解结构 1.2. 把项目可交付成果和项目工作分解成较小的、更易于管理的组件的过程 1.3. 用来确定项目范围的 1.3.1. 包括分包出去的工作 1.3.1.1. 【21上选40】 1.4. 输入 1.4.1. 项目范围管理计划 1.4.2. 项目范围说明书 1.4.…

AI教父变成“吹哨人” 他到底在警觉什么?

“我现在对自己过去的工作感到后悔,我找借口来安慰自己:就算我没做,别人也会做的。”有AI“教父”之称的杰弗里辛顿 (Geoffrey Hinton)在接受媒体采访时透露出悔意。 作为AI深度学习领域的代表性人物,辛顿一生都在该领域深耕&…

随笔-听说你年入百万了

两个月前接到老代的电话,说4月30号结婚,预约一下时间。半个月前接到小付的电话,说5月1号结婚,行吧,值当回趟老家了。 抢票还算顺利,转了一趟车,29号下午到了老家,想着收拾一下&…

集成ES全文检索、Neo4J知识图谱、Activiti工作流的知识库管理系统

一、项目介绍 一款全源码,可二开,可基于云部署、私有部署的企业级知识库云平台,一款让企业知识变为实打实的数字财富的系统,应用在需要进行文档整理、分类、归集、检索、分析的场景。 获取方式q:262086839 为什么建立知识库平台&…

Cell-- 战胜癌症中的耐药性,组合疗法初见成效!

Jerry C. Madukwe在Cell发表了一篇关于癌症耐药性的精选。 癌细胞经历系统化疗、靶向治疗或免疫治疗时对相关药物会逐步产生耐受性。抗癌药物耐药是一种多因素的现象,可通过多种机制产生。原发性肿瘤内的不同遗传组成的癌细胞亚群,对化疗或靶向药物有不同…

Angular 16 正式版发布

在之前的Angularv15中,Angular团队通过将独立API从开发者预览版升级至稳定版,在Angular的简易性和开发者体验方面达到了一个重要的里程碑。如今,Angular将继续这一改进的势头,发布了自Angular最初推出以来最大的一次版本更新&…

springboot - spring.factories

spring.factories 是什么? spring.factories 是 Spring Boot 自动配置的核心机制之一,它用于自动注册 Spring Boot 中的各种自动配置类,从而实现自动化配置的目的。在 Spring Boot 应用程序启动时,Spring Boot 会自动扫描 classp…

如何在 VMware 中安装 Kali Linux

Kali Linux 是用于学习和练习黑客攻击和渗透测试的Linux发行版的不二之选。 而且,如果你经常捣鼓 Linux 发行版,出于好奇心,你可能已经尝试过它。 警告! 本文介绍的内容仅供学习 Kali Linux 的安装,请勿使用 Kali Lin…

【genius_platform软件平台开发】第九十七讲:常见Visual Studio版本号对应表VisualStudioVersion

1. sln文件格式 使用记事本打开.sln文件, 从一个外行角度看,VC/VS有3种版本号,具备一定的迷惑性:(xx表示具体的数字) MSVC xx(VC版本 eg. VC6.0) _MSC_VER VisualStudio xx(VS版本 eg. VS2012&#xf…

[Tool] python项目中集成使用Firebase推送功能

背景介绍 目前,App推送功能已经非常普遍,几乎所有App都有推送功能。推送功能可以自己实现,也可以使用第三方提供的推送服务(免费的收费的都有)。本文主要介绍使用Firebase提供的推送服务Firebase Cloud Messaging&…

微信小程序共享云开发环境的代码配置

微信小程序共享云开发环境的代码配置 1. 环境的分享配置2. 使用共享云开发环境的小程序代码编写2.1 初始化2.2 云函数调用 4. 拓展:共享环境的小程序获取openId4.1 小程序密钥的设置4.2 小程序内代码编写 4.3 云函数编写 小程序2022年进行了云开发付费调整&#xff…

【C++】详解二叉树进阶OJ题(更深入理解递归和非递归在二叉树的各种结构的应用)

前言: 我们在此前的初阶数据结构讲解中已经讲解了部分二叉树的OJ题,当时我们只学习了C语言,其实还有很多进阶的OJ题用C来写会比较方便和容易理解,所以本章将在讲解完二叉搜索树后来详解不同类型的二叉树进阶OJ题,校招中…

常用性能测试工具都有哪些特点?

在软件开发过程中,性能测试是不可或缺的一部分。通过性能测试,我们可以评估系统的响应速度、稳定性和容量等方面的表现,帮助我们发现和解决潜在的性能问题。而常用的性能测试工具也在不断发展和升级,成为了帮助我们完成性能测试的…

【ArcGIS Pro二次开发】(25):属性映射

属性映射经常用于属性表或Excel表的赋值,比如按用地用海表对规划用地的用地编码或用地名称赋值,将汇总好的用地指标表赋值给已经制好的Excel模板等。 下面试着在ArcGIS Pro SDK中实现功能上述这两个功能。 一、Excel表格映射到属性表Table 1、要实现的…

VMware虚拟机安装CentOS8详细教程

文章目录 一、下载安装包二、创建虚拟机1.安装 VMware2.创建虚拟机3.编辑虚拟机设置 三、系统安装1.开始安装2.时区设置3.分区设置4.配置网络6.开机密码7.配置安装源8.安装 四、系统配置1.网络检查2.配置静态IP地址 一、下载安装包 CentOS-7-x86_64【Minimal版】 https://mirro…

程序员必知必会!阿里内部热捧“Spring全线笔记”太完整了

前言 对于每一位Java开发人员来说,提起Spring定是不陌生的,实际上自Spring框架诞生以来,就备受开发者的青睐,基本上现在的互联网公司都要使用到Spring框架。Spring框架中又包含了SpringMVC、SpringBoot、SpringCloud等&#xff0…

OpenGL光照教程之 光照贴图

引言 前面的教程,我们讨论了让不同的物体拥有各自不同的材质并对光照做出不同的反应的方法。在一个光照场景中,让每个物体拥有和其他物体不同的外观很棒,但是这仍然不能对一个物体的图像输出提供足够多的灵活性。  前面的教程中我们将一个物…