几行 Python 代码就可以提取数百个时间序列特征

news2025/8/13 18:21:53

以下所有内容均来自python绿色通道订阅号,个人整理主要为了个人方便查看,希望也可以对各位有所帮助

时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。

传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程,将数据的重要特征捕获到几个指标中。生成大量的时间序列特征并从中提取相关特征是一项耗时且繁琐的工作。

python的tsfresh包可以为时间序列数据生成标准的数百个通用特性。在本文中,我们将深入讨论tsfresh包的使用。

tsfresh 是一个可以生成数百个相关的时间序列特征的开源包。从 tsfresh 生成的特征可用于解决分类、预测和异常值检测用例。

tsfresh 包提供了对时间序列数据执行特征工程的各种功能,包括:

  • 特征生成

  • 特征选择

  • 与大数据的兼容性

安装tsfresh 也非常的简单,官方提供了pip和conda的安装方式:

 pip install -U tsfresh
 # or
 conda install -c conda-forge tsfresh

1、特征生成

tsfresh 包提供了一个自动特征生成 API,可以从 1 个时间序列变量中生成 750 多个相关特征。生成的特征广泛,包括:

  • 描述性统计(平均值、最大值、相关性等)

  • 基于物理的非线性和复杂性指标

  • 数字信号处理相关功能

  • 历史压缩特征

使用 tsfresh.extract_features() 函数可以为 1 个时间序列变量从多个域生成 789 个特征。

import pandas as pd
from tsfresh import select_features

# Read the time-series data
df = pd.read_excel("train.xlsx", parse_dates=['date']).set_index('date')

# automated feature generation
features = tsfresh.extract_features(df, column_id="date", column_sort="date")

​​​因为特征太多,所以具体的所有特征的介绍请查看官方文档。

2、特征选择

tsfresh 包还提供了一个基于假设检验的特征选择实现,可以用于识别目标变量的相关特征。为了限制不相关特征的数量,tsfresh 包含了fresh算法(fresh 代表基于可扩展假设测试的特征提取)。

tsfresh.select_features() 函数用户可以实现特征选择。

3、兼容大数据

当我们有大量的时间序列数据时。tsfresh还提供api来扩展特征的生成/提取,以及针对大量数据的特征选择实现:

  • 多线程处理:默认tsfresh包可以将特征生成/提取和特征选择在多核上并行执行。

  • 分布式框架:tsfresh还实现了一个自己的分布式框架,将特征计算分布在多台机器上加快计算速度。

  • Spark兼容:tsfresh还可以使用spark或Dask来处理非常大的数据。

最后总结,tsfresh可以通过几行Python代码中为时间序列特性生成和选择相关特性。

它会自动从基于时间的数据样本的多个域中提取和选择 750 +个经过实际测试的特征。它减少了数据科学家浪费在特征工程上的大量工作时间。

并且时间序列数据是相当大的,tsfresh 也通过多线程、支持dask和spark来处理单机处理不了的大数据样本。

tsfresh 的官方文档:

https://tsfresh.readthedocs.io/en/latest/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/33260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dp入门(二)

目录 45、跳跃计划 53、最大子数组和 55、跳跃游戏 62、不同路径 63、不同路径2 64、最小路径和 70、爬楼梯 72、编辑距离 84、柱形图中最大的矩形 85、最大矩形 4721、排队 45、跳跃计划 当前可移动距离尽可能多走,如果还没到终点,步数再加一。整体…

Spring Boot 入门

37) Boot 骨架项目 https://start.spring.io/pom.xml 38) Boot War项目 步骤1:创建模块,区别在于打包方式选择 war 步骤2:编写控制器 Controller public class MyController { ​RequestMapping("/hello")public String abc() …

南京溧水农民丰收节 国稻种芯·中国水稻节:江苏味稻文化

南京溧水农民丰收节 国稻种芯中国水稻节:江苏味稻文化 (融媒体记者 诸婧雯)新闻中国采编网 中国新闻采编网 谋定研究中国智库网 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会报道:由溧水区政府、市农业农村局主办…

MCE | Hippo 途径与靶向策略

在 PubMed 输入了“Hippo pathway or YAP/TAZ”,小编发现近十年来与 Hippo 通路沾点边的研究势头猛烈,且发的文章不少都“非富即贵”,如发表在 Nature Cell Biology 上的两篇关于 YAP (TAZ) 相变的文章 (两篇结论相反的文章,还能双…

红黑树C++实现

目录 一、红黑树的概念 二、红黑树的性质 三、红黑树节点的定义 四、红黑树的插入 4.1 插入节点 4.2 插入节点的颜色 4.3 调整情况1 4.4 调整情况2 4.5 调整情况3 4.6 调整情况总结 五、调整的实现 5.1 调整的步骤分析 5.2 代码实现 六、树的平衡判断 七、源代码…

微信小程序制作要多少钱?【制作小程序】

关于微信小程序制作要多少钱的问题,是很多企业商家在制作小程序之前需要了解的事项,因为总是听说制作小程序的费用有高有低,而他们又对这方面不太了解,所以也还是需要了解微信小程序制作要多少钱的。那么微信小程序制作要多少钱呢…

RocketMQ中生产者发消息前为啥一定要调用start()方法?

前言 我们在使用RocketMQ发送消息时,一般都会使用DefaultMQProducer,类型的代码如下: DefaultMQProducer producer new DefaultMQProducer("producer_group"); producer.setNamesrvAddr("42.192.50.8:9876"); try {pr…

Chrome 103支持使用本地字体,纯前端导出PDF优化

在前端导出PDF,解决中文乱码一直是一个头疼的问题。要解决这个问题,需要将ttf等字体文件内容注册到页面PDF生成器中。但是之前网页是没有权限直接获取客户机器字体文件,这时就需要从服务器下载字体文件或者提示用户选择字体文件上传到页面。对…

链接杂谈 CASPP

构建大型程序 构建大型程序,不可避免的一个问题是链接问题: - 链接器提示:缺少某个模块 缺少某个库 不兼容的库版本 理解全局变量的链接 你的代码可能有多个全局变量,有些是强变量,有些是弱定义,执行…

清除浮动的常用方法

关于浮动 我们为什么需要浮动? 我们想把多个块级元素放到同一行上。 打破标准流的限制。 浮动原来做图文混排效果,现在主要用来做网页布局的。 浮动语法 只有左浮动和右浮动。 float: left; float: right;浮动特点 1.浮动元素会脱离标准流&#x…

Win10禁止应用独占麦克风

痛点需求: qq和微信同时发起语音通话,发现只有一个qq说话对方能听到,但是微信却不能,这是典型的应用程序独占了麦克风,导致其他应用无法使用。 有没有办法让qq和微信同时使用麦克风呢? 答案是:有…

图的拓扑序列

拓扑序列: 拓扑序是按照点的先后顺序排列的。拓扑序列满足以下两点: 1.每个顶点在序列中出现且只出现一次。 2.若存在一条从顶点 A 到顶点 B 的路径,那么在序列中顶点 A 出现在顶点 B 的前面。 拓扑序列只存在于有向无环图中。可以理解成…

MCE | 肝炎病毒是如何诱发肝癌的

肝炎病毒分类 肝炎病毒是世界上最常见的肝炎病因,其它原因包括酗酒、某些药物、毒素、其他感染、自身免疫性疾病和非酒精性脂肪性肝炎 (NASH)。肝炎病毒共有五种主要的肝炎病毒株,分别为 A、B、C、D 和 E 型。目前,全世界大约有 3.25 亿人患…

2023中国绿色铝业国际峰会

会议背景 铝行业属于能源高度密集型行业,主要包括铝矿石开采、氧化铝生产、电解铝生产和铝材加工等环节。我国原铝产量自2001年以来一直占据世界首位,连续7年产量占比超过全球50%。然而与国际先进铝生产企业相比,我国铝生产企业单位原铝碳…

C# 自定义事件

一 自定义事件 例如,利用自定义绘制的技术,画出一个圆角按钮。 现在来看,怎么样给它添加自定义的事件。 二 要点与细节 1 Control 类本身就有继承的鼠标和键盘事件,这里只是一个引子,用于引出更复杂的自定义事件。 …

web测试——业务测试2

1.历史数据 前端: 组件相关  组件内部是否动过;  展示的数据是否受影响;  失焦后的校验(爆红) 页面样式相关  坐标位置、  按钮位置是否动过,  新版本上线对历史配置的影响 交互提示相关  新手引导的展示位置、关闭后的展…

pycharm2022.2 远程连接服务器调试代码

目的: 同步本地和服务器的全部或者部分文件本地debug,服务器跑实验 需要条件: 服务器上已经创建好虚拟环境你本地已经安装好pycharm 1.1 File → Settings → Project:XXX →Python Interpreter 打开之后再右边这添加解释器。选On SSH 1.2把…

简单的网页制作期末作业——电影泰坦尼克号(4页)

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

小学生python游戏编程arcade----excel调用

小学生python游戏编程arcade----excel调用前言小学生python游戏编程arcade----excel调用1、excel文件1.1 excel表头1.2 excel文件1.3 文件读取函数1.4 打开excel文件读取数据,每行一个字典,再总存为序列1.5 打开excel文件读取数据,取两列存为字典1.6 游戏…

[漏洞复现] jenkins 远程代码执行 (CVE-2019-100300)

文章目录一、简介二、影响版本三、复现四、修复一、简介 拥有Overall/Read 权限的用户可以绕过沙盒保护,在jenkins可以执行任意代码。此漏洞需要一个账号密码和一个存在的job。 Jenkins的pipeline主要是通过一个配置文件或者job里面的pipeline脚本配置来设定每个j…