基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列 优化参数为决策树数...
基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列 优化参数为决策树数目和深度 采用交叉验证抑制过拟合问题 matlab代码 暂无Matlab版本要求 -- 推荐 2018B 版本及以上 采用 RF 工具箱无需安装可直接运行仅支持 Windows 64位系统做时序预测最怕啥是手里RF随机森林调参调到深夜眼冒金星要么树少欠拟合要么树深过拟合——今天直接掏出PSO这个「懒癌救星参数调优黑盒」把树的数量ntree和深度maxdepth直接甩给粒子群再搭个5折交叉验证稳一手泛化性附Windows64位能用的Matlab原生RF工具箱代码2018B往上直接跑。先唠1块钱的原理别跳就几句话时序预测的核心是把历史数据「滑窗」成RF能吃的监督学习样本这个咱们后面用代码说。剩下的参数问题n_tree太少≈瞎凑投票模型方差大太多≈投票大会超时但精度不会无限涨有个饱和点max_depth太浅≈模型太笨抓不住趋势太深≈死记硬背昨天的每一秒波动比如上周三停电半小时的数据也算进去了不对滑窗一般会过滤或者训练集不含但叶子节点太纯肯定会记噪声那PSO怎么干就像一群蚂蚁找蛋糕每个蚂蚁粒子代表一组「ntreemaxdepth」的组合一开始瞎逛后来根据自己找到的「最好吃的」历史交叉验证误差最小的参数和「整个蚁群找到的」全局最优调整方向直到找不到更甜的了。核心代码来了分三块滑1. 准备数据滑窗先随便造个带趋势带噪声的时序数据不然用真实数据太麻烦大家直接替换就行滑成Xtrain/Xtest过去N天的数据和Ytrain/Ytest第N1天的数据。基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列 优化参数为决策树数目和深度 采用交叉验证抑制过拟合问题 matlab代码 暂无Matlab版本要求 -- 推荐 2018B 版本及以上 采用 RF 工具箱无需安装可直接运行仅支持 Windows 64位系统这里我滑窗设成过去7天时序常用的周度窗口大家改成小时/分钟也一样训练集前80%测试集后20%。%% 第一步造数据/加载真实数据滑窗预处理 clear;clc;close all; % 1.1 造个像模像样的时序趋势正弦波动高斯噪声 t 1:365; % 模拟365天 trend 0.5*t; % 线性增长趋势 season 10*sin(2*pi*t/30); % 月度正弦波动 noise 5*randn(1,365); % 高斯噪声 data trend season noise; % 1.2 滑窗函数封装成匿名函数或者子函数方便用 % 输入原始时序data窗口大小window_size % 输出特征矩阵X每一行是过去window_size天标签Y每一行是第window_size1天 window2dataset (data, ws) deal(... arrayfun((i) data(i:iws-1), 1:length(data)-ws, UniformOutput, false),... data(ws1:end)... ); window_size 7; % 改成你需要的窗口 [X, Y] window2dataset(data, window_size); % 1.3 划分训练测试集按时间顺序别打乱 train_ratio 0.8; train_len floor(length(Y)*train_ratio); X_train X(1:train_len,:); Y_train Y(1:train_len,:); X_test X(train_len1:end,:); Y_test Y(train_len1:end,:);⚠️划重点警告划重点警告时序数据绝对不能用cvpartition打乱划分必须按时间顺序不然测试集数据泄漏到训练集里误差看起来1%都不到实际用起来全是坑。2. 写PSO的「适应度函数」适应度函数就是粒子群的「评分表」评分越低越好。这里用5折交叉验证的均方误差MSE当评分因为交叉验证能稳过拟合MSE直观大家改成MAE/RMSE/R²也一样注意R²要取负数因为PSO找最小。%% 第二步写PSO的适应度函数放在同一个.m文件里或者单独存fitness.m也行 function mse_cv fitness(params, X_train, Y_train) % params是粒子的位置也就是待优化的参数 % params(1) n_tree决策树数量整数PSO默认浮点数后面要取整 % params(2) max_depth决策树最大深度整数同样取整 n_tree round(params(1)); max_depth round(params(2)); % Matlab原生的TreeBagger函数就是RF不用额外装工具箱 % 注意TreeBagger第一个参数必须是树的数量第二个参数是标签第三个是特征 % Method,regression是回归因为咱们做时序预测分类用classification % MinLeafSize,1默认是1叶子节点最小样本数这里咱们只优化树的数量和深度所以固定 % MaxNumSplits, floor((2^max_depth)-1)MaxDepth其实是控制最大分裂次数2^d-1就是完全二叉树的分裂数对应深度d % 交叉验证用kfoldLoss5折用kfoldTreeBagger cv_tree kfoldTreeBagger(n_tree, Y_train, X_train, ... Method,regression, ... MaxNumSplits, floor((2^max_depth)-1), ... KFold,5); % 计算5折交叉验证的MSE mse_cv kfoldLoss(cv_tree, LossFun,mse); end3. 启动PSO优化这里我直接用Matlab自带的particleswarm函数2014b还是2015b出的反正2018b肯定有不用额外装PSO工具箱太香了参数范围怎么设给个经验值就行别太夸张n_tree10~200太少飘再多跑半天max_depth2~15太浅笨太深记噪声%% 第三步启动PSO优化 % 定义参数范围lb是下限ub是上限 lb [10, 2]; % n_tree≥10max_depth≥2 ub [200, 15]; % n_tree≤200max_depth≤15 % 定义适应度函数的额外输入X_train,Y_train obj_fun (params) fitness(params, X_train, Y_train); % 调用particleswarm函数 % 输出best_params是全局最优参数best_fitness是对应的最小MSE % Display,iter是显示每一代的迭代过程不想看改成off % SwarmSize,20是粒子群的大小经验值是20~50越大越准但越慢 % MaxIterations,30是最大迭代次数经验值20~50 rng(0); % 固定随机种子方便复现 [best_params, best_fitness] particleswarm(obj_fun, 2, lb, ub, ... Display,iter, ... SwarmSize,20, ... MaxIterations,30); % 把最优参数取整 best_n_tree round(best_params(1)); best_max_depth round(best_params(2)); fprintf(\n优化完成最优参数\n决策树数量n_tree %d\n决策树最大深度max_depth %d\n5折交叉验证MSE %.4f\n,... best_n_tree, best_max_depth, best_fitness);最后测试一下画图用最优参数训个完整的RF然后测试集预测画个对比图。%% 第四步测试最优模型画图 % 训完整的RF final_rf TreeBagger(best_n_tree, Y_train, X_train, ... Method,regression, ... MaxNumSplits, floor((2^best_max_depth)-1)); % 测试集预测 Y_pred predict(final_rf, X_test); % 计算测试集的MSE、RMSE、R² test_mse mean((Y_pred - Y_test).^2); test_rmse sqrt(test_mse); test_r2 1 - sum((Y_pred - Y_test).^2)/sum((Y_test - mean(Y_test)).^2); fprintf(\n测试集性能\nMSE %.4f\nRMSE %.4f\nR² %.4f\n,... test_mse, test_rmse, test_r2); % 画图训练集真实值测试集真实值测试集预测值 figure(Color,w,Position,[100,100,1000,400]); hold on; plot(1:train_len, Y_train, b-,LineWidth,1,DisplayName,训练集真实值); plot(train_len1:length(Y), Y_test, g-,LineWidth,1.5,DisplayName,测试集真实值); plot(train_len1:length(Y), Y_pred, r--,LineWidth,1.5,DisplayName,测试集预测值); xlabel(时间天); ylabel(目标值); legend(Location,best); title([PSO-RF时间序列预测窗口,num2str(window_size),天最优n_tree,num2str(best_n_tree),最优max_depth,num2str(best_max_depth),]); grid on; hold off;碎碎念几句替换真实数据的时候记得把自己的时序数据丢进去就行滑窗函数不用改窗口大小window_size、PSO的粒子群大小SwarmSize、最大迭代次数MaxIterations这些「超超参数」也可以微调但粒子群已经帮咱们省了90%的力了先凑合用经验值跑通再说如果是分类问题比如预测明天股票涨/跌把TreeBagger的Method,regression改成classification适应度函数的LossFun,mse改成LossFun,classerror就行只支持Windows64位TreeBagger在其他系统的Matlab原生版本好像有问题大家如果是Mac/Linux可以换成第三方的RF工具箱或者用Python的sklearn不过用户要的是Matlab代码所以就说Windows64运行一下看看结果反正我这里用随机种子0最优参数大概是ntree120左右maxdepth8左右测试集R²能到0.98因为造的数据比较干净真实数据可能会低一点但交叉验证已经帮咱们滤掉不少过拟合的坑了。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2445558.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!