微调模型——续(Machine Learning 研习之十三)

news2025/6/17 8:36:32

集成方法

微调系统的另一种方法是尝试组合性能最佳的模型。 群体(或“整体”)通常会比最好的单个模型表现得更好,就像随机森林比它们所依赖的单个决策树表现更好一样,特别是当各个模型犯下不同类型的错误时。 例如,您可以训练和微调 k 最近邻模型,然后创建一个仅预测随机森林预测和该模型预测的平均值的集成模型。

分析最佳模型及其错误

通过检查最佳模型,您通常会获得对问题的深入见解。 例如,RandomForestRegressor可以指示每个属性对于做出准确预测的相对重要性:

在这里插入图片描述

让我们按降序对这些重要性分数进行排序,并将它们显示在相应的属性名称旁边:

在这里插入图片描述

有了这些信息,您可能想尝试删除一些不太有用的功能(例如,显然只有一个ocean_proximity类别真正有用,因此您可以尝试删除其他功能)。

您还应该查看系统所犯的具体错误,然后尝试了解为什么会犯这些错误,以及如何解决问题:添加额外的功能或删除无信息的功能,清理异常值等。

现在也是一个好时机,可以确保您的模型不仅平均运行良好,而且适用于所有类别的地区,无论是农村还是城市、富裕还是贫穷、北部还是南部、少数民族还是非少数民族等。 每个类别的验证集需要一些工作,但这很重要:如果您的模型在整个地区类别上表现不佳,那么在问题解决之前可能不应该部署它,或者至少不应该使用它 对该类别进行预测,因为它可能弊大于利。

在测试集上评估您的系统

对模型进行一段时间的调整后,您最终会得到一个性能足够好的系统。 您已准备好在测试集上评估最终模型。 这个过程没有什么特别的; 只需从测试集中获取预测变量和标签并运行Final_model来转换数据并进行预测,然后评估这些预测:

X_test = strat_test_set.drop("median_house_value", axis=1) 
y_test = strat_test_set["median_house_value"].copy()

final_predictions = final_model.predict(X_test)
final_rmse = mean_squared_error(y_test, final_predictions, squared=False) 

print(final_rmse)  # prints 41424.40026462184 

在某些情况下,这样的泛化误差点估计不足以说服您启动:如果它只比当前生产的模型好 0.1% 怎么办? 您可能想了解这个估计的精确度。 为此,您可以使用 scipy.stats.t.interval() 计算泛化误差的 95% 置信区间。 您会得到从 39,275 到 43,467 的相当大的区间,而您之前的点估计值 41,424 大致位于中间:

在这里插入图片描述

如果您进行了大量的超参数调整,性能通常会比使用交叉验证测量的性能稍差。 这是因为您的系统最终经过微调以在验证数据上表现良好,但在未知数据集上可能表现不佳。 本示例中的情况并非如此,因为测试 RMSE低于验证 RMSE,但当发生这种情况时,您必须抵制调整超参数以使数字在测试集上看起来不错的诱惑; 这些改进不太可能推广到新数据。

现在是项目预启动阶段:您需要展示您的解决方案(突出显示您所学到的内容、有效的内容和无效的内容、做出的假设以及系统的局限性),记录所有内容,并使用以下内容创建精美的演示文稿: 清晰的可视化和易于记忆的陈述(例如,“收入中位数是房价的第一预测指标”)。 在这个加州住房示例中,系统的最终性能并不比专家的价格估计好多少,专家的价格估计通常会下降 30%,但启动它可能仍然是一个好主意,特别是如果这样可以释放更多资金 给专家一些时间,以便他们可以从事更有趣、更有成效的任务。

启动、监控和维护您的系统

您现在需要准备好用于生产的解决方案(例如,完善代码、编写文档和测试等)。 然后您可以将模型部署到生产环境。 最基本的方法就是保存您训练的最佳模型,将文件传输到您的生产环境并加载它。 要保存模型,您可以使用 joblib 库,如下所示:

import joblib
joblib.dump(final_model, "my_california_housing_model.pkl")

一旦您的模型转移到生产中,您就可以加载并使用它。 为此,您必须首先导入模型依赖的任何自定义类和函数(这意味着将代码转移到生产环境),然后使用 joblib 加载模型并使用它进行预测:

import joblib [...]  # import KMeans, BaseEstimator, TransformerMixin, rbf_kernel, etc.
def column_ratio(X): [...] 
    
def ratio_name(function_transformer, feature_names_in): [...] 
    
class ClusterSimilarity(BaseEstimator, TransformerMixin): [...]
final_model_reloaded = joblib.load("my_california_housing_model.pkl")
new_data = [...]  # some new districts to make predictions for predictions = final_model_reloaded.predict(new_data) 

例如,该模型可能会在网站中使用:用户将输入有关新地区的一些数据,然后单击“估计价格”按钮。 这会将包含数据的查询发送到 Web 服务器,服务器将其转发到您的 Web 应用程序,最后您的代码将简单地调用模型的 Predict() 方法(您希望在服务器启动时加载模型,而不是每次都加载模型) 使用该模型)。 或者,您可以将模型包装在专用 Web 服务中,您的 Web 应用程序可以通过 REST API13 查询该模型(见下图)。 这使得您可以更轻松地将模型升级到新版本,而无需中断主应用程序。 它还简化了扩展,因为您可以根据需要启动任意数量的 Web 服务,并在这些 Web 服务之间对来自 Web 应用程序的请求进行负载平衡。 此外,它允许您的 Web 应用程序使用任何编程语言,而不仅仅是 Python。

在这里插入图片描述

另一种流行的策略是将模型部署到云端,例如在 Google 的 Vertex AI(以前称为 Google Cloud AI PlatformGoogle Cloud ML Engine)上:只需使用 joblib保存模型并将其上传到 Google Cloud Storage (GCS), 然后前往 Vertex AI 并创建一个新的模型版本,将其指向 GCS 文件。 就是这样! 这为您提供了一个简单的 Web 服务,可以为您处理负载平衡和扩展。 它接受包含输入数据(例如,某个地区)的 JSON 请求,并返回包含预测的 JSON 响应。 然后,您可以在您的网站(或您正在使用的任何生产环境)中使用此 Web 服务。 正如您将在第 19 章中看到的,在 Vertex AI上部署 TensorFlow模型与部署 Scikit-Learn 模型没有太大区别。

但部署并不是就此结束。 您还需要编写监控代码来定期检查系统的实时性能,并在性能下降时触发警报。 它可能会很快下降,例如,如果您的基础设施中的某个组件发生故障,但请注意,它也可能会非常缓慢地下降,很容易在很长一段时间内被忽视。 由于模型腐烂,这种情况很常见:如果模型是用去年的数据训练的,它可能无法适应今天的数据。

因此,您需要监控模型的实时表现。 但是,你是怎么做的? 这得看情况。 在某些情况下,可以从下游指标推断模型的性能。 例如,如果您的模型是推荐系统的一部分,并且它建议用户可能感兴趣的产品,那么很容易监控每天销售的推荐产品数量。 如果这个数字下降(与非推荐产品相比),那么主要的嫌疑就是该型号。 这可能是因为数据管道被破坏,或者模型可能需要根据新数据重新训练。

但是,您可能还需要人工分析来评估模型的性能。 例如,假设您训练了一个图像分类模型来检测生产线上的各种产品缺陷。 如果模型性能下降,在数千件有缺陷的产品被运送给您的客户之前,您如何才能收到警报? 一种解决方案是向人类评分者发送模型分类的所有图片的样本(尤其是模型不太确定的图片)。 根据任务的不同,评估者可能需要是专家,也可能是非专家,例如众包平台(例如 Amazon Mechanical Turk)上的工作人员。 在某些应用程序中,他们甚至可能是用户本身,通过调查或重新调整用途的验证码等方式进行响应。

无论哪种方式,您都需要建立一个监控系统(有或没有人工评估员来评估实时模型),以及所有相关流程来定义发生故障时该做什么以及如何做好准备。 不幸的是,这可能需要大量工作。 事实上,这通常比构建和训练模型要复杂得多。

如果数据不断变化,您将需要定期更新数据集并重新训练模型。 您可能应该尽可能自动化整个过程。 以下是您可以自动化执行的一些操作:

  • 定期收集新数据并对其进行标记(例如,使用人工评分者)。
  • 编写脚本来训练模型并自动微调超参数。 该脚本可以自动运行,例如每天或每周,具体取决于您的需要。
  • 编写另一个脚本,在更新的测试集上评估新模型和之前的模型,如果性能没有下降,则将模型部署到生产环境(如果确实下降,请确保调查原因)。 该脚本可能应该在测试集的各个子集上测试模型的性能,例如贫困地区或富裕地区、农村或城市地区等。

您还应该确保评估模型的输入数据质量。 有时,由于信号质量差(例如,故障传感器发送随机值,或其他团队的输出变得过时),性能会略有下降,但系统的性能可能需要一段时间才能下降到足以触发警报。 如果您监控模型的输入,您可能会更早发现这一点。 例如,如果越来越多的输入缺少某个特征,或者平均值或标准差偏离训练集太远,或者分类特征开始包含新类别,您可以触发警报。

最后,确保保留您创建的每个模型的备份,并拥有快速回滚到以前的模型的流程和工具,以防新模型由于某种原因开始严重失败。 有了备份还可以轻松地将新模型与以前的模型进行比较。 同样,您应该保留数据集的每个版本的备份,以便在新数据集损坏时(例如,如果添加到其中的新数据充满了异常值),您可以回滚到以前的数据集。 备份数据集还允许您根据任何以前的数据集评估任何模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1503816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

瑞_JVM虚拟机_类的生命周期

文章目录 1 JVM虚拟机概述2 类的生命周期2.1 加载阶段2.1.1 加载过程2.1.2 查看内存中的对象&#xff08;hsdb工具&#xff09; 2.2 连接阶段2.2.1 验证2.2.2 准备&#xff08;final特殊&#xff09;2.2.3 解析 2.3 初始化阶段\<client> ★★★2.4 使用阶段2.5 卸载阶段 …

深入理解神经网络

图片怎么被识别的过程 (每层神经网络是数组,会对进来的数据进行加权求和[(weight*数据 然后累加) bias])(激活函数是为了训练weight和bias偏移值,在每个神经网络)(分类器会统计概率分类) 2. 引用链接 https://mp.weixin.qq.com/s?__bizMzIyNjMxOTY0NA&mid2247500124&…

蓝桥集训之鱼塘钓鱼

蓝桥集训之鱼塘钓鱼 核心思想&#xff1a;多路归并 人不会在鱼塘间往返浪费时间将每个鱼塘的取值列出 想要最多鱼 就是每次在最顶上取最大注意&#xff1a;找最大的顺序和实际钓鱼的顺序不同 先在一个坑钓完再去另一个 #include <iostream>#include <cstring>#…

猫头虎分享已解决Bug || 系统监控故障:MonitoringServiceDown, MetricsCollectionError

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

把握机遇:2024年游戏行业春招提前批全攻略

当前&#xff0c;国内游戏行业正处于高速发展期&#xff0c;各大游戏公司对应届毕业生的人才需求十分旺盛。这一趋势不仅为即将步入职场的学生们提供了广阔的就业前景&#xff0c;也为游戏产业的创新和多元化发展注入了新鲜血液。 在这样的大环境下&#xff0c;2024年春季提前批…

2024038期传足14场胜负前瞻

2024038期售止时间为3月10日&#xff08;周日&#xff09;20点30分&#xff0c;敬请留意&#xff1a; 本期深盘多&#xff0c;1.5以下赔率3场&#xff0c;1.5-2.0赔率2场&#xff0c;其他场次是平半盘、平盘。本期14场整体难度中等偏上。以下为基础盘前瞻&#xff0c;大家可根据…

数字化转型导师坚鹏:大模型的应用实践(金融)

大模型的应用实践 ——开启人类AI新纪元 打造数字化转型新利器 课程背景&#xff1a; 很多企业和员工存在以下问题&#xff1a; 不清楚大模型对我们有什么影响&#xff1f; 不知道大模型的发展现状及作用&#xff1f; 不知道大模型的针对性应用案例&#xff1f; 课程…

GPT-4-turbo还是大家心中第一!Claude 3竞技场人类投票成绩出炉:仅居第三

Claude 3的竞技场排名终于揭晓了&#xff1a; 在仅仅3天的时间里&#xff0c;20000张投票使得排名的流量达到了前所未有的高度。 最后&#xff0c;Claude 3的"大杯"模型Opus以1233的分数赢得了胜利&#xff0c;成为了第一个能和GPT-4-Turbo匹敌的选手。 "中杯…

VUE Element例子学习

参考:【前端】VueElement UI案例&#xff1a;通用后台管理系统-项目总结_vue elementui 管理系统-CSDN博客 之前参考的el-admin-web太复杂了&#xff0c;不是纯净的demo. 所以找了一圈资料&#xff0c;找到了这个博客&#xff0c;很合适&#xff0c;有例子的代码&#xff0c;…

安全先行,合规的内外网文件摆渡要重点关注什么?

内外网隔离在政府、军工部门、科研单位等已成为很常见的网络安全建设措施&#xff0c;内外网隔离是一种网络安全措施&#xff0c;用于保护内部网络免受外部网络的攻击和威胁。 内外网隔离的目的在于限制内外网之间的通信和数据交换&#xff0c;但网络隔离后&#xff0c;仍有数据…

深入解析汽车MCU的软件架构

一、背景知识 电动汽车&#xff08;EV&#xff09;正在成为首选的交通方式&#xff0c;为传统内燃机汽车提供了一种可持续发展的环保型替代方案。在电动汽车复杂的生态系统中&#xff0c;众多电子控制单元&#xff08;ECU&#xff09;在确保其高效运行方面发挥着至关重要的作用…

ChatGPT 串接到 Discord - 团队协作好助理

ChatGPT 串接到 Discord - 团队协作好助理 ChatGPT 是由 OpenAI 开发的一个强大的语言模型&#xff0c;本篇文章教你如何串接 Discord Bot &#xff0c;协助团队在工作上更加高效并促进沟通与协作。使 ChatGPT 发挥出最大的功效&#xff0c;进一步提升工作效率和团队协作能力。…

Joe主题网站

一款博客网站源码 发现源码为大家内置了主题 清爽又强大真正的永久可用的一条源码&#xff0c;该版本为整合版本&#xff0c;内置了Joe主题&#xff0c;搭建后直接启用即可~ 安装环境要求&#xff1a; PHP 7.2 以上 MySQL, PostgreSQL, SQLite 任意一种数据库支持&#xff0c;…

拿捏算法的复杂度

目录 前言 一&#xff1a;算法的时间复杂度 1.定义 2.简单的算法可以数循环的次数&#xff0c;其余需要经过计算得出表达式 3.记法&#xff1a;大O的渐近表示法 表示规则&#xff1a;对得出的时间复杂度的函数表达式&#xff0c;只关注最高阶&#xff0c;其余项和最高阶…

Linux--gdb(调试工具)

1. 背景 程序的发布方式有两种&#xff0c;debug模式和release模式 Linux gcc/g出来的二进制程序&#xff0c;默认是release模式 要使用gdb调试&#xff0c;必须在源代码生成二进制程序的时候, 加上 -g 选项 2. 命令 gdb binFile 退出&#xff1a; ctrl d 或 quit 调试命令&am…

欧科云链:角力Web3.0,香港如何为合规设线?

在香港拥抱Web3.0的过程中,以欧科云链为代表的合规科技企业将凸显更大重要性。 ——据香港商报网报道 据香港明报、商报等媒体报道&#xff0c;港区全国政协兼香港选委界立法会议员吴杰庄在日前召开的全国两会上提出在大湾区建设国际中小企业创新Web3融资平台等提案&#xff0…

《Python源码剖析》之字符串拼接的一个效率问题

前言 我们常用的字符串拼接方法有两个&#xff0c;一个是通过“”号实现字符串的拼接&#xff0c;还一个就是通过join方法来实现拼接&#xff0c;前者在写法上更加便利&#xff0c;和数字之间的加法运算一样&#xff0c;通常只有两个运算对象&#xff0c;只不过他们的运算规则…

300分钟吃透分布式缓存-26讲:如何大幅成倍提升Redis处理性能?

主线程 Redis 自问世以来&#xff0c;广受好评&#xff0c;应用广泛。但相比&#xff0c; Memcached 单实例压测 TPS 可以高达百万&#xff0c;线上可以稳定跑 20~40 万而言&#xff0c;Redis 的单实例压测 TPS 不过 10~12 万&#xff0c;线上一般最高也就 2~4 万&#xff0c;…

7. 交叉开发环境设置

嵌入式交叉编译工具 ​ 交叉编译工具是为了使在上位机中编译的文件能够在不同平台的目标机中执行&#xff0c;搭建交叉编译环境是嵌入式开发的第一步&#xff0c;也是关键的一步。不同的体系结构、不同的操作系统&#xff0c;甚至是不同版本的内核&#xff0c;都会用到不同的交…

差距拉开了!量化大厂最新业绩排行曝光!

经历了一月份的失落和二月份绝地反攻&#xff0c;量化大厂们的整体业绩备受关注。 而今年2月份的量化战绩&#xff0c;甚为关键&#xff01; 毕竟市场指数“前低后高”&#xff0c;基金经理与投资人开年以来&#xff0c;共同经历了“惊心动魄”的考验。 量化大厂&#xff0c…