机器学习前言2

news2025/5/20 14:34:45

1.机器学习
2.机器学习模型
3.模型评价方法
4.如何选择合适的模型

介绍

  机器学习(Machine Learning, ML)是人工智能(AI)的核心分支,致力于通过数据和算法让计算机系统自动“学习”并改进性能,而无需显式编程。前一篇文章机器学习前言1介绍了机器学习和统计学关系、机器学习的发展、机器学习与深度学习的相同点与不同点、机器学习和深度学习优缺点。链接机器学习前言1,这篇主要介绍机器学习模型和算法方面,几种不同内容分类。常听到说机器学习是做预测和分类,其实还有很多其他内容,比如迁移学习、强化学习等。这里我们主要是以类型划分,具体内容可以参考链接深度学习之卷积神经网络CNN详细,这篇主要以说明深度学习与其他类型之间联系,比如说监督学习、半监督学习、无监督学习等,图展示如下:在这里插入图片描述
如果想了解更多深度学习模型文献可参考这链接卷积神经网络CNN进步史之分类领域小论文文章总结帮助初学者找文献

一、机器学习

1.基本定义

  从数据中自动发现模式(规律),并利用这些模式进行预测或决策。核心思想是通过算法从历史数据中学习模型(数学模型或规则),泛化到新数据。机器学习算法是让计算机从数据中学习规律并做出预测或决策的核心工具。不同的算法适用于不同的问题类型(分类、回归、聚类等)和数据特征(线性/非线性、结构化/非结构化)。

2.步骤

(1)数据准备:数据清洗(处理缺失值、异常值)、特征工程(提取/选择有效特征)。
(2)模型选择:根据任务选择算法(如分类用随机森林,图像识别用CNN)。
(3)训练与评估:划分训练集/测试集,用交叉验证防止过拟合,评估指标(准确率、F1分数、RMSE等)。
(4)部署与迭代:模型上线后持续监控性能,反馈优化(如A/B测试)。

3.常用算法

(1)传统方法:逻辑回归、随机森林、梯度提升树(XGBoost)。
(2)深度学习:神经网络(CNN用于图像,RNN/LSTM用于时序数据,Transformer用于NLP)。
(3)新兴方向:图神经网络(GNN)、元学习(Learning to Learn)。

4.应用

(1)计算机视觉:人脸识别、医学影像分析。
(2)自然语言处理(NLP):机器翻译、聊天机器人。
(3)推荐系统:电商商品推荐(如协同过滤)。
(4)金融:信用评分、欺诈检测。
(5)工业:预测性维护、质量控制。

5.问题

(1)数据质量:噪声、偏差、数据量不足。
(2)过拟合:模型在训练集表现好,但泛化能力差。
(3)可解释性:深度学习模型常被视为“黑箱”。
(4)伦理问题:隐私、算法偏见。

二、机器学习模型

这里将根据三种不同的学习方式、结构和任务进行分类。

1.按学习方式分类

类型特点典型算法
监督学习模型使用带标签数据训练,预测目标变量线性回归、逻辑回归、SVM、决策树、神经网络
无监督学习模型数据无标签,用于发现隐藏结构K-Means、DBSCAN、PCA、GAN(生成对抗网络)
半监督学习模型结合少量标签数据和大量无标签数据Label Propagation、Self-Training
自监督学习模型自动生成标签(如对比学习)SimCLR、BERT(部分任务)
强化学习模型通过环境交互+奖励机制学习最优策略Q-Learning、Deep Q-Network (DQN)、Policy Gradients

2.按模型结构分类

类型特点典型算法
线性模型输入特征的线性组合线性回归、逻辑回归、LDA
非线性模型捕捉复杂非线性关系决策树、SVM(核方法)、神经网络
概率模型基于概率分布进行预测朴素贝叶斯、隐马尔可夫模型(HMM)
集成模型结合多个弱模型提升性能随机森林、XGBoost、AdaBoost
深度学习模型多层神经网络,自动特征提取CNN(图像)、RNN/LSTM(时序)、Transformer(NLP)

3.按任务类型分类

任务目标典型模型
回归(Regression)预测连续值(如房价)线性回归、XGBoost、神经网络
分类(Classification)预测离散类别(如垃圾邮件检测)逻辑回归、SVM、随机森林
聚类(Clustering)无监督数据分组(如用户分群)K-Means、层次聚类、GMM
降维(Dimensionality Reduction)减少特征数量,保留关键信息PCA、t-SNE、Autoencoder
生成模型(Generative Model)生成新数据(如图像、文本)GAN、VAE、Diffusion Models

三、模型评价方法

1.分类任务

指标说明
准确率(Accuracy)正确预测比例(适用于平衡数据)
精确率(Precision)预测为正的样本中实际为正的比例
召回率(Recall)实际为正的样本中被正确预测的比例
F1-Score精确率和召回率的调和平均
AUC-ROC衡量分类器区分正负样本的能力

2.回归任务

指标说明
均方误差(MSE)预测值与真实值的平方误差
均方根误差(RMSE)MSE的平方根
R²(决定系数)模型解释的方差比例

3.聚类任务

指标说明
轮廓系数(Silhouette Score)衡量聚类紧密度和分离度
Calinski-Harabasz指数类内方差 vs 类间方差

四、如何选择合适的模型

(1)问题类型(分类/回归/聚类)决定模型类别
(2)数据规模:小数据、大数据
(3)可解释性需求:高解释性、低解释性
(4)计算资源:轻量级、高计算需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2380031.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【成品设计】基于Arduino的自动化农业灌溉系统

《基于STM32的单相瞬时值反馈逆变器》 硬件设计: ESP-C3最小系统板:主控芯片,内部集成wifi。土壤湿度传感器:采集土壤湿度。温度传感器:采集土壤温度。水泵模块:水泵继电器软管。按键3个:参数…

前端页面 JavaScript数据交互

前言:学习JavaScript为前端设置动态效果,实现交互。JavaScript是一种广泛应用于网页开发的脚本语言,它能够使网页变得更加动态和交互性。作为一种客户端脚本语言,JavaScript可以被嵌入到HTML中,并且可以被所有现代的网…

esp32课设记录(三)mqtt通信记录 附mqtt介绍

目录 安装mqttx(云端部署) 安装mosquitto(本地部署) 编程,连接wifi 编程,连接mqtt,实现数据接收 实际效果展示: 附录:mqtt介绍 工作流程简述: 工作流…

string类(详解)

【本节目标】 1. 为什么要学习string类 2. 标准库中的string类 3. string类的模拟实现 4. 扩展阅读 1. 为什么学习string类? 1.1 C语言中的字符串 C 语言中,字符串是以 \0 结尾的一些字符的集合,为了操作方便, C 标准库中提供…

MATLAB | R2025a 更新了哪些有趣的东西?

千呼万唤始出来,MATLAB R2025A 来见面,这次更新比往常晚了两个月,让我们看看更了哪些好玩的新东西叭:首先下载更新启动一气呵成,映入眼帘的是: 1 基本界面 基本界面变得和 MATLAB 网页版一模一样了&#…

前缀和——和为K的子数组

作者感觉本题稍稍有点难度,看了题解也思考了有一会TWT 显然,暴力我们是不可取的,但这里我们可以采取一种新的遍历数组形式,从后向前,也就是以i位置为结尾的所有子数组,这个子数组只统计i位置之前的。 然后…

深入理解 ZAB:ZooKeeper 原子广播协议的工作原理

目录 ZAB 协议:ZooKeeper 如何做到高可用和强一致?🔒ZAB 协议的核心目标 🎯ZAB 协议的关键概念 💡ZAB 协议的运行阶段 🎬阶段一:Leader 选举 (Leader Election) 🗳️阶段二&#xff…

GraphPad Prism项目的管理

《2025新书现货 GraphPad Prism图表可视化与统计数据分析(视频教学版)雍杨 康巧昆 清华大学出版社教材书籍 9787302686460 GraphPadPrism图表可视化 无规格》【摘要 书评 试读】- 京东图书 GraphPad Prism统计数据分析_夏天又到了的博客-CSDN博客 项目…

驱动-Linux定时-timer_list

了解内核定时相关基础知识 文章目录 简要介绍timer_list 特点API 函数实验测试程序 - timer_mod.c编译文件-Makefile实验验证 注意事项总结 简要介绍 硬件为内核提供了一个系统定时器来计算流逝的时间(即基于未来时间点的计时方式, 以当前时刻为计时开始…

STM32F103_LL库+寄存器学习笔记22 - 基础定时器TIM实现1ms周期回调

导言 如上所示,STM32F103有两个基本定时器TIM6与TIM7,所谓「基本定时器」,即功能最简单的定时器。 项目地址: github: LL库: https://github.com/q164129345/MCU_Develop/tree/main/stm32f103_ll_library22_Basic_Timer寄存器方…

5个yyds的.Net商城开源项目

今天一起来盘点下5个商城开源项目。 1、支持多语言、多商店的商城,.Net7 EF7领域驱动设计架构(Smartstore) 项目简介 Smartstore 支持桌面和移动平台、多语言、多商店、多货币的商城,并支持SEO优化,支持无限数量的…

[项目深挖]仿muduo库的并发服务器的解析与优化方案

标题:[项目深挖]仿muduo库的并发服务器的优化方案 水墨不写bug 文章目录 一、buffer 模块(1)线性缓冲区直接扩容---->环形缓冲区定时扩容(只会扩容一次)(2)使用双缓冲(Double Buf…

国标GB28181视频平台EasyGBS校园监控方案:多场景应用筑牢安全防线,提升管理效能

一、方案背景​ 随着校园规模不断扩大,传统监控系统因设备协议不兼容、数据分散管理,导致各系统之间相互独立、数据无法互通共享。在校园安全防范、教学管理以及应急响应过程中,这种割裂状态严重影响工作效率。国标GB28181软件EasyGBS视频云…

SHIMADZU岛津 R300RC300 Operation Manual

SHIMADZU岛津 R300RC300 Operation Manual

使用 Docker 部署 React + Nginx 应用教程

目录 1. 创建react项目结构2. 创建 .dockerignore3. 创建 Dockerfile4. 创建 nginx.conf5. 构建和运行6. 常用命令 1. 创建react项目结构 2. 创建 .dockerignore # 依赖目录 node_modules npm-debug.log# 构建输出 dist build# 开发环境文件 .git .gitignore .env .env.local …

API Gateway REST API 集成 S3 服务自定义 404 页面

需求分析 使用 API Gateway REST API 可以直接使用 S3 作为后端集成对外提供可以访问的 API. 而当访问的 URL 中存在无效的桶, 或者不存在的对象时, API Gateway 默认回向客户端返回 200 状态码. 而实际上这并不是正确的响应, 本文将介绍如何自定义返回 404 错误页面. 基本功…

关于systemverilog中在task中使用force语句的注意事项

先看下面的代码 module top(data);logic clk; inout data; logic temp; logic sampale_data; logic [7:0] data_rec;task send_data(input [7:0] da);begin(posedge clk);#1;force datada[7];$display(data);(posedge clk);#1;force datada[6]; $display(data); (posed…

Python Day26 学习

继续NumPy的学习 数组的索引 一维数组的索引 创建及输出 arr1d np.arange(10) # 数组: [0 1 2 3 4 5 6 7 8 9] arr1d array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 取出数组的第一个元素,最后一个元素 代码实现 arr1d[0] arr1d[-1] 取出数组中索引为3&#x…

解决:npm install报错,reason: certificate has expired

目录 1. 问题分析2. 问题解决2.1 查看配置的镜像2.2 修改镜像源 种一棵树最好的时间是10年前,其次就是现在,加油! --by蜡笔小柯南 1. 问题分析 启动前…

中科固源Wisdom平台发现NASA核心飞行控制系统(cFS)通信协议健壮性缺陷!

中科固源Wisdom平台发现NASA核心飞行控制系统(cFS)通信协议健壮性缺陷,接下来内容将进行核心要点概述,分别从地位、重要性和应用场景三方面进行简明阐述: cFS(core Flight System)是NASA戈达德太空飞行中心&#xff08…