机器学习的初学术语掌握

news2025/7/6 2:20:20
  • 机器学习:让一个模型能够通过数据调优自己,后续的数据可以通过模型获得更贴近真实的结论
  • 数据集:也叫样本,可以简单理解为一个个对象构建成的集合
  • 训练样本:构建的数据集中的一部分被拿来训练模型的子集
  • 标记:数据集中的对象可以被打上一个标签,比如你三天下了十笔订单,可以叫做高活用户
  • 标记空间:将对象中的数据和对象的标记组合,然后重新形成的集合就叫标记空间
  • 学习任务类别:分类(好瓜,坏瓜);回归(好瓜0.95,好瓜0.37);聚类(训练集中的对象根据自己的数据判断内在规律,打上标记)
  • 正类:分类任务中只涉及两个类别,我们需要判断出来的类别就是正类
  • 反类:分类任务中只涉及两个类别,我们不需要判断出来的类别就是反类
  • 测试样本:构建的数据集中一部分被用来测试模型的数据构成的集合就叫测试样本,一般测试样本是训练样本在全部数据集中的补集
  • 假设空间:对象可以整合的特征可能出现的集合
  • 版本空间:假设空间中和训练集一致的多个假设形成的子集
  • 机械学习:死记硬背式学习
  • 类比学习:从观察和发现中学习
  • 归纳学习:从训练样例中学习,涵盖了监督学习和无监督学习,也是主流
  • 连接主义:基于神经网络间连接机制形成的学派
  • 深度学习:基于神经网络的连接主义学习
  • 错误率:m=样本总数 a=错误样本分类 E=a/m
  • 精度:1-错误率
  • 过拟合:泛化性能下降,将只属于训练样本的特性作为全部数据的标准
  • 欠拟合:未从训练样本中得到一般性质
  • 留出法:评估学习器泛化误差的方法之一,将正反例区分后分别将三分之二或者五分之四作为训练集,其他作为测试样例
  • 交叉验证法:评估学习器泛化误差的方法之一,将数据集分成k个互斥子集,每次拿其中一个子集作为测试集,其他未训练集,进行k次(k一般为10,也有5和20)
  • 自助法:评估学习器泛化误差的方法之一,先从m个样本的数据集d中随机采样m次,每次采样完将采样的样本放到新的数据集d‘中,不删除d中原有的样本,这样我们可以得出结论样本采样m次始终没有被采的概率是1/e(约等于0.368),将d\d'作为测试集,d’作为训练集,这样我们会有约总量三分之一没有经过训练的数据作为测试。
  • 均方误差:回归任务的常用性能度量

  • 错误率:二分类任务中分类错误样本数占总样本数的比率

  • 精度:二分类任务中分类正确样本数占总样本数的比率

  • 查准率:P,查找出来的数据有多少是正确的

  • 查全率:查找出来的正确数据是所有正确数据的多少

  • 分类结果混淆矩阵:二分类任务中,将真实类别和预测类别组合可以分为四个情况;tp,fp,tn,fn,四者之和是样例总数,如果预测是正,结果是真,则为tp;如果预测为反,结构为正,则是fn;如果预测是正,结果是反,则为fp,如果预测是反,结果是反则为tn

  • pr曲线:每次学习器不同的调整出现数据后,根据查全率和查准率形成的图形
  • 平衡点:pr曲线中查准率和查全率相等的坐标,一般数值越大表示学习器越好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/7067.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络面试题

1. TCP建⽴连接的过程。 三次握⼿: 1. 第⼀次握⼿(客户端发送syn包到服务器端):客户端发送syn包到服务器端,进⼊syn_send状态,等待服务器端的确认; 2. 第⼆次握⼿(服务器返回synack包给客户端):服务器端…

Js逆向教程-08跟值技巧

Js逆向教程-08跟值技巧 一、加密函数最有可能出现在哪里? 一般不会出现在jquery成熟的第3仓库里面。 jquery是封装好的成熟的第3仓库,一般不会去修改它。 因为如果jquery版本提升了,还要去改jquery。 一般会出现在自己写的js代码中&#x…

LabVIEW性能和内存管理 3

LabVIEW性能和内存管理 3 本文介绍LabVIEW性能和内存管理的几个建议3。 显示缓冲区分配。 “显示缓冲区分配”工具位于工具>配置文件>显示缓冲区分配 In Place优化例程。对波形数组的每个元素进行操作 下面是如何使用ShowBuffer allocation工具提高性能的示例。从层次…

HashMap的面试题

目录 1、底层数据结构 1.7和1.8有何不同 2、为什么用红黑树,为何不一上来就树化,树化阈值为何是8,何时会树化,何时会退化为链表 3、索引如何计算?hashCode都有了,为何还要提供hash()方法?数组…

综合实验——高级网络应用检测

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 综合实验 实验要求 三层交换机配置 三层交换机一 三层交换机…

教程详解从照片到倾斜摄影模型、影像地形点云的成果输出,网页端Web发布展示

一、数据获取 需要自己在下面网址中下载相应数据,获取the island of Torbjrnskjr,下载后,共计200张带pos的jpg照片,存储到纯英文目录下 国外Sensefly共享的航拍数据 包括数据原片、分辨率介绍、覆盖范围,飞行高度、照…

Linux-实操篇8-shell脚本编写

一、shell是什么 二、shell脚本如何执行 2.1 新建一个shell脚本 ## 第一步新建一个shell脚本 vim aaa.sh ## 内容如下,#!/bin/bash 表示shell脚本的执行协议,必须要写 #!/bin/bash echo "hello word!!!"2.2 执行方式 方式一:先给…

R语言中的函数19:openxlsx::read.xlsx(), write.xlsx(), writeData(), writeDataTable()

文章目录read.xlsx()函数介绍实例writeData()和writeDataTable()函数介绍实例write.xlsx()函数介绍实例read.xlsx()函数介绍 read.xlsx(xlsxFile,sheet,startRow 1,colNames TRUE,rowNames FALSE,detectDates FALSE,skipEmptyRows TRUE,skipEmptyCols TRUE,rows NULL,c…

Oracle技术分享 卸载grid软件

如果grid软件安装失败,可能需要重新安装,这时候紧紧删除软件是解决不了问题的,还需要删除grid的配置信息,需要安装软件的原因各式各样。 1 资源无法启动。 2 root.sh执行失败。 1 如果执行root.sh失败,可以删除&#x…

相似度系列8:unify-BARTSCORE: Evaluating Generated Text as Text Generation

BARTSCORE: Evaluating Generated Text as Text Generation 这篇文章是用生成模型解决问题,根据生成模型中输入和输出的差别,代表不同的评测方面。 不足:针对不同的任务选择bart score的输入和输出?different input and output co…

Allegro 172版本自动放置层叠

Allegro 172版本自动放置层叠 Allegro 172版本支持自动放置层叠,无需手动绘制,效果如下图 具体操作步骤如下 选择Manufacture-选择Cross Section Chart命令 会出现一个对话框 常用参数介绍如下 Chart Unit 是层叠单位 Maximun Chart height 是层叠的高度 X-Scale Factor…

预约挂号项目之预约挂号模块

目录一、预约挂号详情1、需求分析2、api接口2.1 、controller代码:2.2 、Service类接口:2.3 、添加service接口实现:学习指南: https://www.zhihu.com/question/351439302/answer/2362637429?utm_id0 一、预约挂号详情 1、需求…

[数据结构]链表OJ题 (三) 链表的中间结点、链表中倒数第k个结点、合并两个有序链表、链表分割、链表的回文结构

作者: 华丞臧. 专栏:【数据结构】 各位读者老爷如果觉得博主写的不错,请诸位多多支持(点赞收藏关注)。如果有错误的地方,欢迎在评论区指出。 推荐一款刷题网站 👉 LeetCode刷题网站 文章目录一、链表的中间结点题目描述…

Python学习笔记(十六)——Numpy

Numpy NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包, 其中包含了数组对象(向量、矩阵、图像等)以及线性代数等。 NumPy库主要功能 • ndarray(数组)是具有矢量算术运算和复杂广播能力的多维数组。 • 具有用于对数组数…

项目资源管理从学会向上管理开始

“如何一句话证明你当过项目经理?” 这个话题在网上引发了广大项目管理人的兴趣,纷纷发表了个人看法(变相吐槽)。各种回答戳中笑点,同时也表达了作为项目经理的心酸。  “普通的薪资水平,却要为整个项目的…

基于微信公众平台API的菜谱小程序 的设计与实现

摘 要 由于人们生活水平的不断提高,人们对网络的需求也是不断提高,但是又不想通过下载各种不常用的app增加手机内存。小程序正好就可以做到这个特点,不用下载、及实际用、用完就走,现在很多的行业兴起,尤其餐饮行业最…

D. Decrease the Sum of Digits

Problem - 1409D - Codeforces 题意: 你得到了一个正整数n。在一次移动中,你可以使n增加1(即使n:n1)。你的任务是找出为了使n的数位之和小于或等于s,你需要执行的最小移动数。 你必须回答t个独立的测试案例。 输入 输入的第一…

基于最小二乘支持向量机(LS-SVM)进行分类、函数估计、时间序列预测和无监督学习(Matlab代码实现)

📝个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,…

Webpack基础使用 + 高级配置【重点!】

http://xxpromise.gitee.io/webpack5-docs/senior/optimizePerformance.html#code-split 笔记好评!!!!一定要把网址记好,真的nice!!!! 只是发博客记录一下,没…

java后端pageHelper分页实现方法

文章目录背景方法一:mysql的limit进行分页方法二:使用插件Mybatis-PageHelper(拦截器原理)1、本质2.实现步骤引入依赖修改application.yml修改代码总结背景 当一次查库数据量较大,不光给数据库带来压力,同时前端渲染页面压力也很…