【机器学习】DBSCAN密度聚类算法(理论 + 图解)

news2025/7/13 20:40:14

文章目录

  • 一、前言
  • 二、DBSCAN聚类算法
  • 三、DBSCAN算法步骤
  • 四、算法的理解
  • 五、常用评估方法:轮廓系数

一、前言

之前学聚类算法的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了。

为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。接下来的文章里会详细解读一下DBSCAN密度聚类算法。

下面贴上它的官方解释:

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。

该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

DBSCAN是一种基于密度的聚类算法,可以根据样本分布的紧密程度决定,同一类别的样本之间是紧密相连的,不同类别样本联系是比较少的。

DBSCAN算法需要用到参数:

  • eps( ϵ \epsilon ϵ):一种距离度量,用于定位任何点的邻域内的点
  • minPts:聚类在一起的点的最小数目,超过这一阈值才算是一个族群

DBSCAN聚类完成后会产生三种类型的点:

  • 核心点(Core)——该点表示至少有 m m m个点在距离n的范围内
  • 边界点(Border) ——该点表示在距离 n n n处至少有一个核心
  • 噪声点(Noise) ——它既不是核心点也不是边界点。并且它在距离自身 n n n的范围内有不到 m m m个点

在这里插入图片描述

三、DBSCAN算法步骤

  1. 算法通过任意选取数据集中的一个点(直到所有的点都访问到)来运行
  2. 如果在该点的“ε”半径范围内至少存在“minPoint”点,那么认为所有这些点都属于同一个聚类
  3. 通过递归地重复步骤1、步骤2 对每个相邻点的邻域计算来扩展聚类

四、算法的理解

在这里插入图片描述

上面这些点是分布在样本空间的众多样本,现在我们的目标是把这些在样本空间中距离相近的聚成一类。

我们发现 A A A点附近的点密度较大,红色的圆圈根据一定的规则在这里滚啊滚,最终收纳了 A A A附近的5个点,标记为红色也就是定为同一个簇。

其它没有被收纳的根据一样的规则成簇。

形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。

等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如 A A A,停下来的那个点为边界点,如 B B B C C C,没得滚的那个点为离群点,如 N N N)。

基于密度这点有什么好处呢?

我们知道kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下面两张图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。

于是就思考,样本密度大的成一类呗,这就是DBSCAN聚类算法。

上面提到了红色圆圈滚啊滚的过程,这个过程就包括了DBSCAN算法的两个参数,这两个参数比较难指定,公认的指定方法简单说一下:

  • 半径:半径是最难指定的 ,大了,圈住的就多了,簇的个数就少了;反之,簇的个数就多了,这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r,也就是要找到突变点,比如:
    在这里插入图片描述
    以上虽然是一个可取的方式,但是有时候比较麻烦 ,大部分还是都试一试进行观察,用 k k k距离需要做大量实验来观察,很难一次性把这些值都选准。
  • MinPts:这个参数就是圈住的点的个数,也相当于是一个密度,一般这个值都是偏小一些,然后进行多次尝试

五、常用评估方法:轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient):

在这里插入图片描述

  • 计算样本i到同簇其它样本到平均距离 a i a_i ai a i a_i ai越小,说明样本i越应该被聚类到该簇(将 a i a_i ai称为样本i到簇内不相似度);
  • 计算样本 i i i到其它某簇 C j C_j Cj的所有样本的平均距离 b i j b_{ij} bij,称为样本 i i i与簇 C j C_j Cj的不相似度。定义为样本i的簇间不相似度: b i = min ⁡ ( b i 1 , b i 2 , ⋯   , b i k 2 ) b_i=\min(b_{i1},b_{i2},\cdots,b_{ik2}) bi=min(bi1,bi2,,bik2)

说明:

  • s i s_i si接近1,则说明样本i聚类合理;
  • s i s_i si接近-1,则说明样本i更应该分类到另外的簇;
  • s i s_i si近似为0,则说明样本i在两个簇的边界上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/362414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

等保2.0丨5分钟速览:小白也能看懂的等保2.0介绍

等级保护2.0自2019年12月1日正式实施起,到现在已经有两个多月的时间,但是仍然有刚刚进入等保领域的“萌新”反馈,需要小编再做一个简单的介绍,那么今天的干货内容,我们就来一起了解什么是等保2.0,最新实施的…

数学(一)-- LeetCode[12][13] 整数转罗马数字

1 整数转罗马数字 1.1 题目描述 罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符数值I1V5X10L50C100D500M1000例如, 罗马数字 2 写做 II ,即为两个并列的 1。12 写做 XII &…

消灭EMC的三大利器:电容器/电感/磁珠

滤波电容器、共模电感、磁珠在EMC设计电路中是常见的身影,也是消灭电磁干扰的三大利器。 对于这三者在电路中的作用,相信还有很多工程师搞不清楚,文章从设计中详细分析了消灭EMC三大利器的原理。 1 、滤波电容 尽管从滤除高频噪声的角度…

json-server的入门到抢后端饭碗

1.json-server概述 json-server是一个 Node 模块,运行 Express 服务器,你可以指定一个 json 文件作为 api 的数据源。 通俗来说, json-server模拟服务端接口数据,一般用在前端人员可以不依赖后端的API开发,而在本地搭…

基于Spring Boot的教务管理系统

文章目录项目介绍主要功能截图:登录首页学生信息管理班级信息管理教师信息管理教师评价部分代码展示设计总结项目获取方式🍅 作者主页:Java韩立 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题…

Java服务导致CPU爆表异常排查

一、前言之前的博客有提到过面对Tomcat部署的java服务出现内存溢出该如何定位,今天来记录下Tomcat部署的java服务出现CPU爆表的事故该如何定位。二、正文针对Linux系统在处理CPU爆满时会有相关指令可以一步到位,相关资料度娘有很多。本文重点以Windows系…

九龙证券|权重股引领A股强势反弹 沪指创今年以来最大单日涨幅

周一,沪深两市强势反弹,上证综指全天收涨超2%,创本年以来最大单日涨幅。到收盘,上证综指报3290.34点,上涨2.06%;深证成指报11954.13点,上涨2.03%;创业板指报2480.79点,上…

JAVA集合之并发集合

从Java 5 开始,在java.util.concurrent 包下提供了大量支持高效并发访问的集合接口和实现类,如下图所示: 以CopyOnWrite开头的集合即写时复制的容器。通俗的理解是当我们往一个容器添加元素的时候,不直接往容器添加,而…

Spring依赖注入(一):字段注入的方式是如何工作的?

前言写这篇文章的起因,是因为我想写篇文章来分享一下:Spring是如何解决循环依赖的?然后在分析的时候,我发现如果要想说清楚Spring是如何解决循环依赖的,那么就必须得先说清楚什么是循环依赖?从字面理解&…

智慧公厕系统为管理方提供更丰富的管理手段

很多时候,当人们外出游玩、在写字楼办公、商场购物、乘坐地铁火车出行时,都会看到公厕前面会有排队的现象,特别是对于人口流动大,公厕设施少的公共区域,队伍更是极其的长。智慧公厕可以解决传统公厕的脏乱差、异味和管…

LeetCode 535. TinyURL 的加密与解密

TinyURL 是一种 URL 简化服务, 比如:当你输入一个 URL https://leetcode.com/problems/design-tinyurl 时,它将返回一个简化的URL http://tinyurl.com/4e9iAk 。请你设计一个类来加密与解密 TinyURL 。 加密和解密算法如何设计和运作是没有限…

从0探索NLP——KenLM

从0探索NLP——KenLM 导航帖 前情提要 上一篇文章介绍了传统统计语言模型——NGram的原理及其平滑方式,本次介绍一下基于这些理论的一种实现KenLM。 常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等 KenLM比SRILM晚出来,训练速度也更快&am…

Kaldi语音识别技术(八) ----- 整合HCLG

Kaldi语音识别技术(八) ----- 整合HCLG 文章目录Kaldi语音识别技术(八) ----- 整合HCLGHCLG 概述组合LG.fst可视化 LG.fst组合CLG.fst可视化CLG.fst生成H.fst组合HCLG.fst生成HaCLG.fst生成HCLG.fstHCLG 概述 HCLG min(det(H o min(det(C o min(det(L o G))))) 将…

KT1025A蓝牙音频芯片_立讯KC认证FCC测试现场整改记录

目录 一、问题说明简介 测试机构立讯反馈,客户寄的样板进行无线KC【韩国】测试不过,体现在如下两点 蓝牙部分接收杂散不过 蓝牙的发射功率偏低 2.1 单独只给蓝牙部分供电的测试图片--OK 2.2 单独给整板供电--但是使用电池供电 2.3 单独给整板供电-…

2022FALL嵌入式大纲

Jamslade 部分内容有遗漏,可结合 超文本 2022FALL《嵌入式系统原理》期末复习笔记 一起观看 文章目录嵌入式系统片上系统实时系统硬实时系统软实时系统伪指令DMA传输波特率单/半双/全双工通信;对齐/非对齐访问地址译码代码临界区RISCBIOSUARTSPII2CWDTRO…

推荐一款新的自动化测试框架:DrissionPage

今天给大家推荐一款基于Python的网页自动化工具:DrissionPage。这款工具既能控制浏览器,也能收发数据包,甚至能把两者合而为一,简单来说:集合了WEB浏览器自动化的便利性和 requests 的高效率。 一、DrissionPage产生背…

跳跃游戏-力扣55-java动态规划

一、题目描述给定一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标。示例 1:输入:nums [2,3,1,1,4]输出:true解释:可以先跳…

区间合并计算问题(LC-1326、LC-1024、LC-55、LC-45)

区间合并计算问题 文章目录区间合并计算问题[1326. 灌溉花园的最少水龙头数目](https://leetcode.cn/problems/minimum-number-of-taps-to-open-to-water-a-garden/)贪心[1024. 视频拼接](https://leetcode.cn/problems/video-stitching/)[55. 跳跃游戏](https://leetcode.cn/p…

[JavaEE系列] 详解面试中HTTP协议HTTPS协议

文章目录HTTP不安全HTTPS中的加密算法对称加密非对称加密混合加密HTTPS中的摘要算法HTTPS中的数字证书SSL /TLS握手TCP建立连接(三次握手)三次握手中常见的面试题:TCP断开连接(四次挥手)四次挥手中常见的面试题&#x…

比亚迪决定不给日系留“活路”了

本文来源:品驾/ 导读 /比亚迪的战争又打响了。2月10日,比亚迪秦PLUS DM-i2023冠军版正式上市,新车虽然改动不大,但起步价已至99800元,DM-i车型价格首次下探到10万以下这个区间。这场战争有那么可怕吗?有人还…