Mean-Shift聚类方法

news2025/5/25 7:37:05

 

刘玉琪

·

跟随

出版于

台湾人工智能学院

·

一、说明

        上一篇介绍了基于密度的分群方法——DBSCAN,本篇会介绍另一个分群方法——Mean Shift,与DBSCAN一样不需要预先知道欲分群的数量,而对于分群的形状也没有限制。

        然而,这个方法是基于核密度估计(kernel Density Estimation)的演算。可以想象数据是从同一个机率分布的数据集抽取的,而KDE(Kernel Density Estimation)的方法就是去估计数据的分布情况。 Mean Shift算法在许多领域都有成功的应用,例如图像分割、物体追踪等。下面将详细介绍该方法的基本概念、演算法、以及算法实作。

二、基本概念  

        Mean Shift主要的思想是假设数据集的密度以多个合成的核函数分布,然后随核密度分布,而数据集的所有点只要沿着密度对应的方向移动,直到位于最近最大密度的位置,意即计算密度估计曲线的最大值,便能将数据分群。

  • 核密度估计(kernel Densityestimation)

利用核函数(kernel)来得出数据点x_1, x_2, … , x_n的分布来稀疏密度的分布曲线(机率分布),所以对一个数据点x来说,机率的估计可以写成

K为核函数(核函数),d为维度,h为带宽(带宽)。不同的h对核密度估计有很大的影响。太小的h会使得KDE的峰值为数据集的所有点(自成一类);手工则可以缩短一个(休闲一类)。

左图为数据集;右图为验证密度估计曲线带宽为2

左图的带宽为0.05,右图的带宽为5

三、关于核函数(kernel function)

核函数一般以零为中心点的函数,表示为

c_{k, d}是正规化参数,使得函数的积分值为1

最常见的是高斯函数,定义为

常用的核函数(kernel function)。来源:https://en.wikipedia.org/wiki/Kernel_(statistics)

Mean Shift 算法会沿着 KDE 的轻微方向寻找机率上升,因此考虑

g(s) = -k'(s),则

前一项为核函数,后一项则为均值平移向量

利用迭代的方式更新中心点:

  1. 计算当前的均值平移向量m_h(center_old)
  2. 中心点沿平均偏移量移动做为新的中心点,意即center_new = center_old +mean shift。

直至收敛以找到准确估计收敛的位置。

四、演算 

输入:资料集D,以及带宽bandwidth

输出:目标分群集合Clusters

  1. 从附带分群的数据点中选择一个起始点做为中心。

2.将距离中心点小于带宽的数据点分为同群,记为集合M。

红色点为集合M里的元素

3. 计算从中心点到集合M中每个元素的计算,并做计算平均相加得到平均偏移计算均值 平移向量。

橘色向量即为均值平移向量

4. 中心点沿线平均偏移允许移动做为新的中心点,意即center = center +mean shift。

橘色点为新的中心点(会往KDE的顶部方向移动)

5. 重复步骤2、3、4,直到中心点不再动趋势(否则找到局部极大值)。若该群的中心点已归于先前所分的群中,则将两个群合并为同一群。

6. 重复以上步骤直至所有点均已完成财务状况。

五、算法实操代码  

        使用Sklearn.cluster.MeanShift套件:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import MeanShift, estimate_bandwidth
from sklearn import datasets
#create datasets
X,y = datasets.make_blobs(n_samples=50, centers=3, n_features=2, random_state= 20, cluster_std = 1.5)
#estimate bandwidth
bandwidth = estimate_bandwidth(X, quantile=0.2, n_samples=1000)
#Mean Shift method
model = MeanShift(bandwidth = bandwidth, bin_seeding = True)
model.fit(X)
labels = model.fit_predict(X)
#results visualization
plt.figure()
plt.scatter(X[:,0], X[:,1], c = labels)
plt.axis('equal')
plt.title('Prediction')
plt.show()

右图预测的结果概率会有所不同,由此估计带宽为 2.92

        用于影像分割 …

import numpy as np
import matplotlib.pyplot as plt
from skimage.transform import rescale
from sklearn.cluster import MeanShift, estimate_bandwidth
import cv2
#load image
img = cv2.imread('AIA.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
img = rescale(img, 0.2)
rows, cols, chs= img.shape
#convert image shape [rows, cols, 3] into [rows*cols, 3]
feature_img = np.reshape(img, [-1, 3])
#estimate bandwidth
bandwidth = estimate_bandwidth(feature_img, quantile=0.2, n_samples=1000)
#Mean Shift method
model = MeanShift(bandwidth = bandwidth, bin_seeding = True)
model.fit(feature_img)
labels = model.fit_predict(feature_img)
#results visualization
fig = plt.figure(figsize = (20, 12))
ax = fig.add_subplot(121)
ax1 = fig.add_subplot(122)    
    
ax.imshow(img)
ax1.imshow(np.reshape(labels, [rows, cols]))
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Scrapy的调试工具和日志系统定位并解决爬虫问题

目录 摘要 一、Scrapy简介 二、Scrapy的调试工具 1、Shell调试工具 2、断点调试 三、Scrapy的日志系统 四、实例解析 1、启用详细日志 2、断点调试 3、分析日志 4、解决问题 五、代码示例 总结 摘要 本文详细介绍了如何使用Scrapy的调试工具和日志系统来定位并解…

0基础学习VR全景平台篇第118篇:利用动作录制器功能避免重复操作 - PS教程

上课!全体起立~ 大家好,欢迎观看蛙色官方系列全景摄影课程! 嗨,大家好。欢迎收看蛙色VR系列教程之PS利用动作记录器节约补地时间。 大家拍摄在补地的时候,利用插件选择输入输出选项的时候,每次重复操作…

完美解决RuntimeError: expected scalar type Long but found Float

文章目录 一、错误解释RuntimeError: expected scalar type Long but found Float二、错误分析三、解决办法总结 一、错误解释RuntimeError: expected scalar type Long but found Float RuntimeError:应为标量类型Long,但找到了Float 二、错误分析 我…

开源一个房屋租赁平台

前言 哈喽兄弟们,好久不见哦~ 最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的,虽然这些项目普遍都写的比较简单,但想一想既然放在电脑里面也吃灰,那么还不如开源分享出去,没准还可以…

每日一题 --- 力扣318----最大单词长度乘积

这道题时间复杂度我感觉设置的不是很好,应该最好是有一个1000变成10000就行。 因为我在做这道题的时候被误导了,以为双重循环暴力判断一下也能过,因为1000*1000 *26的时间复杂度没有到1亿,那么我刚开始认为是能过的,结…

用Rust和Scraper库编写图像爬虫的建议

本文提供一些有关如何使用Rust和Scraper库编写图像爬虫的一般建议: 1、首先,你需要安装Rust和Scraper库。你可以通过Rustup或Cargo来安装Rust,然后使用Cargo来安装Scraper库。 2、然后,你可以使用Scraper库的Crawler类来创建一个…

海洋专用cmocean颜色包_共22种--全平台可用

海洋专用cmocean颜色包_共22种–全平台可用 往期推荐: Python语言_matplotlib包_共80种–全平台可用 Python语言_single_color_共140种–全平台可用 R语言_RColorBrewer包–全平台可用 R语言gplots包的颜色索引表–全平台可用 R语言中的自带的调色板–五种–全平台…

Python Tkinter快速入门

一、背景 接了一个小活,需要做一个比特币走势分析小工具,客户希望能安装在Mac上,考虑后决定采用Python的Tkintermatplotlib来做,今天我们就来了快速了解一下Tkinter。 二、Tkinter介绍 Tkinter是Tk的Python版本,而T…

Spring boot集成sentinel限流服务

Sentinel集成文档 Sentinel控制台 Sentinel本身不支持持久化,项目通过下载源码改造后,将规则配置持久化进nacos中,sentinel重启后,配置不会丢失。 架构图: 改造步骤: 接着我们就要改造Sentinel的源码。…

灵活多样的流水号生成方式:JVS低代码表单满足你的各种需求

在数字化时代,表单成为了我们日常生活和工作中不可或缺的一部分。无论是在线申请、数据录入还是业务流程管理,表单都发挥着重要的作用。为了确保数据的准确性和可追溯性,流水号的概念应运而生。流水号作为表单数据记录的唯一标识,…

2022ICPC,济南站(M,E,D

初见安~好久好久没写博客了……感觉还是有必要写的。 拿去年济南的题目训练了一下,状态还不错,写一下自己写过了的题目的题解。 M Best Carry Player 题意:给你n个数,交换他们的顺序使依次相加后总的进位次数最少(十…

代码随想录打卡第62天|● 503.下一个更大元素II ● 42. 接雨水

● 503.下一个更大元素II 题目:给定一个循环数组 nums ( nums[nums.length - 1] 的下一个元素是 nums[0] ),返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数组遍历顺序,这个数字之后的第…

蓝桥杯每日一题2023.11.6

取位数 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 由题意我们知道len中为现阶段长度&#xff0c;如果其与k相等也就是找到了正确的位数&#xff0c;否则就调用递归来进行搜索&#xff0c;每次搜索一位数。 #include <stdio.h> // 求x用10进制表示时的数位长度 int …

你的停机真的优雅么?第二弹来袭 | 京东云技术团队

1. 前言 之前总结了一篇基于现有业务线在停机重启时会产生RPC和MQ调用强杀导致业务数据不一致文章&#xff0c;文中通过优雅停机改造对RPC服务进行反注册和MQ进行暂停消费&#xff0c;进而可以解决在停机时强制kill掉RPC线程或者MQ线程导致数据不一致现象&#xff0c;具体的原…

DolphinDB 流计算优化实践:时延统计与性能调优

在实时计算中&#xff0c;端到端的响应延迟是衡量计算性能时最重要的指标。DolphinDB 内置的流数据框架支持流数据的发布与订阅、流式增量计算、实时关联等&#xff0c;用户能够快速实现复杂的实时计算任务&#xff0c;达到毫秒级甚至亚毫秒级的效果&#xff0c;而无需编写大量…

这8个Wireshark使用技巧,网工屡试屡爽!

你们好&#xff0c;我的网工朋友。 都懂哈&#xff0c;wireshark是个啥我就不多赘述了&#xff0c;软件功能十分强大就对了。 想安装的可以戳这里&#xff1a;《wireshark下载&安装 》 wireshark作为网工的得力助手&#xff0c;你知道哪些使用技巧&#xff1f; 今天就给…

2023软考-系统架构师一日游

上周六&#xff08;11月4号&#xff09;参见了软考&#xff0c;报的系统架构师&#xff0c;今年下半年是第一次推行机考&#xff0c;简单来分享下大致流程&#xff0c;至于考试难度、考点什么的&#xff0c;这个网上有很多专门研究这些的机构&#xff0c;本人无权发言。考试的经…

每日一题 318. 最大单词长度乘积(中等)

暴力求解没超时&#xff0c;那就这样吧 class Solution:def maxProduct(self, words: List[str]) -> int:ans 0for i in range(len(words)):for j in range(i 1, len(words)):if len(words[i]) * len(words[j]) < ans:continuet 0for k in range(26):ch chr(k ord(…

XCTF-Crypto1

Caesar 题目描述 oknqdbqmoq{kag_tmhq_xqmdzqp_omqemd_qzodkbfuaz} 分析解密 根据题目Caesar推测是凯撒加密 当偏移量为12时&#xff0c;成功得到flag&#xff1a;cyberpeace{you_have_learned_caesar_encryption} Morse 题目描述 11 111 010 000 0 1010 111 100 0 00 000 …

外汇天眼:不要等到被骗才追悔莫及,远离以下被吊销牌照的平台!

监管信息早知道&#xff01;外汇天眼将每周定期公布监管牌照状态发生变化的交易商&#xff0c;以供投资者参考&#xff0c;规避投资风险。如果平台天眼评分过高&#xff0c;建议投资者谨慎选择&#xff0c;因为在外汇天眼评分高不代表平台没问题&#xff01; 以下是监管牌照发生…