机器学习算法-k-means

news2025/6/4 8:33:35

今天我们用 「超市顾客分组」 的例子来讲解K-means算法,从原理到实现一步步拆解,保证零基础也能懂!


🛒 例子背景

假设你是超市经理,手上有顾客的以下数据:

顾客ID每月消费金额(元)每周到店次数
130002
250008
335003
470006
520001

你想把顾客分成 3个群体,分别制定营销策略,该怎么做?


🌟 K-means原理

1. 核心思想

"物以类聚" —— 让相似特征的顾客自动聚成一类
➡️ 通过计算距离,把数据划分到最近的簇(cluster)

2. 算法步骤

1️⃣ 随机选3个初始中心点(比如选顾客1/2/3作为初始中心)
2️⃣ 把所有顾客分到最近的中心(按距离计算)
3️⃣ 重新计算中心点(取各簇的平均值)
4️⃣ 重复2-3步直到中心点不再变化

3. 距离计算(欧氏距离)

比如顾客4(7000,6)到中心点(5000,8)的距离:
√[(7000-5000)² + (6-8)²] = √(4,000,000 + 4) ≈ 2000


🎯 具体分步演示

初始随机中心

  • 中心1:顾客1 (3000,2)

  • 中心2:顾客2 (5000,8)

  • 中心3:顾客3 (3500,3)

第一轮分组

  1. 顾客4到三个中心的距离:

    • 到中心1:√[(7000-3000)²+(6-2)²] ≈ 4000

    • 到中心2:≈2000

    • 到中心3:≈3504
      → 归到中心2的簇

  2. 同理分组其他顾客

重新计算中心

  • 中心2的新位置 = (5000+7000)/2=6000, (8+6)/2=7 → (6000,7)

重复直到稳定(通常3-5轮)


🛠️ Python代码实现

from sklearn.cluster import KMeans
import numpy as np

# 准备数据
X = np.array([
    [3000, 2],
    [5000, 8],
    [3500, 3],
    [7000, 6],
    [2000, 1]
])

# 创建模型(分3类)
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# 查看结果
print("簇中心点坐标:\n", kmeans.cluster_centers_)
print("各顾客所属簇:", kmeans.labels_)

# 预测新顾客
new_customer = np.array([[4000, 4]])
print("新顾客所属簇:", kmeans.predict(new_customer))

输出示例

簇中心点坐标:
 [[ 3333.33   2.  ]  # 低频低消费组
 [ 6000.     7.  ]  # 高频高消费组
 [ 2000.     1.  ]] # 低频低消费组(可能异常值)
各顾客所属簇: [0 1 0 1 2]
新顾客所属簇: [0]

📊 结果解读

簇号特征营销策略
0中等消费,低频到店发送折扣券刺激消费
1高消费,高频到店推送VIP专属福利
2低消费,低频到店发送新商品试用邀请

🔍 关键细节

  1. 如何选K值?

    • 肘部法则(Elbow Method):观察不同K值时误差下降的拐点

  2. 特征标准化很重要!

    • 消费金额(3000-7000)和到店次数(1-8)量纲不同,需先标准化:

      from sklearn.preprocessing import StandardScaler
      X_scaled = StandardScaler().fit_transform(X)
       
  3. 算法局限性

    • 对初始中心敏感(可能局部最优)→ 多跑几次选最好结果

    • 只适合球形分布数据(对复杂形状需用DBSCAN等算法)


🌰 实际应用场景

  1. 用户画像:电商用户分群

  2. 图像压缩:用16种颜色代表所有像素(K=16)

  3. 异常检测:离所有中心点远的点可能是异常

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2396525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ADQ36-2通道2.5G,4通道5G采样PXIE

ADQ36是一款高端12位四通道灵活数据采集板,针对高通道数科学应用进行了优化。ADQ36具有以下特性: 4 / 2模拟输入通道每通道2.5 / 5 GSPS7gb/秒的持续数据传输速率两个外部触发器通用输入/输出(GPIO)ADQ36数字化仪包括固件FWDAQ ADQ36简介 特…

数字创新智慧园区建设及运维方案

该文档是 “数字创新智慧园区” 建设及运维方案,指出传统产业园区存在管理粗放等问题,“数字创新园区” 通过大数据、AI、物联网、云计算等数字化技术,旨在提升园区产业服务、运营管理水平,增强竞争力,实现绿色节能、高效管理等目标。建设内容包括智能设施、核心支撑平台、…

【科研绘图系列】R语言绘制森林图(forest plot)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图系统信息介绍 本文介绍使用R语言绘制森林图(forest plot)的方法。首先加载必要的R包(grid、forestploter、openxlsx、stringr),导入并预处…

SpringAI+DeepSeek大模型应用开发实战

内容来自黑马程序员 这里写目录标题 认识AI和大模型大模型应用开发模型部署方案对比模型部署-云服务模型部署-本地部署调用大模型什么是大模型应用传统应用和大模型应用大模型应用 大模型应用开发技术架构 SpringAI对话机器人快速入门会话日志会话记忆 认识AI和大模型 AI的发…

如何以 9 种方式将照片从 iPhone 传输到笔记本电脑

您的 iPhone 可能充满了以照片和视频形式捕捉的珍贵回忆。无论您是想备份它们、在更大的屏幕上编辑它们,还是只是释放设备上的空间,您都需要将照片从 iPhone 传输到笔记本电脑。幸运的是,有 9 种方便的方法可供使用,同时满足 Wind…

根据jvm源码剖析类加载机制

根据jvm源码剖析类加载机制 java Test.class之后的大致流程 java Test.class ----> 对于windows操作系统 ----> java.exe调用jvm.dll文件创建JVM, ----> 在创建JVM中先由C的代码创建Boostarp(引导)类加载器, ----&g…

DDS通信中间件——DDS-TSN规范

DDS通信中间件——DDS-TSN规范 做了十年DDS通信中间件产品的程序员和大家分享一下对DDS这套规范的个人理解。预期本系列文章将包括以下内容陆续更新: DDS规范概述DCPS规范解读 & QoS策略XTypes规范解读RTPS规范解读DDS安全规范解读DDS-RPC规范解读&#xff08…

JWT安全:弱签名测试.【实现越权绕过.】

JWT安全:假密钥【签名随便写实现越权绕过.】 JSON Web 令牌 (JWT)是一种在系统之间发送加密签名 JSON 数据的标准化格式。理论上,它们可以包含任何类型的数据,但最常用于在身份验证、会话处理和访问控制机制中发送有关用户的信息(“声明”)。…

Baklib知识中台加速企业服务智能化实践

知识中台架构体系构建 Baklib 通过构建多层级架构体系实现知识中台的底层支撑,其核心包含数据采集层、知识加工层、服务输出层及智能应用层。在数据采集端,系统支持对接CRM、ERP等业务系统,结合NLP技术实现非结构化数据的自动抽取&#xff1…

VMware Tools 手动编译安装版

OWASPBWA安装VMware tools 安装时,显示如下提示 官方安装手册参考:https://knowledge.broadcom.com/external/article?legacyId1014294 按照提示,下载linux.iso文件,并连接到虚拟机的CDROM里,状态勾选已连接&#x…

android平台驱动开发(六)--Makefile和Kconfig简介

Makefile: 1.编译进内核,还是以模块方式加载 模块方式编译成ko,通常是自己添加脚本方式insmod ,android 平台通常默认有modprobe加载,不需要额外添加insmod脚本 lsmod |grep test 可以查看是否安装成功 rmmod test-m.ko 可以删除ko 2.多…

【手写系列】手写线程池

PS&#xff1a;本文的线程池为演示 Demo&#xff0c;皆在理解线程池的工作原理&#xff0c;并没有解决线程安全问题。 最简单一版的线程池 public class MyThreadPool {// 存放线程&#xff0c;复用已创建的线程List<Thread> threadList new ArrayList<>();publ…

Live Helper Chat 安装部署

Live Helper Chat(LHC)是一款开源的实时客服聊天系统,适用于网站和应用,帮助企业与访问者即时沟通。它功能丰富、灵活、可自托管,常被用于在线客户支持、销售咨询以及技术支持场景。 🧰 系统要求 安装要求 您提供的链接指向 Live Helper Chat 的官方安装指南页面,详细…

ARXML解析与可视化工具

随着汽车电子行业的快速发展,AUTOSAR标准在车辆软件架构中发挥着越来越重要的作用。然而,传统的ARXML文件处理工具往往存在高昂的许可费用、封闭的数据格式和复杂的使用门槛等问题。本文介绍一种基于TXT格式输出的ARXML解析方案,为开发团队提供了一个高效的替代解决方案。 …

PnP(Perspective-n-Point)算法 | 用于求解已知n个3D点及其对应2D投影点的相机位姿

什么是PnP算法&#xff1f; PnP 全称是 Perspective-n-Point&#xff0c;中文叫“n点透视问题”。它的目标是&#xff1a; 已知一些空间中已知3D点的位置&#xff08;世界坐标&#xff09;和它们对应的2D图像像素坐标&#xff0c;求解摄像机的姿态&#xff08;位置和平移&…

在日常管理服务器中如何防止SQL注入与XSS攻击?

在日常管理服务器时&#xff0c;防止SQL注入&#xff08;Structured Query Language Injection&#xff09;和XSS&#xff08;Cross-Site Scripting&#xff09;攻击是至关重要的&#xff0c;这些攻击可能会导致数据泄露、系统崩溃和信息泄露。以下是一份技术文章&#xff0c;介…

Wkhtmltopdf使用

Wkhtmltopdf使用 1.windows本地使用2.golangwindows环境使用3.golangdocker容器中使用 1.windows本地使用 官网地址 https://wkhtmltopdf.org/&#xff0c;直接去里面下载自己想要的版本&#xff0c;这里以windows版本为例2.golangwindows环境使用 1.安装扩展go get -u githu…

ArcGIS Pro 创建渔网格网过大,只有几个格网的解决方案

之前用ArcGIS Pro创建渔网的时候&#xff0c;发现创建出来格网过大&#xff0c;只有几个格网。 后来查阅资料&#xff0c;发现是坐标不对&#xff0c;导致设置格网大小时单位为度&#xff0c;而不是米&#xff0c;因此需要进行坐标系转换&#xff0c;网上有很多资料讲了ArcGIS …

重学计算机网络之以太网

一&#xff1a;历史发展进程 DIX EtherNet V2 战胜IEEE802.3成为主流版本。总线型交换机拓扑机构代替集线器星型拓扑机构 1990年IEEE制定出星形以太网10BASE-T的标准**802.3i**。“10”代表10 Mbit/s 的数据率&#xff0c;BASE表示连接线上的信号是基带信号&#xff0c;T代表…

《深度解构现代云原生微服务架构的七大支柱》

☁️《深度解构现代云原生微服务架构的七大支柱》 一线架构师实战总结&#xff0c;系统性拆解现代微服务架构中最核心的 7 大支柱模块&#xff0c;涵盖通信协议、容器编排、服务网格、弹性伸缩、安全治理、可观测性、CI/CD 等。文内附架构图、实操路径与真实案例&#xff0c;适…