京公网安备 11010802034615号
经营许可证编号:京B2-20210330
机器学习算法实践—K-Means算法与图像分割
一、理论准备
1.1、图像分割
图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为:
基于边缘的技术
基于区域的技术
基于聚类算法的图像分割属于基于区域的技术。
1.2、K-Means算法
K-Means算法是基于距离相似性的聚类算法,通过比较样本之间的相似性,将形式的样本划分到同一个类别中,K-Means算法的基本过程为:
初始化常数 ,随机初始化k个聚类中心
重复计算以下过程,直到聚类中心不再改变
计算每个样本与每个聚类中心之间的相似度,将样本划分到最相似的类别中
计算划分到每个类别中的所有样本特征的均值,并将该均值作为每个类新的聚类中心
输出最终的聚类中心以及每个样本所属的类别
在K-Means算法中,需要随机初始化k个聚类中心,而K-Means算法对初始聚类中心的选取较为敏感,若选择的聚类中心不好,则得到的聚类结果会非常差,因此,对K-Means算法提出了很多的改进的方法,如K-Means++算法,在K-Means++算法中,希望初始化的k个聚类中心之间的距离尽可能的大,其具体过程为:
在数据集中随机选择一个样本点作为第一个初始化的聚类中心
选择出其余的聚类中心:
计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离
以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到 个聚类中心都被确定
对k个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。
对于K-Means算法的具体过程可以参考博文简单易学的机器学习算法——kMeans,K-Means++算法的具体过程稍后会补充。
二、实践准备
实践中使用Python作为开发语言,使用到的模块包括numpy和Image。numpy模块是python中矩阵计算使用最多的模块。
Image模块是PIL(Python Imaging Library)中的模块,对于Image模块,主要是对图像的一些操作:
模块的头文件
import Image as image
打开图片
fp = open("003.JPG", "rb")
im = image.open(fp)
首先是以二进制文件的形式打开文件,再利用Image模块的open方法导入图片。
对于如下的图片(圣托里尼):

图片的属性
im.format, im.size, im.mode
得到的结果为:JPEG (1600, 1067) RGB
通道分离:
r,g,b = im.split()
分割成三个通道,此时r,g,b分别为三个图像对象。
取得像素点的值
im.getpixel((4,4))
由于是RGB三通道的,因此此处的值为:(151, 169, 205)
改变单个像素点的值
im.putpixel(xy, color)
图像类型转换:
im=im.convert("L")
由RGB的图像转成灰度的图像,其结果为:

生成新的图像
Image.new(mode, size)
Image.new(mode, size, color)
如:newImg = Image.new(“GBA”,(640,480),(0,255,0))
保存图片
im.save("save.gif","GIF")
三、利用K-Means++算法进行图像分割
3.1、利用K-Means++聚类
在利用K-Means++算法进行图像分割时,将图像中的每一个像素点作为一个样本,对RGB图像来说,每个样本包括三维:(151, 169, 205),通过归一化,将每个通道的值压缩到[0,1]区间上。数据的导入和处理如下面程序所示:
#coding:UTF-8
import Image as image
import numpy as np
from KMeanspp import run_kmeanspp
def load_data(file_path):
'''导入数据
input: file_path(string):文件的存储位置
output: data(mat):数据
'''
f = open(file_path, "rb") # 以二进制的方式打开图像文件
data = []
im = image.open(f) # 导入图片
m, n = im.size # 得到图片的大小
print m, n
for i in xrange(m):
for j in xrange(n):
tmp = []
x, y, z = im.getpixel((i, j))
tmp.append(x / 256.0)
tmp.append(y / 256.0)
tmp.append(z / 256.0)
data.append(tmp)
f.close()
return np.mat(data)
最终保存成矩阵的形式,矩阵的行为样本的个数,列为每一个通道的数值(RGB)。在利用K-Means++算法对样本进行聚类。主函数如下述代码所示:
if __name__ == "__main__":
k = 10#聚类中心的个数
# 1、导入数据
print "---------- 1.load data ------------"
data = load_data("001.jpg")
# 2、利用kMeans++聚类
print "---------- 2.run kmeans++ ------------"
run_kmeanspp(data, k)
k表示的是聚类的个数。K-Means++程序的实现如下面程序所示:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''
import numpy as np
from random import random
from KMeans import distance, kmeans, save_result
FLOAT_MAX = 1e100 # 设置一个较大的值作为初始化的最小的距离
def nearest(point, cluster_centers):
'''计算point和cluster_centers之间的最小距离
input: point(mat):当前的样本点
cluster_centers(mat):当前已经初始化的聚类中心
output: min_dist(float):点point和当前的聚类中心之间的最短距离
'''
min_dist = FLOAT_MAX
m = np.shape(cluster_centers)[0] # 当前已经初始化的聚类中心的个数
for i in xrange(m):
# 计算point与每个聚类中心之间的距离
d = distance(point, cluster_centers[i, ])
# 选择最短距离
if min_dist > d:
min_dist = d
return min_dist
def get_centroids(points, k):
'''KMeans++的初始化聚类中心的方法
input: points(mat):样本
k(int):聚类中心的个数
output: cluster_centers(mat):初始化后的聚类中心
'''
m, n = np.shape(points)
cluster_centers = np.mat(np.zeros((k , n)))
# 1、随机选择一个样本点为第一个聚类中心
index = np.random.randint(0, m)
cluster_centers[0, ] = np.copy(points[index, ])
# 2、初始化一个距离的序列
d = [0.0 for _ in xrange(m)]
for i in xrange(1, k):
sum_all = 0
for j in xrange(m):
# 3、对每一个样本找到最近的聚类中心点
d[j] = nearest(points[j, ], cluster_centers[0:i, ])
# 4、将所有的最短距离相加
sum_all += d[j]
# 5、取得sum_all之间的随机值
sum_all *= random()
# 6、获得距离最远的样本点作为聚类中心点
for j, di in enumerate(d):
sum_all -= di
if sum_all > 0:
continue
cluster_centers[i] = np.copy(points[j, ])
break
return cluster_centers
def run_kmeanspp(data, k):
# 1、KMeans++的聚类中心初始化方法
print "\t---------- 1.K-Means++ generate centers ------------"
centroids = get_centroids(data, k)
# 2、聚类计算
print "\t---------- 2.kmeans ------------"
subCenter = kmeans(data, k, centroids)
# 3、保存所属的类别文件
print "\t---------- 3.save subCenter ------------"
save_result("sub_pp", subCenter)
# 4、保存聚类中心
print "\t---------- 4.save centroids ------------"
save_result("center_pp", centroids)
在上述代码中主要是初始化k个聚类中心,K-Means算法的核心程序如下所示:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''
import numpy as np
def distance(vecA, vecB):
'''计算vecA与vecB之间的欧式距离的平方
input: vecA(mat)A点坐标
vecB(mat)B点坐标
output: dist[0, 0](float)A点与B点距离的平方
'''
dist = (vecA - vecB) * (vecA - vecB).T
return dist[0, 0]
def randCent(data, k):
'''随机初始化聚类中心
input: data(mat):训练数据
k(int):类别个数
output: centroids(mat):聚类中心
'''
n = np.shape(data)[1] # 属性的个数
centroids = np.mat(np.zeros((k, n))) # 初始化k个聚类中心
for j in xrange(n): # 初始化聚类中心每一维的坐标
minJ = np.min(data[:, j])
rangeJ = np.max(data[:, j]) - minJ
# 在最大值和最小值之间随机初始化
centroids[:, j] = minJ * np.mat(np.ones((k , 1))) + np.random.rand(k, 1) * rangeJ
return centroids
def kmeans(data, k, centroids):
'''根据KMeans算法求解聚类中心
input: data(mat):训练数据
k(int):类别个数
centroids(mat):随机初始化的聚类中心
output: centroids(mat):训练完成的聚类中心
subCenter(mat):每一个样本所属的类别
'''
m, n = np.shape(data) # m:样本的个数,n:特征的维度
subCenter = np.mat(np.zeros((m, 2))) # 初始化每一个样本所属的类别
change = True # 判断是否需要重新计算聚类中心
while change == True:
change = False # 重置
for i in xrange(m):
minDist = np.inf # 设置样本与聚类中心之间的最小的距离,初始值为争取穷
minIndex = 0 # 所属的类别
for j in xrange(k):
# 计算i和每个聚类中心之间的距离
dist = distance(data[i, ], centroids[j, ])
if dist < minDist:
minDist = dist
minIndex = j
# 判断是否需要改变
if subCenter[i, 0] <> minIndex: # 需要改变
change = True
subCenter[i, ] = np.mat([minIndex, minDist])
# 重新计算聚类中心
for j in xrange(k):
sum_all = np.mat(np.zeros((1, n)))
r = 0 # 每个类别中的样本的个数
for i in xrange(m):
if subCenter[i, 0] == j: # 计算第j个类别
sum_all += data[i, ]
r += 1
for z in xrange(n):
try:
centroids[j, z] = sum_all[0, z] / r
print r
except:
print " r is zero"
return subCenter
def save_result(file_name, source):
'''保存source中的结果到file_name文件中
input: file_name(string):文件名
source(mat):需要保存的数据
output:
'''
m, n = np.shape(source)
f = open(file_name, "w")
for i in xrange(m):
tmp = []
for j in xrange(n):
tmp.append(str(source[i, j]))
f.write("\t".join(tmp) + "\n")
f.close()
3.2、利用聚类结果生成新的图片
上述的过程中,对每一个像素点进行了聚类,最终利用聚类中心点的RGB值替换原图中每一个像素点的值,便得到了最终的分割后的图片,代码如下所示:数据分析师培训
#coding:UTF-8
import Image as image
f_center = open("center_pp")
center = []
for line in f_center.readlines():
lines = line.strip().split("\t")
tmp = []
for x in lines:
tmp.append(int(float(x) * 256))
center.append(tuple(tmp))
print center
f_center.close()
fp = open("001.jpg", "rb")
im = image.open(fp)
# 新建一个图片
m, n = im.size
pic_new = image.new("RGB", (m, n))
f_sub = open("sub_pp")
i = 0
for line in f_sub.readlines():
index = float((line.strip().split("\t"))[0])
index_n = int(index)
pic_new.putpixel(((i/n),(i % n)),center[index_n])
i = i + 1
f_sub.close()
pic_new.save("result.jpg", "JPEG")
对于上述的圣托里尼的图片,取不同的k值,得到如下的一些结果:
原图

k=3

k=5

k=7

k=10
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15