机器学习之无监督学习

无监督学习的目标

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作为无监督学习

有监督学习与无监督学习最大的区别在于数据是否有标签

无监督学习最常用的场景是聚类降维

聚类

聚类,就是根据数据的”相似性”将数据分为多类的过程

评估两个不同样本之间的相似性,通常使用的方法就是计算两个样本之间的距离,使用不同的方法计算样本间的距离会关系到聚类结果的好坏

欧式距离

欧式距离是最常用的一种距离度量方法,源于欧式空间中两点之间的距离

曼哈顿距离

曼哈顿距离也称作”城市街区距离”,类似于在城市之中驾车行驶,从一个十字路口到另一个十字路口的距离

马氏距离

马氏距离表示数据的协方差距离,是一种尺度无关的度量方式也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离

夹角余弦

余弦相似度用向量空间中两个向量夹角的余弦作为衡量两个样本差异的大小,余弦越接近1,说明两个向量夹角越接近0度,表明两个向量越相似

降维

降维,就是在保证数据所具有代表性特征或分布的情况下,将高维数据转化为低维数据的过程

  • 数据可视化
  • 精简数据

sklearn.decomposition

算法名称 参数 可扩展性 适用任务
PCA 所降维度和其他超参 大规模数据 信号处理
FastICA 所降维度和其他超参 超大规模数据 图形图像特征提取
NMF 所降维度和其他超参 大规模数据 图形图像特征提取
LDA 所降维度和其他超参 大规模数据 文本数据,主题挖掘

K-means聚类算法

k-means算法以k为参数,把N个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度较低

  • 随机选择k个点作为初始的聚类中心
  • 对于剩下的点,根据与聚类中心的距离,将其归为最近的簇
  • 对每个簇,计算所有点的均值作为新的聚类中心
  • 重复2,3直到聚类中心不再发生改变