机器学习之无监督学习

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作为无监督学习

有监督学习与无监督学习最大的区别在于数据是否有标签

无监督学习最常用的场景是聚类和降维

聚类,就是根据数据的”相似性”将数据分为多类的过程

评估两个不同样本之间的相似性,通常使用的方法就是计算两个样本之间的距离,使用不同的方法计算样本间的距离会关系到聚类结果的好坏

欧式距离是最常用的一种距离度量方法,源于欧式空间中两点之间的距离

曼哈顿距离也称作”城市街区距离”,类似于在城市之中驾车行驶,从一个十字路口到另一个十字路口的距离

马氏距离表示数据的协方差距离,是一种尺度无关的度量方式也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离

余弦相似度用向量空间中两个向量夹角的余弦作为衡量两个样本差异的大小,余弦越接近1,说明两个向量夹角越接近0度,表明两个向量越相似

降维,就是在保证数据所具有代表性特征或分布的情况下,将高维数据转化为低维数据的过程

k-means算法以k为参数,把N个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度较低