无监督学习
算法探索无标记数据,其目标不是预测特定结果,而是发现数据中隐藏的模式、结构和关系。与 监督学习
不同的是,无监督学习
算法是从有标签的示例中学习的,它的运行没有预定义标签或 "正确答案 "的指导。
无监督学习算法如何工作
无监督学习
算法可识别数据中的相似性、差异性和模式。它们可以将相似的数据点归类到一起,在保留基本信息的同时减少变量的数量,或识别偏离常规的异常数据点
这些算法对于标注数据稀缺、昂贵或不可用的任务非常有价值。即使不知道具体的结果或标签,它们也能让我们深入了解数据的底层结构和组织。
无监督学习
问题可大致分为以下几类:
聚类:
根据相似数据点的特征对其进行分组。这就好比按流派组织藏书,或根据客户的购买行为将其分组。
降维:
减少数据中变量(特征)的数量,同时保留基本信息。这类似于将长篇文档总结为简明摘要,或在不丢失重要细节的情况下压缩图像。
异常检测:
识别严重偏离常规的异常数据点。这就好比在一堆真钞中发现假钞,或检测信用卡盗刷。
无监督学习的核心概念
无标签数据
无监督学习
的基石是 无标签数据
。监督学习
的数据点带有相应的标签或目标变量,而 无标签数据
则不同,它没有这些预定义的结果。算法必须完全依靠数据的固有特征和输入特征来发现模式和关系。
把它想象成分析一组没有任何说明或描述的照片。即使不知道每张照片的具体背景,您仍然可以根据颜色、构图和主题等视觉特征对类似照片进行分组。
相似性度量
许多 无监督学习
算法都依赖于量化数据点之间的相似性或不相似性。相似性度量
根据两个数据点的特征来计算它们的相似或不同程度。常见的度量方法包括
欧氏距离:
测量多维空间中两点之间的直线距离。
余弦相似度:
测量代表数据点的两个向量之间的角度,数值越大表示相似度越高。
曼哈顿距离:
计算两点之间的距离,方法是将两点坐标的绝对差求和。
集聚系数
集聚系数
是指数据形成聚类或分组的内在倾向。在应用聚类算法之前,评估数据是否具有形成聚类的自然倾向至关重要。如果数据分布均匀,没有固有的分组,那么聚类算法可能不会产生有意义的结果。
聚类有效性
评估聚类算法产生的聚类的质量和意义至关重要。聚类有效性
包括评估以下指标:
内聚力:
衡量聚类中数据点的相似程度。内聚力越高,说明聚类越紧凑,定义越清晰。
分离度:
衡量聚类之间的差异程度。分离度越高,表示聚类越明显,分离度越高。
各种聚类有效性指数,如轮廓得分和戴维斯-博尔丁指数,对这些方面进行量化,有助于确定最佳聚类数量。
维度
维度
是指数据中特征或变量的数量。高维度可能会给某些 无监督学习
算法带来挑战,增加计算复杂度,并可能导致 "维度诅咒",即数据变得稀疏,点之间的距离变得意义不大。
内在维度
数据的 内在维度
表示其内在或基本维度,可能低于实际特征数。它捕获了数据中包含的基本信息。降维技术旨在减少特征数量,同时保留这种内在维度。
异常
异常
是指数据中严重偏离常规或预期模式的数据点。异常点可能代表异常事件、错误或欺诈活动。在欺诈检测、网络安全和系统监控等各种应用中,检测异常点至关重要。
离群
离群点
是指与其他大多数数据点相差甚远的数据点。虽然与异常点类似,但 "离群值 "一词通常用于更广泛的意义上。异常值可以表示数据收集中的错误、不寻常的观察结果或潜在的有趣模式。
特征缩放
特征缩放
在 无监督学习
中至关重要,可确保所有特征对距离计算和其他计算的贡献相同。常见的技术包括
最小-最大缩放:
将特征缩放至固定范围。
标准化(Z分数归一化):
将特征转换为零均值和单位方差。