wushuhong 发表于 2025-6-13 16:35:23

AI red teamer (人工智能红队)系列08-人工智能基础-无监督学习算法

<p><code>无监督学习</code>算法探索无标记数据,其目标不是预测特定结果,而是发现数据中隐藏的模式、结构和关系。与 <code>监督学习</code>不同的是,<code>无监督学习</code>算法是从有标签的示例中学习的,它的运行没有预定义标签或 &quot;正确答案 &quot;的指导。</p>
<h2>无监督学习算法如何工作</h2>
<p><code>无监督学习</code>算法可识别数据中的相似性、差异性和模式。它们可以将相似的数据点归类到一起,在保留基本信息的同时减少变量的数量,或识别偏离常规的异常数据点</p>
<p>这些算法对于标注数据稀缺、昂贵或不可用的任务非常有价值。即使不知道具体的结果或标签,它们也能让我们深入了解数据的底层结构和组织。</p>
<p><code>无监督学习</code>问题可大致分为以下几类:</p>
<ul>
<li><code>聚类:</code> 根据相似数据点的特征对其进行分组。这就好比按流派组织藏书,或根据客户的购买行为将其分组。</li>
<li><code>降维:</code> 减少数据中变量(特征)的数量,同时保留基本信息。这类似于将长篇文档总结为简明摘要,或在不丢失重要细节的情况下压缩图像。</li>
<li><code>异常检测:</code> 识别严重偏离常规的异常数据点。这就好比在一堆真钞中发现假钞,或检测信用卡盗刷。</li>
</ul>
<h2>无监督学习的核心概念</h2>
<h3>无标签数据</h3>
<p><code>无监督学习</code>的基石是 <code>无标签数据</code>。<code>监督学习</code>的数据点带有相应的标签或目标变量,而 <code>无标签数据</code>则不同,它没有这些预定义的结果。算法必须完全依靠数据的固有特征和输入特征来发现模式和关系。</p>
<p>把它想象成分析一组没有任何说明或描述的照片。即使不知道每张照片的具体背景,您仍然可以根据颜色、构图和主题等视觉特征对类似照片进行分组。</p>
<h3>相似性度量</h3>
<p>许多 <code>无监督学习</code>算法都依赖于量化数据点之间的相似性或不相似性。<code>相似性度量</code>根据两个数据点的特征来计算它们的相似或不同程度。常见的度量方法包括</p>
<ul>
<li><code>欧氏距离:</code> 测量多维空间中两点之间的直线距离。</li>
<li><code>余弦相似度:</code> 测量代表数据点的两个向量之间的角度,数值越大表示相似度越高。</li>
<li><code>曼哈顿距离:</code> 计算两点之间的距离,方法是将两点坐标的绝对差求和。</li>
</ul>
<h3>集聚系数</h3>
<p><code>集聚系数</code>是指数据形成聚类或分组的内在倾向。在应用聚类算法之前,评估数据是否具有形成聚类的自然倾向至关重要。如果数据分布均匀,没有固有的分组,那么聚类算法可能不会产生有意义的结果。</p>
<h3>聚类有效性</h3>
<p>评估聚类算法产生的聚类的质量和意义至关重要。<code>聚类有效性</code>包括评估以下指标:</p>
<ul>
<li><code>内聚力:</code> 衡量聚类中数据点的相似程度。内聚力越高,说明聚类越紧凑,定义越清晰。</li>
<li><code>分离度:</code> 衡量聚类之间的差异程度。分离度越高,表示聚类越明显,分离度越高。</li>
</ul>
<p>各种聚类有效性指数,如轮廓得分和戴维斯-博尔丁指数,对这些方面进行量化,有助于确定最佳聚类数量。</p>
<h3>维度</h3>
<p><code>维度</code>是指数据中特征或变量的数量。高维度可能会给某些 <code>无监督学习</code>算法带来挑战,增加计算复杂度,并可能导致 &quot;维度诅咒&quot;,即数据变得稀疏,点之间的距离变得意义不大。</p>
<h3>内在维度</h3>
<p>数据的 <code>内在维度</code>表示其内在或基本维度,可能低于实际特征数。它捕获了数据中包含的基本信息。降维技术旨在减少特征数量,同时保留这种内在维度。</p>
<h3>异常</h3>
<p><code>异常</code>是指数据中严重偏离常规或预期模式的数据点。异常点可能代表异常事件、错误或欺诈活动。在欺诈检测、网络安全和系统监控等各种应用中,检测异常点至关重要。</p>
<h3>离群</h3>
<p><code>离群点</code>是指与其他大多数数据点相差甚远的数据点。虽然与异常点类似,但 &quot;离群值 &quot;一词通常用于更广泛的意义上。异常值可以表示数据收集中的错误、不寻常的观察结果或潜在的有趣模式。</p>
<h3>特征缩放</h3>
<p><code>特征缩放</code>在 <code>无监督学习</code>中至关重要,可确保所有特征对距离计算和其他计算的贡献相同。常见的技术包括</p>
<ul>
<li><code>最小-最大缩放:</code> 将特征缩放至固定范围。</li>
<li><code>标准化(Z分数归一化):</code>将特征转换为零均值和单位方差。</li>
</ul>
页: [1]
查看完整版本: AI red teamer (人工智能红队)系列08-人工智能基础-无监督学习算法