明月机器学习系列:聚类算法详解腾讯云开发者社区

最近一直在完善一个视频人脸聚类的算法,开始时一直使用DBSCAN算法,不过视频测试的时候,发现该算法对参数的依赖太过严重,有些视频的人脸阀值很难去界定。

对于某个点A,判断它是否是核心点的依据是:在给定的半径(邻域半径)内的样本点的数量大于等于给定的最小点数。例如以A点为圆心,半径为2的圆内包含的样本点的数量超过3个就算核心点。注意:(1)这里的半径范围内的点包含A点本身。(2)这里的半径是一个经验值,通常可以取值大一些,当然取值越大计算量也越大,不过这个不是关键问题。相对于DBSCAN算,该参数的影响弱很多。

例如,以点A为圆心,包含3个点的圆里,最小半径即为核心距离。这样,每个点都能计算出一个核心距离(如果该点是一个核心点的话),理解也不难,不过这个距离的作用更多只是用来引入可达距离。

例如计算B点和核心点A的可达距离:

对于B点自身的可达距离,实际上是会随着核心点的发现而更新的,例如当出现另一个核心点C的时候,也会有一个计算一个B到C的可达距离:rd(B, C),那么这时B点的可达距离为:

每个点都有一个可达距离(该值需要小于给定的半径),称为密度可达;当然如果没有邻居点,则是不可达的。所以,可达距离实际上是每个点到其他核心点的可达距离。每个点的可达距离是OPTICS算法输出的主要结果,在实际聚类的时候,传递一个可达距离的阀值,就能将样本点聚类了。

核心算法部分如下:

简述一下其算法步骤:

完整的代码见这里。

以及初始化半径R和最小点数为3,即在半径R内,如果有3个或者3个以上的点,即为核心点。

我们选择第一个点,如下图黑色的点,并以它为圆心作一个半径为R的圆,如下图(左图):

在该圆内,共有4个点,所以该点为核心点。该核心点有三个邻居点,如上右图的淡红色的点。

计算该核心点的核心距离,如下图:

就是以该核心点为圆心,找到一个最小半径的圆,使得该圆内至少包含3个点,则该半径则为该核心点的核心距离。有了核心距离之后,计算这三个邻居点的可达距离。

根据可达距离,对三个邻居点进行排序,优先选择可达距离最小的点进行处理。如下左图:

上左图,该点(灰色点)在半径R内的点数也达到3个(阀值),所以该点也是核心点,这时需要更新该点的邻居点的可达距离。同理最左上角的点也类似,也是核心点。但是对于第3个邻居点,即上右图所示的粉色的点,在半径R内,只有2个点,不满足核心点的要求,故该点不是核心点。

核心点的邻居点(黑色点)都处理完之后,开始寻找下一个未处理的点,如下图:

显然,该点不满足核心点的条件。至此,所有点都已经处理完毕,OPTICS算法完成。

sklearn里有现成的OPTICS算法,不过可惜不能自定义距离函数,而在我们的场景下,自定义距离函数确是需要的,所以才重新造了一个轮子。例如视频人脸聚类,同一帧里的人脸肯定都是不同的人,那么我们就可以定义同一帧内的人脸距离无限大,这是非常重要的。

聚类结果

OPTICS算法输出其实并不是最终的聚类类别,只是各个点的最小可达距离,如果需要聚类结果,只需要一个距离阀值,如下图:

如上图,横轴是OPTICS输出的排序好的样本点,纵轴是每个样本点的可达距离,我们需要定义一个阀值(如上图中的红线),在阀值之上的可以定义为异常点,这样之下的样本点就被分成了3块,也就聚类成了3类。

该图来自sklearn官方文档,显示了OPTICS和DBSCAN两种算法的聚类结果的对比。

THE END
0.企业如何开好月度经营分析会?通过经营分析,直观地把核心差距暴露出来,让人一眼就能看到公司存在的核心经营问题。比如,是哪些产品、渠道、区域、客户群存在问题,问题有多大。 (2)剖析根因 如果经营指标存在差距,就要寻找造成差距的根因,把根因找出来,究竟是什么原因导致存在差距? 根因指的是导致差距存在的根本性原因,根因是需要经过深入分析才能jvzq<84yyy4489iqe0ipo8hqpvkov876129428591:<89:7a33799B858:4tj}rn
1.邹骥:中国绿色转型最需弥合的差距是电力系统适逢《巴黎协定》签署十周年,联合国气候变化框架公约第30次缔约方大会(COP30)将于11月10日在巴西贝伦举行,各方正期待此次会议能为全球气候行动注入新动力。中国如何推进绿色低碳转型以支撑其国家自主贡献(NDC),并在复杂的国际形势下参与和引领全球气候治理,成为核心议题。 jvzquC41egtfy|3eqo4dp8sgyu4ivvqAckj>3@9:926
2.自动驾驶主题知识扫盲思维导图模板2、3级核心差距是 权责问题 RSS责任敏感安全模型,区分人机权责问题,建立了4个安全常识 1、与前车保持一定安全距离,即使前车急刹,本车也可以及时反映避免碰撞 2、与侧方车保持一定安全距离,换道时,必须留给其他车足够的时间反映 3、不争抢路权 4、小心周边盲区,避免盲区引发的事故 jvzquC41rtudg|xqp0ipo8{kgy572j:e29hg5=;hd7=chj62c8:
3.惠城环保与巴斯夫环保业务差距:从1940只塑料袋看效率鸿沟(简洁版本文基于企业公告、行业报告、政策文件等公开数据,拆解惠城环保与巴斯夫的业务模式、成本结构、运营效率及资产风险,揭示环保行业“资源化效率+资产质量才是核心竞争力”的底层逻辑。文中“拾荒者凑原料”等场景为夸张化复现,旨在直观呈现回收难度,非客观操作描述;资产减值分析依据《企业会计准则》,确保专业性与严谨性。 jvzquC41zwkrk~3eqo57;>>885>5288776?899>
4.管理变革与精益领导力修炼;常亮授课内容企业内训课程大纲本课程用2天的时间,帮助学员全面系统的认知领导力(个人领导力与组织领导力),清晰的把握领导与管理的区别,为系统的提升领导力打下坚实基础;帮助学员深刻理解丰田、通用电气、谷歌、苹果式等卓越团队与平庸团队领导力的核心差距与根源;浓缩您在企业转型升级、领导力、团队建设与凝聚、员工的激励与培养以及快乐职场与卓越jvzquC41yy}/ixyqvuooiqzc0qxh0ls1skfpnnzwp5mgjigtunjr8rdca7:8<3jvor
5.$罗博特科(SZ300757)$$中际旭创(SZ300308)$$剑桥科技(SH603083)$准确的核心间距位置 提供定制解决方案 紧凑型设计 可用于晶圆级 PIC 测试的潜望镜设计 透镜的高精度 3D 打印是与德国公司Nanoscribe的合作。与传统的、减法的、制造透镜或锥形光纤的方法相比,这种增材制造工艺具有许多优势,例如: 相对于纤芯的定位精度高 jvzquC41zwkrk~3eqo586;9335?788774;>9:?7
6.机器学习笔记(十一)聚类算法OPTICS原理和实践optics聚类算法matlab对于一个给定的核心对象X,使得X成为核心对象的最小邻域距离 r 就是X的核心距离。这句话乍一看有点绕,其实仔细读两遍就明白了,假如在DBSCAN中我们定义eps = 1.2 和min_samples=5,X在eps = 1.2的邻域内有8个样本点,则X是核心对象,但是我们发现距离X最近的第5个点和X的距离是0.8,那么核心对象 X 的核心距jvzquC41dnuh0lxfp0tfv8mcxggo{ktf{1gsvrhng1jfvjnnu1725@=442?
7.雅思part1范文二、5.5分与7.5分回答的3个核心差距 1. 内容维度:从"信息孤岛"到"立体画面" 5.5分答案:"I like reading books."(仅给出孤立观点,无任何延展) 7.5分答案:"I'm really into non-fiction, especially biographies. Last month I finished Steve Jobs' biography—it was fascinating to see how he turned faijvzquC41yy}/srszwg9777hqo1zz4kgnzt|454;:7;7mvon
8.2025双十一客厅投影怎么选?当贝X7Ultra与坚果N5ProMax核心差异2025 双十一客厅投影选购,8499 元价位段的当贝 X7 Ultra 与坚果 N5 Pro Max 虽定价相同,但核心配置与实际体验差异显著。当贝 X7 Ultra 凭借纯三色激光光源、杜比视界支持、高对比度与智能 AI 系统,在画质与交互上全面领先,更符合追求 “极致体验” 的用户需求;坚果 N5 Pro Max 则因混光方案与有限的画质解码,适jvzquC41pg}t0ƒsfu0ipo8ftvkimg8;:99>/j}rn