数据产品设计:利用基尼系数实现数据波动的自动归因分析维度

编辑导语:当你在进行一项产品设计时,数据突然产生波动了,你会怎么做?作者分享了自己是如何利用基尼系数进行数据波动自动归因分析的方法,我们一起来看下吧。

日常工作中,数据同学经常会被老板或业务问到“昨日XX指标波动50%,帮忙看下什么原因?”,也有上来直接来一句“今天数据是不是有问题啊?”,数据同学心里一惊,“我X,是不是集群延迟了?难道昨天修改逻辑,改出Bug了吗?”

于是先去找到指标对应的数据任务,排查数据加工流程有无异常,检查了一遍任务运行正常,各个环节数据无误,松了一口气。

开始分析波动原因,经过多个维度的拆解分析后,发现南京下降影响最大,结合最新公布的疫情信息,回复老板/业务说,“昨日数据波动的主要原因是XXX,指标总体下降XX,其中南京下降XX,影响率XX”。一轮操作后,一上午过去了,既定的排期任务又要晚上加班搬砖了。

一、数据波动产生的原因

业务数据不可能一成不变,尤其是互联网业务发展迅速,业务指标也会不断变化。数据的波动主要体现和对比日期(同比、环比等)出现上升或下降。

首先确认数据质量问题,数据在加工过程,由于源头数据异常、任务依赖延迟(集群资源不足)、开发Bug等原因,导致的数据重复、延迟、异常值脏数据等,影响数据结果。周期性波动,对于有周期属性的业务,OTA旅游产品,景区门票周末、暑期、节假日是出行旺季,这些时段各项业务指标会较其他时段有明细的增幅。外卖业务,在母亲节、情人节等节日,鲜花品类会暴涨。市场环境影响,如突发政治政策,用户信息安全监控政策出台后,一些赴美上市的出行、招聘等企业新用户停止注册,业务会出现大幅波动。自然环境,如天气,外卖业务白领区域来说,工作日遇到雨雪天气,出门吃饭的人会大大减少,外卖订单激增。业务动作,如新版本发布、新的营销活动上线等,五一期间,各家OTA公司上线机票盲盒活动,一时成为后疫情时代的爆款产品,带来增量流量的提升。竞对出现,互联网业务新入局者往往会在营销、补贴等方面投入更多的资源,以跑马圈地获取用户,对于忠诚度不高的趋利型用户,会被直接转移,百度、美团、饿了么外卖市场三足鼎立时,很多人同时装三个App,哪个补贴多用哪个。业务变化,产品调整带来的统计逻辑的变更,例如App新版本上线后,流量入口的统计埋点方式发生的变化,业务产品未及时通知数据团队,统计逻辑变更不及时,导致数据波动。二、什么样的数据波动才是异常?

异常的判断需要结合业务的属性、发展阶段、指标特征、对比的周期综合确定评价标准。首先是指标评价的依据,即凭什么说指标波动了,和历史同期比通常的方式是对比分析(上一篇文章有详细的同比、环比计算逻辑和常用场景)。

对于波动范围,同是DAU指标,百万级公司可能下降30%定为异常,而对于千万级、亿级的企业可能下降5%就需要分析下原因了。

因此,在数据产品设计时,需要对业务需求进行调研分析,确定指标异常的判断标准。

三、数据产品异常归因分析设计思路 1. 数据质量保证

数据波动时,很多业务第一反应是“数据准不准”,尤其是当数据质量问题比较频繁时,会降低业务对数据产品的信任度。

数据质量可以说是数据产品的生命线,没数据时,业务可以基于经验等多方考虑去决策,但如果数据质量有问题给业务带来错误的决策引导,那就是好心办坏事了。

因此,数据产品设计要考虑数据质量的把控,可以通过数据质量监控报警日报每日巡检指标涉及的任务运行情况、数据生产链路的表的质量情况(一致性、及时性、准确性、完整性监控),当监控体系覆盖健全后,业务来质问数据问题时,就可以有底气问业务上是否有什么动作。

2. 指标异常规则的配置

数据质量保证没问题后,第二步就是界定指标波动异常的标准了,一般有两种方式,一是充分了解业务需求,将指标预警的规则,内嵌到产品实现逻辑中,好处是开发成本低,可以快速变现。

适合于规则变化不频繁的场景,缺点是后期业务变化需要调整规则时,需要开发支持,且难以复用。第二种方式是建立统一的指标预警的配置化工具,业务可以按照自己需求场景设定预警的规则。

3. 利用基尼系数的思想实现异常归因报告自动生成

确定数据质量准确无误后,指标波动异常分析的一般流程是,先结合常见的几种异常原因(业务动作、市场环境等)提出初步假设。然后是将指标按照支持的维度进行逐层拆解分析。

分业务类型看,环比下降幅度Top的业务分别是团购、丽人、到店,单量下降对大盘整体的影响分别是10%,8%,5%等。最后确定指标拆解过程定位关键影响维度验证假设,得出分析结论。

这个分析流程的核心思想是基于某一标准(指标)分析哪个维度、以及哪一维度枚举值对总体的影响最大,这和经济学中用基尼系数(英文:Giniindex、GiniCoefficient)比较相似,基尼系数来作为衡量一个国家或地区居民收入差距的常用指标。

基尼系数取值区间为[0,1]。越接近0表明收入分配越是趋向平等,一般认为小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。

因此,可以先通过计算各个维度下,每个维度枚举值波动情况对大盘的影响,得到单一维度下,各个值的基尼系数(基尼系数的算法公式参考百度百科),得到哪些维度波动“不公平”,即差异比较大,由此可得影响总体波动的关键维度排名,然后再针对具体维度下的各个枚举值,计算波动影响Top的值。

例如昨日订单环比下降10%,降低数值为A,通过基尼系数得到城市维度下,基尼系数最高,0.7,可以确定城市维度存在明显差异,每个城市环比下降值从高到低依次为,B1,B2……Bn,由此可自动生产归因报告,即到订单下降主要受到地区影响,分城市看大盘贡献度Top3的城市为:上海B1/A,北京B2/A,南京B3/A。

归因分析报告生成页面设计可参考下图示例:

4. 数据填报,实现信息共享

因此,可以考虑基于数据填报的能力,当业务调整、或者外部经济、政治、竞争环境信息时,可以及时更新备注,作为日期维度表的补充,在产品端进行展示提醒。

四、小结

指标波动是数据工作中最常见的问题,高效的异常波动的归因分析流程主要从以下几个方面逐步完善:

建立完善的数据质量监控体系,才有足够的自信,确认不是数据问题利用基尼系数分析或其他分析方法,产品化影响波动的关键维度以及影响率,可应用与定制化的可视化报表或自主分析BI工具中了解波动的常见原因,将定量的数据分析结果与业务内外部的因素结合起来建立便捷的信息共享通道,降低沟通成本#专栏作家#

数据干饭人,微信号公众号:数据干饭人,人人都是产品经理专栏作家。专注数据中台产品领域,覆盖开发套件,数据资产与数据治理,BI与数据可视化,精准营销平台等数据产品。擅长大数据解决方案规划与产品方案设计。

本文原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.2018年经济师考试模拟试题及答案:初级工商管理(精选习题8)1.下列因素不影响工序质量的是() A.机器 B.人 C.环境 D.文化 2.工序能力指数为() A.0.83 B.1.05 C.1.27 D1.33 3.该工序能力为() A.过剩 B.正常 C.不足 D.严重不足 4.对质量影响小,产生的质量波动属于正常波动的是() A.系统性因素 B.偶然性因素 C.人为因素 D.非系统性因素 5.下列属于影响工序质量的因素的 jvzquC41yy}/7:yguv4og}4ujq}0;95565
1.监理工程师工程质量控考试辅导第七章结果,质量数据也因此具有了波动性。质量特性值的变化在质量标准允许范围内波动称之为正常波动,是由偶然性原因引起的;若是超越了质量标准允许范围的波动则称之为异常波动,是由系统性原因引起的。 [ 例题 ] :质量特性值的变化在质量标准允许范围内波动称之为正常波动,是由( )原因引起的。a. 系统性 b.偶然性 cjvzquC41yy}/fr~khctxgw3eqo5lcxxjk|nvcwyk1mgpuqnhwfgp9=429:793@855;<7:>7a;8>/j}r
2.食品整改报告范文(精选18篇)二、原因分析 1.生产环节疏忽 在生产过程中,对食品原材料生产工艺环节的控制不够严格,导致xx不合格的产生。例如温度控制不当、配料比例失误等。 2.原材料质量波动 部分原材料供应商提供的原材料在质量上存在一定波动,而我司在原材料验收环节未能及时发现并有效甄别。 jvzq<84yyy4vpsx0eqs0hjsygp}bpp4|idm0497229833?5538e36?=3454ivvq
3.华泰多元金融:互联网消费贷何以逆势改善质量?贷款新浪财经风险偏好收紧是互金平台信贷质量好转的最重要原因,属于“意愿”范畴。1H24平台对风险快速响应,在贷前、贷中、贷后采取了各项措施。业务数据显示平台谨慎经营的策略。1H24不同互金平台的放款量相比2H23下滑7-20%,部分平台的笔均金额和合约期限也有收缩,幅度均在10%左右,体现平台在贷款质量波动时对规模和风险的权衡jvzq<84hkpgoen3ukpg/exr0ep5tvxhm1uzpetov1814=22;/891mte/ktds|mrc9857=:80unuou
4.建筑材料检测工作总结范文2、 质量波动大。由于房屋建筑产品生产的单件性和流动性,不具有一般工业产品生产的固定生产流水线、规范化的生产工艺、完善的检测技术、成套的生产设备和稳定的生产环境,所以工程质量易产生波动而且波动大。 3、质量隐蔽性。房屋建筑工程项目在施工过程中,由于工序交接多、中间产品多、隐蔽工程多,因此质量存在隐蔽性。 jvzquC41yy}/i€~qq0ipo8mcqyko1;;85::/j}rn
5.下列造成质量波动的原因中,属于偶然性原因的是()。A现场温湿度的下列造成质量波动的原因中,属于偶然性原因的是()。A现场温湿度的微小变化B机械设备过度磨损C材料质量规格显著差异D工人未遵守操作规程由湖北事业单位考试提供同步湖北人事考试。更多关于事业单位考试真题,事业单位试题,教师招聘考试试题,湖北事业单位常识试题的内容,请关注湖北事业单位考试频道/湖北人事考试!咨询电话:027-8787jvzquC41jd4iwjyw0eun1lmcpiyik869648:97mvon
6.电能质量范文电力设备及装置的自动保护和正常运行。如大型电力设备的启动和停运、自动开关的跳闸及重合对电能质量的影响,使额定电压暂时降低、产生电压波动与闪变等。 (2) 用户侧电能质量污染源。电力系统非线性负荷、冲击性负荷等的大量投运。如炼钢电弧炉、电气化机车运行等对电能质量的影响,使公用电网产生大量的谐波干扰、电压波jvzquC41yy}/i€~qq0ipo8mcqyko1;;3224ivvq
7.如何绘制企业质量管理看板图?企业质量管理看板图关键板块 企业质量管理看版图分为四大板块:考虑问题和分析原因方法板块、质量保障板块、造成质量波动的因素板块和品管七大手法板块。 1、考虑问题和分析原因方法板块 该板块可以让管理者、员工清晰了解到生产过程中考虑问题和分析原因的方法。关于目的,为什么做这件事;关于对象,做什么;关于地点,在什么jvzquC41yy}/gmwcyuugv7hp1cxuklqg1rxplnhv1s{npqmdv4ivvq
8.经济周期(精选5篇)内在传导机制决定着经济波动的周期性和持续性,决定着经济周期的基本形态,而外在冲击只是通过内在传导机制对其产生叠加影响,使基本波型发生变形。经济的周期波动是经济内在的传导机制和外在冲击共同发生作用的结果。 我国经济发展水平落后,农业成分比重大,长期实行高度集中的计划经济,因此,我国经济周期波动有其特殊原因及jvzquC41yy}/3vnujw4dqv4jcq}fp8632:<:0qyon
9.李娜监理《质量控制》知识点:质量统计分析(一)当影响质量的4M1E因素发生了较大变化,如工人未遵守操作规程、机械设备发生故障或过度磨损、原材料质量规格有显著差异等情况发生时,没有及时排除,生产过程则不正常,产品质量数据就会离散过大或与质量标准有较大偏离,表现为异常波动,次品、废品产生。这就是产生质量问题的系统性原因或异常原因。参加教材P56。jvzquC41yy}/lrfpujk:;7hqo1pjcwqk1|omkjt1yc782=5882830|mvon
10.干涉条纹数目与什么有关单缝衍射条纹形成原因新解波动理论认为只有单缝宽度与光波波长相当时才会产生衍射现象,单缝较宽时不会发生衍射现象,微粒模型则坚持认为光经过任何有质量的物体都会发生衍射现象,衍射现象的发生与缝的宽度并没有任何关系。当缝宽较大时,我们为什么观测不到不连续的亮条纹呢?这是因为缝较宽时,缝的引力较弱,引力子对光子的“碰撞”作用并不频繁jvzquC41dnuh0lxfp0tfv8|gkzooa<>84;<438ftvkimg8igvcomu86338<939=
11.下列选项在描述影响质量数据波动的偶然性原因的有()下列选项在描述影响质量数据波动的偶然性原因的有()A.不可避免B.难以测量和控制C.在经济上不值得消除D.大量存在但对质量影响大E.属于不允许出现偏差的范畴点击查看答案&解析 在线练习 手机看题 你可能感兴趣的试题 问答题 应急处置票发放时必须加盖站名章及日期章,无需按编号顺序发放() A.正确B.错误 答案: jvzquC41yy}/rypcq0ipo8|cpiqf1mfcp1g237