作者 | ABHISHEK SHARMA
编译 | VK
偏度的概念已融入我们的思维方式。当我们看到一个图像时,我们的大脑会直观地分辨出图表中的模式。
你可能已经知道,印度有超过50%的人口在25岁以下,65%以上的人口在35岁以下。
如果你画出印度人口年龄的分布图,你会发现在分布的左边有一个凸起,而右边是相对平坦的。换言之,我们可以说有个偏度倾向于末端。
所以,即使你没有读过数据科学或分析专业人士的偏度,你肯定已经在非正式上与这个概念进行了互动。
在统计学中,这实际上是一个相当简单的话题,然而很多人在匆忙学习其他看似复杂的数据科学概念的过程中匆匆浏览了一下这个概念。对我来说,这是个错误。
在这里,我们将以最简单的方式讨论倾斜的概念。你将了解偏度、它的类型以及它在数据科学领域中的重要性。
所以,系好安全带,因为你会学到一个在你整个数据科学职业生涯中都会重视的概念。
偏度是理想对称概率分布不对称性的度量,由三阶标准矩给出。如果这听起来太复杂了,别担心!我来给你解释一下。
简言之,偏度是衡量随机变量的概率分布偏离正态分布的程度。现在,你可能会想,为什么我在这里谈论正态分布?
正态分布是没有任何偏度的概率分布。你可以看看下面的图片,它显示了对称分布,基本上是正态分布,你可以看到虚线两边是对称的。除此之外,还有两种类型的偏度:
尾巴在右边的概率分布是正偏态分布,尾巴在左边的概率分布是负偏态分布。如果你觉得上面的数字令人困惑,没关系。我们稍后会更详细地了解这一点。
在此之前,让我们来了解为什么偏度对于作为数据科学专业人士的你来说是如此重要的概念。
现在,我们知道偏度是不对称性的度量,它的类型是由概率分布尾巴所在的那一边来区分的。但是为什么知道数据的偏度很重要呢
首先,线性模型假设自变量和目标变量的分布相似。因此,了解数据的偏度有助于我们创建更好的线性模型。
其次,让我们看看下面的分布。它是汽车的马力分布:
你可以清楚地看到上面的分布是正偏度的。现在,假设你想把这个作为模型的一个特性,它可以预测汽车的mpg(英里/加仑)。
因为我们的数据在这里是正偏度的,这意味着它有更多的低值数据点,也就是说,马力较小的汽车。
因此,当我们根据这些数据训练我们的模型时,它将在预测低马力汽车的mpg方面表现得比那些高马力的汽车更好。
另外,偏度告诉我们异常值的方向。你可以看到我们的分布是正偏度的,并且大多数异常值都出现在分布的右侧。
注意:偏度并不能告诉我们异常值的数量。它只告诉我们方向。
现在我们知道了为什么偏度很重要,让我们来了解一下我之前给你们看的分布。
是的,我们又回到正态分布了。
正态分布被用作确定分布的偏度度的参考。正如我前面提到的,理想的正态分布是几乎没有偏度的概率分布。它几乎完全对称。因此,正态分布的偏度值为零。
「但是,为什么它几乎完全对称而不是绝对对称?」
这是因为,事实上,没有一个真实的数据完全符合正态分布。因此,偏度的值不完全为零;它几乎为零。虽然零值被用作确定分布的偏度度的参考。
你可以在上图中看到,同一条线表示平均值、中值和众数。这是因为完全正态分布的平均值、中值和众数是相等的。
到目前为止,我们已经用概率或频率分布来理解正态分布的偏度。现在,让我们用箱线图来理解它,因为这是在数据科学领域观察分布的最常见的方法。
上图是对称分布的箱线图。你会注意到Q1和Q2之间的距离是相等的,即:
但这还不足以得出一个分布是否倾斜的结论。我们还看一下线的长度;如果它们相等,那么我们可以说分布是对称的,也就是说,它不是倾斜的。
既然我们已经讨论了正态分布中的偏度,现在是时候了解一下我们前面讨论过的两种类型的偏度了。让我们从正偏度开始。
正偏态分布是尾部在右侧的分布。正偏态分布的偏度值大于零。你可能已经通过观察这个数字了解到,平均值是最大的,然后是中位数,然后是众数。
为什么会这样?
好吧,答案是,分布的尾巴在右边;它导致平均值大于中值,平均值最终向右移动。此外,众数出现在分布的最高频率,即中位数的左侧。因此,「众数<中位数<平均值」。
在上面的框线图中,你可以看到Q2靠近Q1。这代表了一个正偏态分布。根据四分位数,可以通过以下公式得出:
在这种情况下,很容易判断数据是否倾斜。但是如果我们有这样的图呢:
这里,Q2-Q1和Q3-Q2是相等的,但是分布是正偏度的。你们当中目光敏锐的人会注意到右线的长度大于左线的长度。由此,我们可以得出结论,数据是正偏度的。
所以,第一步总是检查Q2-Q1和Q3-Q2的相等性。如果这是相等的,那么我们寻找线的长度。
正如你可能已经猜到的,负偏态分布是尾巴位于左侧的分布。负偏态分布的偏度值小于零。你还可以在上图中看到「均值<中值<众数」。
在箱线图中,负偏度四分位数之间的关系由以下公式给出:
与我们之前所做的类似,如果Q3-Q2和Q2-Q1相等,那么我们寻找线的长度。如果左线的长度大于右线的长度,那么我们可以说数据是负偏度的。
既然你知道倾斜数据会对机器学习模型的预测能力产生多大影响,那么最好将倾斜数据转换为正态分布数据。以下是一些可以转换倾斜数据的方法:
「注」:转换的选择取决于数据的统计特性。
在本文中,我们讨论了偏度的概念、它的类型以及它在数据科学领域中的重要性。我们在概念层面上讨论了偏度,但是如果你想更深入地研究,下一步你可以探索它的数学部分。
OpenFeign是Spring Cloud提供的一个声明式的伪Http客户端, 它使得调用远程服务就像调用本地服务一样简单, 只需要创建一个接口并添加一个注解即可。Nacos很好的兼容了OpenFeign, OpenFeign默认集成了 Ribbon, 所以在Nacos下使用OpenFegin默认就实现了负载均衡的效果。
网管平台:网络管理的得力助手在当今信息化高速发展的时代,网络已经成为企业运营不可或缺的基础设施。随着网络规模的扩大和复杂性的增加,如何高效地管理和维护网络环境,确保网络的稳定性和安全性,成为企业面临的重要挑战。网管平台作为一种集成了多种网络管理功能的软件系统,应运而生,成为企业网络管理的得力助手。网管平台,简而言之,是一个用于管理、监控和维护网络设备和服务的软件平台。它提供了一个集中化的管理界面,
引言:在现代的信息检索和数据分析领域,Elasticsearch 已经成为一个广泛应用的分布式搜索和分析引擎。作为开源项目的一部分,Elasticsearch 提供了强大的实时搜索和分析能力,使得处理大规模数据变得更加高效和可靠。然而,在处理大规模数据时,特别是在高流量和高并发的情况下,Elasticsearch 面临着一个挑战:如何在数据被请求之前尽快准备好数据,以保证响应时间和搜索性能的稳定性
数据科学是一个研究领域,涉及通过使用各种科学方法,算法和过程从大量数据中提取见解。
书籍:Statistics for Data Science and Analytics作者:Peter C. Bruce, Peter Gedeck, Janet Dobbins出版:Wiley编辑:陈萍萍的公主@一点人工一点智能01 书籍介绍本书是一本使用Python进行统计分析的综合指南,涵盖了数据科学中重要的主题,如预测、相关性和数据探索。作者不仅介绍了统计科学和大数据的基础知识,还概述了
数据科学必备知识之:统计学基础
本书介绍本书最初于2016年开始编写,当时为昆士兰大学的统计学习课程准备材料。当时
1.统计学基本概念 统计学:收集、处理、分析、解释数据并从中得出结论的科
《赤裸裸的统计学》,作者[美]查尔斯·韦兰,2013年出版,豆瓣评分8.1分,可以作为统计学入门读物很好的一本书,知识点浅显易懂,对小白非常友好,有统计专业知识的人可能会觉得干货略少。总的来说,值得一读,推荐指数4颗星。文章末尾有关于这本书的知识图谱。一、统计学是大数据时代最炙手可热的学问第一章开头提出了几个有意思的问题:基尼系数是否是衡量社会分配公平程度最完美的指标?(描述性统计学)视频网站是如
学习笔记学习书籍:《统计学:从数据到结论》-吴喜之;参考书目:《统计学》-贾俊平
1引言《概率论》是一门理工科大学生必修课程,学统计学的同学们更是绕不开这门课程以
目录 1、什么是描述性统计? 2、统计量 1)常用统计量 2)变量的类型
表中的
频率是就样本而言的,而概率从总体的意义上说的,频率f/n 是 概率 p(A)的估计值。样本频率总是围绕概率上下波动。样本含量n越大,波动幅度越小,频率越接近概率。即试验次数越多,估计越可靠。 统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述。统计推断:指用样本信息
如何用一个excel表格上的数据做曲线图。方法一个连续区域,通过“框”输入地选中单元格,如选中A列的A3:A8区域,在名称框中输入“A3:A8”后回车,即可选中。方法二:选中满足条件的单元格,如选中A列中大于5的数据单元格,通过查找的方式:①选中A列;②CTRL F打开查找窗口;③查找内容输入“*”;④“查找全部”;⑤在查找框的下方,点击“值”,查找到的数据会按值的大小排序;⑥选中第一个值大于5的
一、常见统计分析软件简介市场上常见的统计分析软件有几十种之多。下面简要地介绍几种国内常用的统计分析软件:SPSS SAS、R和其他统计分析软件。二、spss统计分析的分布分布于通信、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业三、spss版本和授权spss软件基本是每年发行一个新版本四、spss统计分析软件的特点4 y操作简单: 除了数据录人及部分语法命令程序需要键 盘键
本文在Creative Commons许可证下发布。 在fedora Linux上断断续续使用R语言过了9年后,发现R语言在国内用的人逐渐多了起来。由于工作原因,直到今年暑假一个赴京工作的机会与一位统计专业的人士聊天,才知道R语言的强大威力!(当然这里没有贬低SPSS, SAS,Stata的意思)。 R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的
1、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个
Cookie管理Web组件提供WebCookieManager类来管理Cookie信息。Cookie信息存储在应用沙箱路径下/proc/{pid}/root/data/storage/el2/base/cache/web/Cookies的文件中。
在人工智能技术快速发展的当下,AI图像生成已成为数字创作领域的一个新兴分支。各类风格化生成工具不断涌现,其中,一种能够生成GTA游戏风格图像的在线工具引起了部分用户的关注。 工具的基本功能 这款工具的核心功能较为单一明确: 将用户输入的文字描述转化为特定风格的图像 专门模仿《GTA》游戏的经典视觉美 ...
一、数学函数主要用于数值计算。函数名功能描述示例ABS(x)返回 x 的绝对值SELECT ABS(-1); -- 返回 1CEIL(x) / CEILING(x)返回大于或等于 x 的最小整数(向上取整)SELECT CEIL(1.23); -- 返回 2FLOOR(x)返回小于或等于 x 的最大 ...
纳米发电机作为将机械能、热能等低品位能量转化为电能的前沿装置,其输出电流普遍具有微安级幅值、毫秒级脉宽、宽频谱分布的复杂特征,对测试设备的灵敏度、响应速度与抗干扰能力提出了极高要求。西安普科科技推出的PKC8030L高频电流探头,凭借超宽频带、双量程高精度等核心优势,为纳米发电机的研发验证提供了理想 ...
WITH RECURSIVE filtered_org_ids AS ( SELECT organizationresourceid, parentresourceid FROM tmp_org WHERE organizationresourceid = '123456' UNION SELECT ...