?#21040;鐋如果数据分布是非正态的怎么办?用切比雪夫不等式呀!

来 源:网络整理发布时间:2018-12-14 移动版

大数据文摘出品

编译:蒋宝尚、茶西


上图是万圣节的一周,在捣蛋和给糖之间,数据极客们在社交?#25945;?#19978;为这个可爱的网红词汇而窃窃私语。


正态分布/超自然分布


你觉得这是个玩笑?让我告诉你,这不是笑料。这是吓人的,真正的万圣节精神!


如果我们无法假设我们的大部分数据(商业、社会、经济或科学根源) 至少近似“正态”(即它们是由一个高斯过程或多个这样的过程的总和产生的),那么我们就完蛋了!


简单来说吧,以下非常重要的概念将无效~

  • 六西格玛的概念

  • 著名的68-95-99.7规则

  • 统计分析中p=0.05(来自2西格玛区间)的?#21543;?#22307;”概念


够吓人了么?那我们再多说两句…


无所不在的正态分布


正态分布(高斯分布)是最广为人知的概率分布。在数据科学的圈里,。


一方面是因为,符合这个分布的现象在自然界随处可见。在概率统?#21697;?#38754;,中心极限定理?#29260;?#20102;一片天,而中心极限定理的最重要的一个假设是数据的分布符合中心极限定理。


最重要的一点是:简洁。


因为无论是正态分布的性质还是表达式都非常的简洁:

  • 它的均值(mean)、中值(median)和众数(mode)都相同

  • 只需要用两个?#38382;?#23601;可以确定整个分布



所以问题在哪呢?


这看起来都挺棒的啊,有什么问题吗?


问题是通常是,你可能会找到特定的数据集分布,这些分布可能不满足正态性,即正态分布的性质。但由于过度依赖于常态假设,大多数业务分析框架都是为处理正态分布数据集而?#21487;?#23450;做的。


假设你被要求检测来自某个流程(工程或业务)的一批新数据是否有意义。所?#20581;?#26377;意义”是指新的数据是否属于它的“预期范围?#20445;?#25110;者在它的“预期范围”之内。


“期望”是什么?如何确定范围?


我?#20146;?#21160;如潜意识驱使般,测量样本数据集的均值和标准差,并继续检查新数据是否在一定的标?#35745;?#24046;范围内。


如果我们必须在95%的置信区间下工作,那么我们很高兴看到数据在2个标准差内。如果我?#20999;?#35201;更严格的界限,我们检查3或4个标准差。我们计算Cpk,或者我?#20146;?#24490;六西格玛线的ppm(每百万零件数)的质量水平.


所有这些计算都是基于一个隐含的假设,即人口数据(而不是样本)服从高斯分布,即生成所有数据的基本过程(过去和现在)受下面左侧图的支配。但是,如果数据在遵循右侧图形会发生什么呢?


左,正态:右,非正态


或者数据分布符合下边两个图形。



当数据非正态时,是否有更普遍的界限呢?


最终,?#35789;?#25968;据是非正态的,我们仍然需要一种数学上完整的方法来限定我们的置信区间。这意味着,我们的计算可能会有一点变化,但我们还是应该能说出这样的话:


“与平均值一定距离处观察一个新的数据点的概率就是这样和这样的…”


显然,我?#20999;?#35201;寻求一个比珍贵的68-95-99.7的高斯界限更普遍的界限(对应于与平均值的1/2/3标准差距离)。


?#20197;?#30340;是,还真有一个这样的公式,叫做“切比雪夫不等式”。


什么是切比雪夫界限,它是如何有用的?


切比雪夫不等式(也称为Bienaymé-Chebyshev不等式)可以确保,对于一类广泛的概率分布,不超过?#31243;?#23450;分段的值会比均值的特定距离大。


大学生必修课《概?#20107;?#19982;数理统计》里是这么说的:


切比雪夫不等式可以使人们在随机变量X的分布未知的情况下,对?#24405;䙡x-u|<ε概?#39318;?#20986;估计。


表达式是这样的:

其中,u为数学期望,σ为标准差,ε为?#25105;?#27491;数


它适用于几乎无限种类型的概率分布,并在比正态更宽松的假设下工作。


如何应用


正如你现在可以猜到的,数据分析的基本机制不需要改变。你仍将收集数据样本,,并?#20197;?#22823;越好,计算以前?#19981;?#31639;的均值和标准差这两个量,然后应用新的界限,而不是68-95-99.7规则。


提取样本数据/计算:均值,标准差/应用切比雪夫界限


该表如下所示(这里k表示许多偏离平均值的标准差):


K均值标准差内的最小百分比/超出k均值标准差的百分比

转载请注明出处: http://www.pwlzak.tw/view-170846-1.html