当前位置: 首页 > 数据观点 > 正文

平均值是个“大骗子”

与很多人一样,我曾经、现在无数次的“被平均”过,而且未来也无法逃脱这样的命运。在感慨唏嘘“对不起国家,对不起人民,拖了XX的后腿”之后,剩下的仍是很多的无奈。

当然,那些“平均数”的真实性上我们无法考证,但有一点我们应该也需要明白的就这种数据表述方式本身就存在很大问题。

为什么这么说呢?举个例子:有一个10人的小公司,公司有1名老板、1个总经理、2个中层领导,剩下的6人为普通职员。他们的年薪待遇如下表所示:

职位
年薪(万元)
老板
80
经理
15
小领导
6
小领导
6
职员
4.5
职员
4.5
职员
3.5
职员
3.5
职员
3.5
职员
3.5

通过简单的计算得出这10人的平均收入为13万元。除了老板和总经理两人的待遇高于均值,其他8个人的收入都远低于这个平均值,为什么会这样呢?

主要原因是在于数据分布上。在连续数据方面,(算数)平均值可谓是最重要的屈指可数的屈指可数的几个基本指标之一,其公式为:

131147iu0r0itsv0drns1o

从公式上可以看出所有的数据都要参加计算,因此很难避免极端值或异常值的干扰,尤其是在样本数据过小或者异常数据离群严重的情况下,影响更严重。从下图可以看出老板的年薪80万严重离群,是引起平均值超出大部分人实际收入的“罪魁祸首”。

平均值-2.jpg

那什么样的情况下适合使用平均值呢?

说到这里,就不得不说数据分布,说到数据分布有不得不说正态分布。因为正态分布是几个比较适合做统计检验的重要分布之一,很多统计检验方法都是基于正态分布数据来进行的。我们来看例子中的数据分布情况
平均值-3.jpg
可以看出数据分布严重右偏,有统计方面的书籍中就提到:

对于偏态的分布,应使用中位数作为集中趋势的统计量。只有单峰和基本对称的分布情况下,使用平均数作为集中趋势描述的统计量才是合理的。

因此,我们在使用平均值对数据进行统计描述的时候一定要事先了解数据的分布情况,选择恰当的统计描述方法和指标来对数据进行分析,避免平均值产生的“欺骗性误导”。

那么还有一个问题就是,遇到此类问题我们该怎么去做才能(尽量)避免误导产生?

个人观点,有一下几种方法可供参考:

1、同时使用中位数、众数和平均数作为衡量标准,对于偏态严重的数据分布,中位数、众数为主,平均数为辅。对于上面的例子,中位数为4.5,中数为3.5,这两个值都相对接近“多数人”的真实值。

2、对数据进行离散化处理(分箱)。对于例子中的数据,可以分为0~10万区间、10~50万区间以及50万以上三个区间(区间大小仅作参考),然后分别对区间内的数据使用平均值进行统计。具体的分箱说法可以查阅网上的资料,再次不多做介绍。

3、如果数据作为一些模型的输入值也可以考虑对数据进行转换,如对数转换。

以上是我个人的一些看法和观点,在此提出来也是希望大家在做数据统计分析时能够避免更多的“被平均”现象。有不妥的地方还请广大网友和同行指正。

参考资料:《SPSS统计分析基础教程》

本文固定链接: http://datakung.com/?p=19 | 数据控

版权声明:本原创文章由 数据控 于2013年10月22日发表在 数据观点 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
转载请注明: 平均值是个“大骗子” | 数据控
关键字:

平均值是个“大骗子”:目前有1 条留言

  1. 沙发
    信己:

    对数据进行离散化处理(分箱)时,可以进行层次分析法进行分段

    2015-11-09 14:22 [回复]

发表评论


快捷键:Ctrl+Enter