目录
第1节:大数定律
第2节:中心极限定理
第3节:随机抽样
第4节:
第5节:常犯的概率学错误
通过前两节的内容我们对大数定律和中心极限定理已经有了一定了解,本节主要讲讲开展调查统计的基本方法也就是本章的第三个重点“随机抽样”。
什么是随机抽样?
按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性。随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种“等概率”。
随机抽样有四种基本形式,即简单随机抽样、等距抽样、类型抽样和整群抽样。
它的最大优点是在根据样本资料推论总体时,可用概率的方式客观地测量推论值的可靠程度,从而使这种推论建立在科学的基础上。正因为此,随机抽样在社会调查和社会研究中应用较广泛。常用的随机抽样方法主要有纯随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。
随机抽样是我们在工作中收集数据的主要方法,比如开展问卷调查的时候,如果客户数量庞大,根据中心极限定理只要在客户中抽取部分有代表性的样本来填写问卷,就能够达到目的。这个选取有代表性样本的过程,我们称之为“随机抽样”。所以呢,随机取样只是看似简单,它的关键点在于“随机”这两个字。要做到随机,必须保证每个对象被抽到的概率完全相等。这样抽样的样本才代表了整个对象群体。比如说我们想知道100个弹珠中有多少绿色弹珠多少黄色弹珠,只要把它们放进一个盒子里然后随机取出30个就能得到基本准确的颜色比例。
那么问题来了?我们开展调查时的对象大多是我们的用户,我们所关心的人口组成,远远要比一盒子弹珠要复杂。如果不能保证相关人口中的每个人被选为样本的概率都相同,这样的抽样结果就存在偏见,这样有偏见的样本往往会得出荒谬的结论。
1、选择性偏见
具体的我们可以把偏见分成几类,最常见的叫做“选择性偏见”。1936年美国总统大选前,文学文摘杂志曾经向1000万名订阅它的美国公民发放问卷,开展候选人民意调查。这份1000万人的样本已经非常大了,因为当时的美国的总人口只有不到1亿3千万。调查结果预测共和党人兰登将以显著的优势当选,然而当大选结果揭晓后民主党人罗斯福却以压倒性的优势当选了美国总统。文学文摘的这次民意调查可以说相当失败,问题就处在编辑们没有意识到,订阅这本杂志的人平均来说要比普通美国民众更富有,他们更倾向于投票给保护富人利益的共和党。这样带有选择性偏见的样本即使容量再大也不能反映出全体美国人的民意。
2、幸存者偏见
还有一类“幸存者偏见”也很常见。当样本中有数据缺失导致组成发生改变,这种偏见就会出现。举一个最常见的案例:很多基金公司经常利用这种偏见来操纵数据吸引投资,基金公司会拿基金业绩和股票市场的基准来做比较。比如美国的标准“普尔指数”(类似于我国的上证指数),如果某一年基金的涨幅高于标准普尔指数或者是跌幅低于普尔指数,基金公司就会宣称我们的基金跑赢了普尔指数。但是要想实实在在的跑赢普尔指数不是一件容易的事,我们从概率学的角度假设,某支基金有1/2的概率能够跑赢标准普尔指数,那么连续2年跑赢的基金就只剩下1/4,连续3年跑赢的概率就只有1/8了。猜猜看,公司会怎么宣传自己的基金业绩呢?他们通常的做法就是同时开放20支新基金,经过3年的经营总会有2-3支基金连续3年跑赢标准普尔指数,那公司只要把十几支失败的基金悄悄关闭,大肆宣传这2-3支幸存者就可以把投资者的钱骗进来了。而实际上这些所谓幸存基金的产生就像连续抛3次硬币正面都朝上一样,接下来的表现会逐渐回归平均水平,真正能长期跑赢普尔指数的优秀基金其实是凤毛麟角。
3、健康用户偏见
此外“健康用户”偏见也指的我们警惕,假设卫生部门发布了一个理论,给孩子穿上紫色睡衣会有助于孩子大脑的发育。那么20年后我们通过抽样调查来验证这个理论,结果显示在哈弗大学的学生中有98%的人在少年时期是穿着紫色睡衣入睡的,而监狱里的犯人只有3%的人在少年时穿过紫色睡衣,所以我们得出结论:穿紫色睡衣的孩子确实更有可能取得成功。这很显然是很荒谬的结论,那问题出在哪呢?其实我们用来对比的两组人并不是通过随机抽样得到的,哈弗大学的学生和监狱里的犯人根本就是两类人,真正对孩子大脑发育有作用的是给孩子穿上紫色睡衣的家长相比于其他家庭显然更注重对孩子的家庭教育。有些养生栏目页经常用类似的调查数据来证明多吃蔬菜水果的人更加长寿等等,他们忽略了习惯吃蔬菜水果的人群往往有健康的生活习惯,而那些喜欢高热量食物的人群很可能收入偏低,在生活的其它方面也没有健康的习惯,所以,这样错误的抽样得出的结论是经不起严格考证的。
小结:随机抽样是我们开展调查统计的第一步,我们要通过正确抽样来保证第一手的数据是可靠的、没有偏见的,在这个基础上我们才能够应用这些数据对复杂的问题展开研究。在下一节我们将介绍一种强大的统计学方法“回归分析”,这是一种非常强大的统计学方法,专门用来分析那些影响因素很多的复杂问题。