样本
在统计学中,样本是人口的一部分。样本是经过精心挑选的。它应该公平地代表整个人口,没有偏见。需要抽样的原因是,人口可能非常庞大,对所有个人进行统计可能不可能或不实际。
因此,解决统计学中的问题通常是从抽样开始的。抽样就是选择取哪些数据用于以后的分析。举个例子,假设要对一个湖泊的污染情况进行分析研究。根据水样的采集地点不同,研究的结果也会不同。一般来说,样本需要是随机的。这意味着选择一个人的机会或概率与选择任何其他个人的机会相同。
在实践中,随机抽样总是通过一个明确的程序来进行。程序是一套规则,是写在纸上并严格遵守的一系列步骤。即使如此,样本中也可能存在一些偏差。考慮設計一個樣本來預測選舉投票結果的問題。所有已知的方法都有其问题,选举的结果往往与基于样本的预测不同。如果你通过电话或在街上与人见面来收集意见,样本总是有偏差的。因此,在这种情况下,一个完全中立的样本是不可能的。在这种情况下,统计学家会考虑如何测量偏差的数量,有一些方法可以估计。
当科学家测量一个物理属性时,例如一块金属的重量或光速,也会出现类似的情况。如果我们用敏感的设备称量一个物体的重量,我们会得到微小的不同结果。没有一个测量系统是完美的。我们得到一系列的估计,每一个估计都是一种测量。这些都是样本,有一定程度的误差。统计学的目的是描述误差,并对这种数据进行分析。
样品有不同的种类。
边防警察带着一只经过特殊训练的狗在寻找非法药物。如果他们每隔10辆汽车就检查一次,那他们就是在进行不偏不倚的抽样调查。
分层抽样
如果一个人口有明显的亚人口,那么就需要对每个亚人口进行抽样。这就是所谓的分层抽样。分层抽样又称分层随机抽样。分层抽样常以比例来表示,如百分比(%)。
假设一个实验开始对成年人的收入进行抽样调查。很明显,大学毕业生的收入可能与非毕业生的收入不同。現在,假設男性畢業生的人數佔成年男性總人數的30%(虛數)。那么,你会安排30%的样本是随机抽取的男性毕业生,70%的样本是男性非毕业生。对女性重复这个过程,因为女性毕业生的比例与男性不同。这样就得到了一个按性别和大学教育程度分层的成年人口样本。下一步是按年龄组划分你的每一个子人口,因为(例如)相对于中年的非毕业生,毕业生可能获得更多的收入。
问题和答案
问:什么是统计学中的样本?答:在统计学中,样本是人口的一部分,它被精心挑选出来,公平而无偏见地代表整个人口。
问:为什么需要样本?
答:之所以需要样本,是因为人口可能非常大,以至于计算所有的个体可能不可能或不实际。因此,解决统计学中的问题通常要从抽样开始。
问:样本是如何表示的?
答:当作为一个数据集时,样本通常用大写字母表示,如X和Y,其元素用小写字母表示(如X3),而样本大小则用字母n表示。
问:样本应该是什么?
答:一般来说,样本需要是随机的,这意味着选择一个个体的机会或概率与选择任何其他个体的机会相同。在实践中,随机样本总是通过一个明确的程序来进行。
问:样本中会有偏差吗?
答:即使使用定义明确的程序进行抽样,由于一些因素,如在为选举投票预测收集意见时,谁接电话或谁在某些街道上行走,也可能在样本中保留一些偏见。在这样的情况下,可能很难获得完全中立的样本,但统计学家可以测量偏见的存在程度。
问:是否有不同类型的样本?
答:是的,有不同种类的样本,包括完整的样本和无偏见/代表性的样本,前者包括所有具有给定属性的元素,后者涉及从完整的样本中选择元素而不取决于其属性。获得样本的方式及其大小将影响到如何看待数据。