统计数据
统计学是应用数学的一个分支,涉及数据的收集、组织、分析、解释和表述。描述性统计对数据进行总结。推断性统计可以进行预测。统计学有助于许多其他领域的研究,如科学、医学、经济学、心理学、政治和市场营销。从事统计工作的人被称为统计学家。除了作为一个研究领域的名称外,"统计 "一词还指用于描述数据或关系的数字。
历史
最早的已知统计数据是人口普查数据。巴比伦人在公元前3500年左右做了一次人口普查,埃及人在公元前2500年左右,中国古人在公元前1000年左右。
从16世纪开始,Gerolamo Cardano等数学家提出了概率论,使统计成为一门科学。从那时起,人们就开始收集和研究许多事物的统计数据。树木、海星、星星、岩石、文字,几乎所有可以计算的东西都成为了统计学的对象。
收集数据
在我们能够用统计学描述世界之前,我们必须收集数据。我们在统计学中收集的数据被称为测量。在我们收集数据后,我们用一个或多个数字来描述每个观察或测量。例如,假设我们想知道某个电视节目有多受欢迎。我们可以从总的观众群中挑选出一组人(称为样本)。然后我们问样本中的每个观众他们观看该节目的频率。样本是你能看到的数据,而人口是你看不到的数据(因为你没有询问人口中的每一个观众)。再比如,如果我们想知道某种药物是否能帮助降低血压,我们可以给人们服用一段时间的药物,并测量他们前后的血压。
描述性和推断性统计
描述你能看到的数据的数字被称为描述性统计。对你看不到的数据进行预测的数字被称为推理统计。
描述性统计涉及使用数字来描述数据的特征。例如,美国妇女的平均身高是一个描述性统计,它描述了一个人口(美国妇女)的一个特征(平均身高)。
一旦对结果进行了总结和描述,就可以用来进行预测。这就是所谓的推理统计。举例来说,动物的大小取决于许多因素。这些因素中有些是由环境控制的,但有些是由遗传决定的。因此,一个生物学家可能会做一个模型,说如果父母体型小,后代体型小的概率很高。这个模型可能允许以更好的方式预测大小,而不是仅仅通过随机猜测。测试某种药物是否可以用来治疗某种状况或疾病,通常是通过比较服用该药物的人与服用安慰剂的人的结果来进行的。
方法
大多数时候,我们通过做调查或实验来收集统计数据。例如,民意调查就是一种调查。我们挑选一小部分人,向他们提出问题。然后,我们用他们的答案作为数据。
选择哪些人进行调查或数据收集很重要,因为它直接影响到统计数据。当统计完成后,就不能再确定抽取哪些个体了。假设我们想测量一个大湖的水质。如果我们在排污口旁边取样,与在湖中一个遥远的、难以到达的地方取样,我们会得到不同的结果。
有两种问题是在取样时经常发现的。
- 如果有许多样本,这些样本将可能非常接近真实人口中的情况。然而,如果样本非常少,它们可能与真实人口中的情况有很大的不同。这种误差被称为机会误差(见统计中的误差和残差)。
- 样本中的个体需要仔细选择,通常他们会被随机选择。如果不是这样,样本可能与总人口中的实际情况有很大的不同。即使抽取了大量的样本也是如此。这种误差被称为偏见。
误区
我们可以通过抽取更大的样本来减少偶然的错误,我们可以通过随机选择来避免一些偏见。然而,有时大的随机样本很难抽取。而且,如果不同的人没有被问到,或者拒绝回答我们的问题,或者他们知道自己得到的是假的治疗,那么偏见就会发生。这些问题可能很难解决。另见标准误差。
描述性统计
找到数据的中间部分
数据的中间部分被称为平均数。平均数告诉我们人口中的典型个体的情况。经常使用的平均数有三种:平均数、中位数和模式。
下面的例子使用这个样本数据。
名称 | A B C D E F G H I J --------------------------------------------- score| 23 26 49 49 57 64 66 78 82 92平均值
平均值的计算公式为
x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={frac {x_{1}+x_{2}+\cdots +x_{N}}}{N}}。
其中x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2},\ldots ,x_{N}} 是数据,N {displaystyle N} 是群体大小。(见Sigma Notation)。
这意味着你把所有的值加起来,然后除以值的数量。
在我们的例子中,x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {displaystyle {bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} 。
平均值的问题在于它不能说明任何关于数值分布的情况。那些非常大或非常小的数值会使平均值发生很大的变化。在统计学中,这些极端值可能是测量误差,但有时人口确实包含这些值。例如,如果在一个房间里,有10个人每天赚10美元,1个人每天赚100万美元。数据的平均值是90,918美元/天。尽管它是平均数,但在这种情况下,平均数不是任何一个人赚的钱,因此对某些目的来说是无用的。
这就是 "算术平均数"。其他种类对某些目的是有用的。
中位数
中位数是数据的中间项。为了找到中位数,我们将数据从最小的数字到最大的数字进行排序,然后选择中间的数字。如果数据的数量是偶数,就不会有正中间的数字,所以我们选择中间的两个数字并计算它们的平均值。在我们的例子中,有10个数据,中间的两个是 "57 "和 "64",所以中位数是(57+64)/2=60.5。另一个例子,就像为平均数提出的收入例子一样,考虑一个有10个人的房间,他们的收入分别是10元、20元、20元、40元、50元、60元、90元、90元、100元和100万元,中位数是55元,因为55元是中间两个数字50元和60元的平均值。如果忽略$1,000,000这个极端值,平均数是53美元。在这种情况下,中位数接近于抛开极端值后得到的数值。中位数解决了上面平均值定义中描述的极端值问题。
模式
模式是数据中最频繁的项目。例如,英语中最常见的字母是字母 "e"。我们会说,"e "是字母分布的模式。
例如,如果在一个房间里有10个人,他们的收入分别是10美元、20美元、20美元、40美元、50美元、60美元、90美元、90美元、100美元和100万美元,那么模式就是90美元,因为90美元出现了3次,其他数值出现的次数都少于3次。
可以有一个以上的模式。例如,如果在一个房间里有10个人,收入分别为10美元、20美元、20美元、20美元、50美元、60美元、90美元、90美元、100美元和100万美元,模式就是20美元和90美元。这就是双模式,或者说有两种模式。双模态是非常常见的,通常表明数据是两个不同群体的组合。例如,美国所有成年人的平均身高有一个双模分布。这是因为男性和女性的平均身高是分开的,男性为1.763米(5英尺9+1/2英寸),女性为1.622米(5英尺4英寸)。这些峰值在两个组别合并后是很明显的。
模式是平均数的唯一形式,可用于不能按顺序排列的数据。
寻找数据的分布
关于一组数据,我们可以说的另一件事是它的分布情况。描述一组数据的分布的一个常见方法是标准差。如果一组数据的标准差很小,那么大部分数据就非常接近平均水平。但是,如果标准差很大,那么很多数据就与平均值非常不同。
如果数据遵循被称为正态分布的常见模式,那么知道标准差是非常有用的。如果数据遵循这种模式(我们会说数据是正态分布的),每100个数据中大约有68个会偏离平均数小于标准差。不仅如此,每100个测量值中约有95个会偏离平均数,偏离程度小于标准差的2倍,每1000个中约有997个会更接近于平均数的3个标准差。
其他描述性统计
我们也可以用统计学来发现,一个群体中的某些百分比、百分位数、数量或分数的人或事物做了什么或符合某个类别。
例如,社会科学家通过统计发现,世界上49%的人是男性。
相关软件
为了支持统计学家,许多统计软件已经被开发出来。
- SAS研究所
- SPSS(由IBM制造)
问题和答案
问:什么是统计学?答:统计学是应用数学的一个分支,涉及数据的收集、组织、分析、阅读和展示。
问:统计学的两种类型是什么?
答:两种类型的统计是描述性的和推断性的。描述性统计对数据进行总结,而推断性统计则进行预测。
问:统计学在其他领域有什么帮助?
答:统计学有助于许多其他领域的研究,如科学、医学、经济学、心理学、政治和市场营销。
问:谁在统计学领域工作?
答:在统计学领域工作的人被称为统计学家。
问:"统计 "这个词是什么意思?
答:除了作为一个研究领域的名称外,"统计 "一词也可以指用于描述数据或关系的数字。
问:统计学家从事什么活动?
答:统计学家从事的活动包括:收集、组织、分析、阅读和展示数据。