统计数据

统计学应用数学的一个分支,涉及数据的收集、组织、分析、解释和表述。描述性统计对数据进行总结。推断性统计可以进行预测。统计学有助于许多其他领域的研究,如科学医学经济学心理学政治场营销。从事统计工作的人被称为统计学家。除了作为一个研究领域的名称外,"统计 "一词还指用于描述数据或关系的数字。

历史

最早的已知统计数据是人口普数据。巴比伦人公元前3500年左右做了一次人口普查,埃及人在公元前2500年左右,中国古人在公元前1000年左右。

从16世纪开始,Gerolamo Cardano等数学家提出了概率,使统计成为一门科学。从那时起,人们就开始收集和研究许多事物的统计数据。树木海星星星岩石文字,几乎所有可以计算的东西都成为了统计学的对象。

收集数据

在我们能够用统计学描述世界之前,我们必须收集数据。我们在统计学中收集的数据被称为测量。在我们收集数据后,我们用一个或多个数字来描述每个观察或测量。例如,假设我们想知道某个电视节目有多受欢迎。我们可以从总的观众群中挑选出一组人(称为样本)。然后我们问样本中的每个观众他们观看该节目的频率。样本是你能看到的数据,而人口是你看不到的数据(因为你没有询问人口中的每一个观众)。再比如,如果我们想知道某种药物是否能帮助降低,我们可以给人们服用一段时间的药物,并测量他们前后的血压。

描述性和推断性统计

描述你能看到的数据的数字被称为描述性统计。对你看不到的数据进行预测的数字被称为推理统计。

描述性统计涉及使用数字来描述数据的特征。例如,美国妇女的平均身高是一个描述性统计,它描述了一个人口(美国妇女)的一个特征(平均身高)。

一旦对结果进行了总结和描述,就可以用来进行预测。这就是所谓的推理统计。举例来说,动物的大小取决于许多因素。这些因素中有些是由环境控制的,但有些是由遗传决定的。因此,一个生物学家可能会做一个模型,说如果父母体型小,后代体型小的概率很高。这个模型可能允许以更好的方式预测大小,而不是仅仅通过随机猜测。测试某种药物是否可以用来治疗某种状况或疾病,通常是通过比较服用该药物的人与服用安慰剂的人的结果来进行的。

方法

大多数时候,我们通过做调查实验来收集统计数据。例如,民意调查就是一种调查。我们挑选一小部分人,向他们提出问题。然后,我们用他们的答案作为数据。

选择哪些进行调查或数据收集很重要,因为它直接影响到统计数据。当统计完成后,就不能再确定抽取哪些个体了。假设我们想测量一个大湖的水质。如果我们在排污口旁边取样,与在湖中一个遥远的、难以到达的地方取样,我们会得到不同的结果。

有两种问题是在取样时经常发现的。

  1. 如果有许多样本,这些样本将可能非常接近真实人口中的情况。然而,如果样本非常少,它们可能与真实人口中的情况有很大的不同。这种误差被称为机会误差(见统计中的误差和残差)。
  2. 样本中的个体需要仔细选择,通常他们会被随机选择。如果不是这样,样本可能与总人口中的实际情况有很大的不同。即使抽取了大量的样本也是如此。这种误差被称为

误区

我们可以通过抽取更大的样本来减少偶然的错误,我们可以通过随机选择来避免一些偏见。然而,有时大的随机样本很难抽取。而且,如果不同的人没有被问到,或者拒绝回答我们的问题,或者他们知道自己得到的是假的治疗,那么偏见就会发生。这些问题可能很难解决。另见标准误差

描述性统计

找到数据的中间部分

数据的中间部分被称为平均数。平均数告诉我们人口中的典型个体的情况。经常使用的平均数有三种:平均数中位数模式

下面的例子使用这个样本数据。

 名称 | A B C D E F G H I J --------------------------------------------- score| 23 26 49 49 57 64 66 78 82 92

平均值

平均的计算公式为

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={frac {x_{1}+x_{2}+\cdots +x_{N}}}{N}}。 {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

其中x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} 是数据,N {displaystyle N}{\displaystyle N} 是群体大小。(见Sigma Notation)。

这意味着你把所有的值加起来,然后以值的数量。

在我们的例子中,x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {displaystyle {bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} 。 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

平均值的问题在于它不能说明任何关于数值分布的情况。那些非常大或非常小的数值会使平均值发生很大的变化。在统计学中,这些极端值可能是测量误差,但有时人口确实包含这些值。例如,如果在一个房间里,有10个人每天赚10美元,1个人每天赚100万美元。数据的平均值是90,918美元/天。尽管它是平均数,但在这种情况下,平均数不是任何一个人赚的钱,因此对某些目的来说是无用的。

这就是 "算术平均数"。其他种类对某些目的是有用的。

中位数

中位数是数据的中间项。为了找到中位数,我们将数据从最小的数字到最大的数字进行排序,然后选择中间的数字。如果数据的数量是偶数,就不会有正中间的数字,所以我们选择中间的两个数字并计算它们的平均值。在我们的例子中,有10个数据,中间的两个是 "57 "和 "64",所以中位数是(57+64)/2=60.5。另一个例子,就像为平均数提出的收入例子一样,考虑一个有10个人的房间,他们的收入分别是10元、20元、20元、40元、50元、60元、90元、90元、100元和100万元,中位数是55元,因为55元是中间两个数字50元和60元的平均值。如果忽略$1,000,000这个极端值,平均数是53美元。在这种情况下,中位数接近于抛开极端值后得到的数值。中位数解决了上面平均值定义中描述的极端值问题。

模式

模式是数据中最频繁的项目。例如,英语中最常见的字母是字母 "e"。我们会说,"e "是字母分布的模式。

例如,如果在一个房间里有10个人,他们的收入分别是10美元、20美元、20美元、40美元、50美元、60美元、90美元、90美元、100美元和100万美元,那么模式就是90美元,因为90美元出现了3次,其他数值出现的次数都少于3次。

可以有一个以上的模式。例如,如果在一个房间里有10个人,收入分别为10美元、20美元、20美元、20美元、50美元、60美元、90美元、90美元、100美元和100万美元,模式就是20美元和90美元。这就是双模式,或者说有两种模式。双模态是非常常见的,通常表明数据是两个不同群体的组合。例如,美国所有成年人的平均身高有一个双模分布。这是因为男性和女性的平均身高是分开的,男性为1.763米(5英尺9+1/2英寸),女性为1.622米(5英尺4英寸)。这些峰值在两个组别合并后是很明显的。

模式是平均数的唯一形式,可用于不能按顺序排列的数据。

寻找数据的分布

关于一组数据,我们可以说的另一件事是它的分布情况。描述一组数据的分布的一个常见方法是标准差。如果一组数据的标准差很小,那么大部分数据就非常接近平均水平。但是,如果标准差很大,那么很多数据就与平均值非常不同。

如果数据遵循被称为正态分布的常见模式,那么知道标准差是非常有用的。如果数据遵循这种模式(我们会说数据是正态分布的),每100个数据中大约有68个会偏离平均数小于标准差。不仅如此,每100个测量值中约有95个会偏离平均数,偏离程度小于标准差的2倍,每1000个中约有997个会更接近于平均数的3个标准差。

其他描述性统计

我们也可以用统计学来发现,一个群体中的某些百分比百分位数数量分数的人或事物做了什么或符合某个类别

例如,社会科学家通过统计发现,世界上49%的人是男性

相关软件

为了支持统计学家,许多统计软件已经被开发出来。

  • SAS研究所
  • SPSS(由IBM制造)

问题和答案

问:什么是统计学?
答:统计学是应用数学的一个分支,涉及数据的收集、组织、分析、阅读和展示。

问:统计学的两种类型是什么?
答:两种类型的统计是描述性的和推断性的。描述性统计对数据进行总结,而推断性统计则进行预测。

问:统计学在其他领域有什么帮助?
答:统计学有助于许多其他领域的研究,如科学、医学、经济学、心理学、政治和市场营销。

问:谁在统计学领域工作?
答:在统计学领域工作的人被称为统计学家。

问:"统计 "这个词是什么意思?
答:除了作为一个研究领域的名称外,"统计 "一词也可以指用于描述数据或关系的数字。

问:统计学家从事什么活动?
答:统计学家从事的活动包括:收集、组织、分析、阅读和展示数据。

AlegsaOnline.com - 2020 / 2023 - License CC3