统计数据

作者: Leandro Alegsa

18-06-2022 19:31

统计学是应用数学的一个分支，涉及数据的收集、组织、分析、解释和表述。描述性统计对数据进行总结。推断性统计可以进行预测。统计学有助于许多其他领域的研究，如科学、医学、经济学、心理学、政治和市场营销。从事统计工作的人被称为统计学家。除了作为一个研究领域的名称外，"统计 "一词还指用于描述数据或关系的数字。

历史

最早的已知统计数据是人口普查数据。巴比伦人在公元前3500年左右做了一次人口普查，埃及人在公元前2500年左右，中国古人在公元前1000年左右。

从16世纪开始，Gerolamo Cardano等数学家提出了概率论，使统计成为一门科学。从那时起，人们就开始收集和研究许多事物的统计数据。树木、海星、星星、岩石、文字，几乎所有可以计算的东西都成为了统计学的对象。

收集数据

在我们能够用统计学描述世界之前，我们必须收集数据。我们在统计学中收集的数据被称为测量。在我们收集数据后，我们用一个或多个数字来描述每个观察或测量。例如，假设我们想知道某个电视节目有多受欢迎。我们可以从总的观众群中挑选出一组人（称为样本）。然后我们问样本中的每个观众他们观看该节目的频率。样本是你能看到的数据，而人口是你看不到的数据（因为你没有询问人口中的每一个观众）。再比如，如果我们想知道某种药物是否能帮助降低血压，我们可以给人们服用一段时间的药物，并测量他们前后的血压。

描述性和推断性统计

描述你能看到的数据的数字被称为描述性统计。对你看不到的数据进行预测的数字被称为推理统计。

描述性统计涉及使用数字来描述数据的特征。例如，美国妇女的平均身高是一个描述性统计，它描述了一个人口（美国妇女）的一个特征（平均身高）。

一旦对结果进行了总结和描述，就可以用来进行预测。这就是所谓的推理统计。举例来说，动物的大小取决于许多因素。这些因素中有些是由环境控制的，但有些是由遗传决定的。因此，一个生物学家可能会做一个模型，说如果父母体型小，后代体型小的概率很高。这个模型可能允许以更好的方式预测大小，而不是仅仅通过随机猜测。测试某种药物是否可以用来治疗某种状况或疾病，通常是通过比较服用该药物的人与服用安慰剂的人的结果来进行的。

方法

大多数时候，我们通过做调查或实验来收集统计数据。例如，民意调查就是一种调查。我们挑选一小部分人，向他们提出问题。然后，我们用他们的答案作为数据。

选择哪些人进行调查或数据收集很重要，因为它直接影响到统计数据。当统计完成后，就不能再确定抽取哪些个体了。假设我们想测量一个大湖的水质。如果我们在排污口旁边取样，与在湖中一个遥远的、难以到达的地方取样，我们会得到不同的结果。

有两种问题是在取样时经常发现的。

如果有许多样本，这些样本将可能非常接近真实人口中的情况。然而，如果样本非常少，它们可能与真实人口中的情况有很大的不同。这种误差被称为机会误差（见统计中的误差和残差）。
样本中的个体需要仔细选择，通常他们会被随机选择。如果不是这样，样本可能与总人口中的实际情况有很大的不同。即使抽取了大量的样本也是如此。这种误差被称为偏见。

误区

我们可以通过抽取更大的样本来减少偶然的错误，我们可以通过随机选择来避免一些偏见。然而，有时大的随机样本很难抽取。而且，如果不同的人没有被问到，或者拒绝回答我们的问题，或者他们知道自己得到的是假的治疗，那么偏见就会发生。这些问题可能很难解决。另见标准误差。

描述性统计

找到数据的中间部分

数据的中间部分被称为平均数。平均数告诉我们人口中的典型个体的情况。经常使用的平均数有三种：平均数、中位数和模式。

下面的例子使用这个样本数据。

名称 | A B C D E F G H I J --------------------------------------------- score| 23 26 49 49 57 64 66 78 82 92

平均值

平均值的计算公式为

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={frac {x_{1}+x_{2}+\cdots +x_{N}}}{N}}。 ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

其中x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2},\ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ 是数据，N {displaystyle N} $N$ 是群体大小。(见Sigma Notation)。

这意味着你把所有的值加起来，然后除以值的数量。

在我们的例子中，x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {displaystyle {bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} 。 ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

平均值的问题在于它不能说明任何关于数值分布的情况。那些非常大或非常小的数值会使平均值发生很大的变化。在统计学中，这些极端值可能是测量误差，但有时人口确实包含这些值。例如，如果在一个房间里，有10个人每天赚10美元，1个人每天赚100万美元。数据的平均值是90,918美元/天。尽管它是平均数，但在这种情况下，平均数不是任何一个人赚的钱，因此对某些目的来说是无用的。

这就是 "算术平均数"。其他种类对某些目的是有用的。

中位数

中位数是数据的中间项。为了找到中位数，我们将数据从最小的数字到最大的数字进行排序，然后选择中间的数字。如果数据的数量是偶数，就不会有正中间的数字，所以我们选择中间的两个数字并计算它们的平均值。在我们的例子中，有10个数据，中间的两个是 "57 "和 "64"，所以中位数是（57+64）/2=60.5。另一个例子，就像为平均数提出的收入例子一样，考虑一个有10个人的房间，他们的收入分别是10元、20元、20元、40元、50元、60元、90元、90元、100元和100万元，中位数是55元，因为55元是中间两个数字50元和60元的平均值。如果忽略$1,000,000这个极端值，平均数是53美元。在这种情况下，中位数接近于抛开极端值后得到的数值。中位数解决了上面平均值定义中描述的极端值问题。

模式

模式是数据中最频繁的项目。例如，英语中最常见的字母是字母 "e"。我们会说，"e "是字母分布的模式。

例如，如果在一个房间里有10个人，他们的收入分别是10美元、20美元、20美元、40美元、50美元、60美元、90美元、90美元、100美元和100万美元，那么模式就是90美元，因为90美元出现了3次，其他数值出现的次数都少于3次。

可以有一个以上的模式。例如，如果在一个房间里有10个人，收入分别为10美元、20美元、20美元、20美元、50美元、60美元、90美元、90美元、100美元和100万美元，模式就是20美元和90美元。这就是双模式，或者说有两种模式。双模态是非常常见的，通常表明数据是两个不同群体的组合。例如，美国所有成年人的平均身高有一个双模分布。这是因为男性和女性的平均身高是分开的，男性为1.763米（5英尺9+1/2英寸），女性为1.622米（5英尺4英寸）。这些峰值在两个组别合并后是很明显的。

模式是平均数的唯一形式，可用于不能按顺序排列的数据。

寻找数据的分布

关于一组数据，我们可以说的另一件事是它的分布情况。描述一组数据的分布的一个常见方法是标准差。如果一组数据的标准差很小，那么大部分数据就非常接近平均水平。但是，如果标准差很大，那么很多数据就与平均值非常不同。

如果数据遵循被称为正态分布的常见模式，那么知道标准差是非常有用的。如果数据遵循这种模式（我们会说数据是正态分布的），每100个数据中大约有68个会偏离平均数小于标准差。不仅如此，每100个测量值中约有95个会偏离平均数，偏离程度小于标准差的2倍，每1000个中约有997个会更接近于平均数的3个标准差。

其他描述性统计

我们也可以用统计学来发现，一个群体中的某些百分比、百分位数、数量或分数的人或事物做了什么或符合某个类别。

例如，社会科学家通过统计发现，世界上49%的人是男性。

问题和答案

问：什么是统计学？
答：统计学是应用数学的一个分支，涉及数据的收集、组织、分析、阅读和展示。

问：统计学的两种类型是什么？
答：两种类型的统计是描述性的和推断性的。描述性统计对数据进行总结，而推断性统计则进行预测。

问：统计学在其他领域有什么帮助？
答：统计学有助于许多其他领域的研究，如科学、医学、经济学、心理学、政治和市场营销。

问：谁在统计学领域工作？
答：在统计学领域工作的人被称为统计学家。

问："统计 "这个词是什么意思？
答：除了作为一个研究领域的名称外，"统计 "一词也可以指用于描述数据或关系的数字。

问：统计学家从事什么活动？
答：统计学家从事的活动包括：收集、组织、分析、阅读和展示数据。

搜索百科全书