Student's t-distribution是由William Sealy Gosset在1908年开发的一种概率分布。Student是他发表描述该分布的论文时使用的假名。Gosset在一家啤酒厂工作,他对小样本的问题很感兴趣,例如大麦的化学性质。在他分析的问题中,样本量可能低至三个。关于化名的由来,一个版本是,戈赛特的雇主喜欢员工在发表科学论文时使用笔名,而不是真名,所以他用"学生"这个名字来隐藏自己的身份。另一个版本是,啤酒厂不想让他们的竞争对手知道他们在使用t检验来测试原材料的质量。
由于样本量小,无法估计标准差。另外,在Gosset遇到的许多情况下,样本的概率分布不知道。
正态分布描述的是全人群,t分布描述的是从全人群中抽取的样本,相应的,每个样本大小的t分布也不一样,样本越大,分布越像正态分布。
t分布在许多广泛使用的统计分析中发挥着作用,包括用于评估两个样本均值之间差异的统计意义的学生t检验,两个人口均值之间差异的置信区间的构建,以及线性回归分析。学生t分布也出现在对正常家庭数据的贝叶斯分析中。
如果我们从正态分布中抽取n个观测值的样本,那么,ν=n-1个自由度的t分布可以定义为真平均数相对于样本平均数的位置分布,并除以样本标准差,在乘以归一化项n {\displaystyle {\sqrt {n}}}}。.通过这种方式,t分布可以用来估计真正的平均值在任何给定范围内的可能性有多大。
t分布与正态分布一样,是对称的钟形分布,但尾部较重,这意味着它更容易产生远离其平均值的数值。这使得它对于理解某些类型的随机量比率的统计行为很有用,在这种情况下,分母的变化会被放大,当比率的分母接近于零时,可能会产生偏离值。学生t分布是广义双曲分布的一个特例。