线性回归是用一条直线来解释一个因变量和一个或多个解释变量之间关系的方法。它是回归分析的一种特殊情况。

线性回归是第一个被严格研究的回归分析类型。这是因为与未知参数呈线性关系的模型比与其参数呈非线性关系的模型更容易拟合。更重要的是,由此产生的估计器的统计特性更容易确定。

线性回归有许多实际用途。大多数应用属于以下两大类之一:

  • 线性回归可用于将一个预测模型拟合到一组观察值(数据)上。如果目标是预测,或预测,或减少,这很有用。在建立这样一个模型后,如果再给出一个X的附加值,而不附带y的值,则可使用拟合模型对y的值进行预测。
  • 给定一个变量y和一些可能与y相关的变量X1,...,Xp,可以应用线性回归分析来量化yXj之间的关系强度,评估哪些Xjy完全没有关系,并确定Xj的哪些子集包含y的冗余信息。

线性回归模型尽量使线与数据点(如残差)之间的垂直距离尽可能小。这就是所谓的"线与数据的拟合"。通常情况下,线性回归模型试图使残差的平方和最小化(最小二乘法),但也存在其他拟合方式。它们包括最小化其他一些规范中的"拟合度不足"(如最小绝对偏差回归),或最小化最小二乘损失函数的惩罚版本,如岭回归。最小二乘法也可用于拟合非线性的模型。如上所述,"最小二乘法"和"线性模型"这两个词密切相关,但它们不是同义词。