【最小二乘法公式推导】在数据分析与数学建模中,最小二乘法是一种广泛应用的数学方法,主要用于通过实验数据拟合出一条最佳曲线或直线。其核心思想是:通过最小化观测值与模型预测值之间的误差平方和,来确定模型参数的最优解。
本文将对最小二乘法的基本原理进行详细推导,并展示其在实际应用中的数学表达方式。
一、基本概念
假设我们有一组数据点 $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$,其中 $x_i$ 是自变量,$y_i$ 是因变量。我们希望找到一个函数 $f(x)$ 来近似这些数据点,使得该函数尽可能接近所有给定的数据点。
最常见的情形是使用线性模型,即:
$$
y = a x + b
$$
其中 $a$ 和 $b$ 是待求的参数。我们的目标是根据给定的数据点,找出使误差平方和最小的 $a$ 和 $b$ 值。
二、误差定义与目标函数
对于每个数据点 $(x_i, y_i)$,模型给出的预测值为 $y_i' = a x_i + b$,则该点的误差为:
$$
e_i = y_i - y_i' = y_i - (a x_i + b)
$$
为了衡量整个模型的拟合效果,我们考虑所有误差的平方和:
$$
S = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - a x_i - b)^2
$$
我们的任务就是找到 $a$ 和 $b$ 的值,使得 $S$ 最小。
三、求极值的方法
由于 $S$ 是关于 $a$ 和 $b$ 的函数,我们可以利用微积分中的极值条件来求解。
1. 对 $a$ 求偏导并令其为零:
$$
\frac{\partial S}{\partial a} = \sum_{i=1}^{n} 2(y_i - a x_i - b)(-x_i) = 0
$$
简化得:
$$
\sum_{i=1}^{n} x_i (y_i - a x_i - b) = 0
$$
2. 对 $b$ 求偏导并令其为零:
$$
\frac{\partial S}{\partial b} = \sum_{i=1}^{n} 2(y_i - a x_i - b)(-1) = 0
$$
简化得:
$$
\sum_{i=1}^{n} (y_i - a x_i - b) = 0
$$
四、建立方程组
将上述两个式子整理后得到如下方程组:
$$
\begin{cases}
\sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i^2 - b \sum_{i=1}^{n} x_i = 0 \\
\sum_{i=1}^{n} y_i - a \sum_{i=1}^{n} x_i - n b = 0
\end{cases}
$$
这是一个关于 $a$ 和 $b$ 的线性方程组,可以通过代数方法求解。
五、解方程组
设:
- $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$
- $\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i$
- $S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2$
- $S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$
则可以将参数 $a$ 和 $b$ 表示为:
$$
a = \frac{S_{xy}}{S_{xx}}
$$
$$
b = \bar{y} - a \bar{x}
$$
六、结论
通过上述推导,我们得到了最小二乘法在一次多项式(直线)拟合中的参数计算公式。这种方法不仅适用于线性模型,也可以推广到更高次多项式或非线性模型,只要能建立合适的误差函数并求其极值即可。
最小二乘法因其简单、直观且具有良好的数学性质,在统计学、工程、物理等领域中被广泛采用。
如需进一步了解最小二乘法在非线性拟合或多元回归中的应用,可继续深入学习相关知识。