线性回归是一个最基础、最常用的机器学习算法,也是理解许多复杂模型的基石。
核心思想:寻找“最佳拟合线”
线性回归的核心思想非常简单:找到一条直线(或一个平面/超平面),能够最好地“拟合”已有的数据点。
- “回归”: 预测的目标变量是连续值(比如房价、销售额),而不是离散的类别(比如猫/狗)。
- “线性”: 我们假设特征(输入)和目标(输出)之间的关系是线性的。
简单线性回归
只有一个特征(自变量 x)来预测一个目标(因变量 y)。
模型方程: y = w*x + b
- y: 预测值
- x: 输入特征
- w: 权重或斜率。表示 x对 y的影响程度。
- b: 偏置项或截距。表示当 x为 0 时 y的基准值。
目标:找到最佳的 w和 b,使得直线尽可能接近所有的数据点。
多元线性回归
有多个特征(x1, x2, x3, ...)来预测一个目标 y。
模型方程: y = w1*x1 + w2*x2 + ... + wn*xn + b
- y: 预测值。
- x1, x2, ..., xn: n个输入特征。
- w1, w2, ..., wn: 每个特征对应的权重。
- b: 偏置项。
这时,我们寻找的不再是一条直线,而是一个高维空间中的平面或超平面。