成都蓉华教育官网

17358526576

培训课程

学院动态

新闻资讯

关于蓉华

联系我们

17358526576

首页

培训课程

师资介绍

学院动态

新闻资讯

关于蓉华

蓉华教育人工智能系列：机器学习-线性回归

作者：蓉华教育

2025-07-29

849次阅读

在众多机器学习算法中，线性回归作为最基础且经典的模型之一，既是入门者的“敲门砖”，也是解决实际问题的重要工具。利用回归方程(函数) 对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

一、线性回归问题求解：损失函数

线性回归的求解核心在于最小化预测值与真实值之间的误差，而衡量误差的指标即为损失函数（Loss Function）。损失函数定义了模型预测结果的好坏，其值越小，模型性能越好。常见的线性回归损失函数包括：

均方误差（Mean Squared Error, MSE）是计算每个样本预测误差平方和的平均值。对大误差敏感，梯度计算简单，利于优化但易受异常值影响，适用于多数线性回归问题，在数据分布均匀且无异常值时效果良好

平均绝对误差（Mean Absolute Error, MAE）是计算每个样本预测误差绝对值的平均值，对异常值鲁棒性更强。梯度不连续，优化速度可能较慢。数据中存在较多离群点时，MAE更稳定。

二、线性回归问题求解：模型求解

最小二乘法（Closed-Form Solution）

当使用MSE作为损失函数时，可以通过矩阵运算直接求解解析解，使MSE最小化。

优势：计算高效，无需迭代。

局限性：仅适用于MSE损失，且数据维度过高时可能面临计算复杂度问题。

梯度下降法（Gradient Descent）

通过迭代调整参数，沿损失函数梯度下降方向逐步逼近最优解。

wt+1=wt−η∇wMSE=wt−ηn2∑i=1n(yi−yi^)xi

学习率η控制每次迭代的步长，需合理设置以平衡收敛速度与精度。

正则化与过拟合处理

为避免模型过拟合（在训练集表现好，测试集差），常引入正则化项，如L2正则（岭回归）或L1正则（Lasso回归）：

岭回归（L2正则）：损失函数增加权重平方和惩罚项，防止权重过大。

Lasso回归（L1正则）：引入权重绝对值惩罚项，可自动进行特征选择。

三、模型评估与性能指标

评估线性回归模型性能的常用指标包括均方误差（MSE）、均方根误差（RMSE）、R平方（R²）和残差分析。MSE衡量预测误差的平均平方，通过计算每个预测值与实际值之差的平方并求平均值得到。RMSE是MSE的平方根，其结果与原数据的单位一致，因而更为直观，便于理解模型预测的误差大小。R²衡量模型解释数据变异的比例，其取值范围在0到1之间，值越接近1表示模型对数据的拟合程度越好，即模型性能越佳。残差分析则通过绘制残差图（预测值-真实值）来检查模型假设是否成立，帮助识别数据中的异常值或模式，以进一步优化模型。这些指标共同为评估和选择最优模型提供了重要依据。

四、线性回归的应用场景

线性回归被广泛应用于多个领域，包括金融预测，通过分析股票价格与经济指标的关系来预测市场趋势；市场分析，建立销量与广告投入、季节因素之间的模型以优化营销策略；工业优化，通过调整参数来预测和提升生产效率；以及房价预测，依据房屋面积、地段等特点构建价格模型。

五、线性回归实战案例

波士顿房价预测

以scikit-learn库中的波士顿房价数据集为例，演示线性回归实践：

# 导入库

import numpy as np

import pandas as pd

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error, r2_score

# 加载数据