职场小聪明第961章 AI里的白盒黑盒和正则化
白盒模型和黑盒模型就是人工智能的两种算法白盒顾名思义可以用人的理解就是决策树叶子大于5放左边叶子小于五放右边然后继续往下一层就是无限的分类可以理解而黑盒模型就不一样了是机器学习多层神经网络每个层的一定数量神经元全连接数据反复自己的调参加权重也就是什么数据重要什么不重要但都要只是分量不一样然后还会根据结果是否准确率高再删除一些数据再进行反向调参正向叫线性编程反向就是回归反正就是倒腾几百万次数据变来变去人无法理解最后出来一个模型就可以跟现有数据高度吻合 这是一个白盒模型决策树可以一层层的分类容易理解。
正则化(Regularization):原理、方法与应用 在机器学习和深度学习中过拟合(Overfitting) 是模型训练的核心挑战之一 —— 模型在训练数据上表现极佳但在未见过的测试数据上泛化能力差。
正则化正是解决这一问题的关键技术其核心思想是通过在损失函数中引入 “惩罚项”限制模型参数的复杂度迫使模型学习更简单、更具泛化性的特征而非死记硬背训练数据中的噪声。
一、正则化的核心目标与本质 1. 核心目标 平衡 “模型拟合能力” 与 “泛化能力”:避免模型因过度追求训练误差最小化而忽略对新数据的适应性。
控制模型复杂度:复杂度过高的模型(如高次多项式、深层神经网络)易学习训练数据中的噪声正则化通过约束参数规模降低复杂度。
2. 本质理解 正则化的本质是 **“奥卡姆剃刀原理” 在机器学习中的体现 **—— 在多个能拟合数据的模型中选择 “最简单”(参数更简洁、特征更通用)的模型其泛化能力通常更强。
例如:用多项式拟合数据时一次函数(y=ax+b)比五次函数(y=ax?+bx?+...+e)更简单若两者在训练数据上误差接近一次函数对新数据的预测更稳定。
二、经典正则化方法(针对传统机器学习) 传统机器学习(如线性回归、逻辑回归、支持向量机)中正则化主要通过对模型参数的 “范数惩罚” 实现常见有 L1、L2 正则化以及两者结合的 Elastic Net。
1. L2 正则化(岭回归Ridge Regression) 原理 L2 正则化通过在损失函数中加入参数的平方和惩罚项限制参数的 “整体规模”(避免参数值过大)。
以线性回归为例: 原始损失函数(均方误差 MSE加入 L2 正则后的损失函数:其中:(正则化强度):控制惩罚力度时退化为原始模型越大惩罚越强(参数越接近 0):模型的权重参数(不含偏置项因偏置项仅影响整体偏移不直接导致过拟合):为了求导后抵消系数简化计算(非必需仅影响的数值尺度)。
核心特点 参数 “收缩”(Shrinkage) :L2 惩罚会让所有参数向 0 靠近但不会将参数直接置为 0(参数值整体变小但保留所有特征)。
抗噪声能力强 :参数值减小后模型对输入数据的微小波动(噪声)更不敏感泛化性提升。
适用场景 :特征之间存在相关性、不希望删除任何特征的场景(如医学特征每个指标都可能有意义)。
2. L1 正则化(套索回归Lasso Regression) 原理 L1 正则化通过在损失函数中加入参数的绝对值和惩罚项实现 “参数稀疏化”(即强制部分参数变为 0相当于删除冗余特征)。
以线性回归为例加入 L1 正则后的损失函数:核心特点 参数稀疏化 :L1 的绝对值惩罚会导致部分参数被 “压缩” 到 0从而自动完成 “特征选择”(删除对模型贡献极小的特征)。
例:用 Lasso 处理 “房价预测” 数据时若 “小区绿化率” 的参数被置为 0说明该特征对房价影响可忽略模型训练时无需考虑。
计算挑战:绝对值函数在处不可导传统梯度下降无法直接使用需用 “次梯度下降”“坐标下降” 等特殊优化方法。
适用场景 :特征维度高、存在大量冗余特征的场景(如文本分类中的词袋模型特征数可能达数万需筛选核心词汇)。
3. L1 与 L2 的对比:为什么 L1 能稀疏化? L1 和 L2 的核心差异源于惩罚项的 “几何形状”可通过 “约束域” 直观理解:假设模型仅含两个参数和正则化等价于在 “参数空间” 中加入一个约束域损失函数的最优解需落在 “约束域与损失函数等高线的切点” 上: 小主这个章节后面还有哦请点击下一页继续阅读后面更精彩!。
本文地址职场小聪明第961章 AI里的白盒黑盒和正则化来源 http://www.xiaoxiqiang.cc

