4.9 环境和分布偏移 | 昊卿的网站

type

status

date

slug

summary

4.9.1 分布偏移的类型

• 分布偏移 指训练数据和测试数据的分布不同。

• 如果 输入分布 p(x) 不变，但标签翻转，模型无法感知这种变化，可能会完全失效。

神经网络只能从数据中学习模式，而不会主动质疑标签的正确性。

• 现实应用中，数据分布经常会变，因此需要检测和适应分布变化。

4.9.1.1 协变量偏移

协变量偏移（Covariate Shift） 指的是输入分布 发生变化，但标签条件分布 保持不变。

换句话说：

• 训练数据和测试数据的输入特征的分布不同（数据来源、数据收集方式、时间变化等导致）。

• 但对于相同的输入，模型的输出（标签）规律没有变（即一致）。

协变量（Covariate） 在统计学中指的就是 输入特征，因此“协变量偏移”意味着输入特征的统计分布发生了偏移。

4.9.1.2 标签偏移

标签偏移（Label Shift） 指的是：

• 标签的边缘分布 p(y) 发生变化。

• 特征的条件分布 p(x | y) 保持不变，即对于同一类别 y，它的特征 x 的分布在训练集和测试集之间是一致的。

换句话说，某些类别的比例变了，但每个类别的特征保持不变。

协变量偏移（Covariate Shift） 关注的是输入 x 变了，而标签偏移关注的是标签 y 本身的分布变了。

4.9.1.3 概念偏移

当标签的定义发生变化时，分类标准/边界发生变化，会出现概念偏移

4.9.2 分布偏移示例

4.9.3 分布偏移纠正

接下来讲一讲应对偏移的技术细节

4.9.3.1 经验风险与实际风险

经验风险是对训练数据的损失，真实风险是对整个真实数据分布的损失

由于真实数据分布不可知，因此我们只能最小化经验风险，也就是降低，以此近似最小化真实风险

4.9.3.2 协变量偏移纠正

我们需要根据数据来自正确分布与来自错误分布的概率之比，来重新衡量每个数据样本的权重

看不懂了

4.9.4 学习问题的分类法

4.9.4.1 批量学习

批量学习（Batch Learning）指的是一次性使用整个训练数据集进行模型训练，通常适用于静态数据集，即数据不会随着时间变化。

在这种学习方式下，模型不会进行实时更新，而是等到有新的数据时才重新训练整个模型。

4.9.4.2 在线学习

在线学习（Online Learning）是一种模型随着新数据到来而持续更新的机器学习方式。不同于批量学习（Batch Learning），在线学习不需要等到所有数据收集完毕再训练，而是边接收数据，边更新模型。

4.9.4.3 老虎机

老虎机问题（Multi-Armed Bandit, MAB）是探索（exploration）与利用（exploitation）权衡问题的经典例子。在 MAB 问题中，玩家面临多个老虎机（bandit），每个老虎机的奖励分布不同，玩家需要通过试验来最大化长期奖励。

💡 直观理解

• 你走进一个赌场，面对多个老虎机（每个老虎机可能有不同的中奖概率）。

• 你可以拉动任意一个老虎机的拉杆，但不知道哪个老虎机的奖励最大。

• 你可以选择探索（尝试不同老虎机以获取信息），或者利用（继续玩当前最好的老虎机以最大化收益）。

• 目标是通过一定策略，让长期收益最大化。

4.9.4.4 控制

控制系统的目标是在动态环境下，使系统维持在期望的状态或轨迹。

控制理论通常基于反馈机制，即系统不断感知当前状态，并做出调整。

✅ 特点：

• 基于反馈（Feedback）：控制系统持续监测环境状态，并根据误差进行调整。

• 用于动态环境：环境可能随时间变化，控制系统需要持续修正输出。

• 主要用于实时调节：不一定求全局最优，而是让系统在期望状态附近稳定运行。

4.9.4.5 强化学习

强化学习既可以看作是基于控制理论的优化，也可以看作是更广义的智能决策框架。它融合了优化和控制的思想，但又超越了传统控制理论的范畴。

强调如何基于环境而行动，以取得最大化的预期利益。

4.9.4.6 考虑到环境

在静止环境中可能一直有效的相同策略，在环境能够改变的情况下可能不会始终有效。

环境变化的速度和方式在很大程度上决定了我们可以采用的算法类型。

4.9.5 机器学习中的公平、责任和透明度

当我们部署机器学习系统时，不仅仅是在优化一个预测模型，而通常是在提供一个会被用来（部分或完全）进行自动化决策的工具。这些技术系统可能会通过其进行的决定而影响到每个人的生活。

4.9.6 小结

在许多情况下，训练集和测试集并不来自同一个分布。这就是所谓的分布偏移。

真实风险是从真实分布中抽取的所有数据的总体损失的预期。然而，这个数据总体通常是无法获得的。经验风险是训练数据的平均损失，用于近似真实风险。在实践中，我们进行经验风险最小化。

在相应的假设条件下，可以在测试时检测并纠正协变量偏移和标签偏移。在测试时，不考虑这种偏移可能会成为问题。

在某些情况下，环境可能会记住自动操作并以令人惊讶的方式做出响应。在构建模型时，我们必须考虑到这种可能性，并继续监控实时系统，并对我们的模型和环境以意想不到的方式纠缠在一起的可能性持开放态度。