什么时候可以用到强化学习？强化学习怎么用？

news2026/3/10 4:27:52

我相信很多像我一样的初学者在学习强化学习的的过程会有一种困惑：强化学习内容搞懂了，算法流程也明白了，但是怎么用在自己的研究领域或者应用上呢？换句话说，什么样的情况可以用强化学习解决呢？

什么是强化学习？

首先要搞明白强化学习的原理是什么，强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP），通俗的讲，马尔可夫过程就是智能体agent与环境environment序列化的交互，正常情况下，一个序列化的过程每一步都应该跟之前经历过的所有步相关，但是在实际应用中，这是非常繁琐的，所以根据马尔可夫性，我们仅需考虑当前状态的前一状态，按条件概率可以表示为：

正是有这个性质在，在实际操作上我们对强化学习模型就可以单步进行，而不需要考虑每一步前面的序列化操作轨迹。

智能体agent需要不断地在环境中进行实验，通过环境给予的奖励reward来不断优化状态state和行为agent之间的对应关系。来学习到每一个状态state的最优动作action。

强化学习的特点

强化学习是一种机器学习方法，但和机器学习中的监督学习和无监督学习都不太一样，监督学习通过给训练样本人工赋予标签的形式让模型学习如何向标签接近。而强化学习虽然不需要定义标签，但是需要人工定义奖励reward的形式，这么乍一看感觉强化学习和监督学习很相似，但千万不要搞混淆，强化学习定义的奖励reward是环境的反馈，这个反馈可以当作是模糊的，因为我们不能向监督学习那样直接告诉智能体每一步最正确的动作标签是什么，然后让智能体明确的按这个标签学。我们只能说告诉智能体这一步的奖励reward是多少，让智能体通过反复的尝试来找到最适合的也就是奖励最大的那一个动作。整体来看，也就是智能体通过与环境的互动学习到最佳的策略。

而无监督学习是从无标签的数据集中发现隐藏的结构，典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构，尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助，但并未从根本上解决最大化奖励的问题。

什么时候可以用到强化学习？

首先，由强化学习的特点我们可以总结出：

1.强化学习是无标签的。

2.强化学习的交互过程是序列化的。

3.强化学习的奖励具有延迟的特点。

4.每一步的状态和后续步骤的状态有一定的关系。

由此我们可以归纳出强化学习的运用场合：

我们需要先设计好整个模型问题的动作（action）价值（reward）环境（environment），让智能体也就是我们希望学习的模型，能够在与环境的交互中寻找到最优策略。且我们要保证这个模型在与环境的互动中是具有序列化性质的，不能说模型做这一步和下一步一点联系都没有。

就比如说对一个图片分类问题，我们用标签就能很方便的完成这个任务。那如果要用强化学习的思想去做，虽然我们可以将分类的Loss当成我们的奖励reward，分类的具象类别作为动作空间。但因为我们识别第n张图片和识别第n+1张图片之间并没有因果关系，模型在前一步的任何动作和后一步都没有任何联系，那么显然强化学习是不适用的。

再比如一个股票预测问题，我们将买入卖出作为我们的动作空间，将盈亏作为环境的奖励，将收益和时间线作为状态。那么很明显我们在第n个时间点的某个操作都可能会影响到下一个时间点的状态。我们让模型学习到每一个状态的最优动作，使得总的奖励期望最大。这就是强化学习可以适用的问题。