当前位置：宠物百科>综合>狗狗>正文

训狗的全部技巧：科学训狗大法，下

人气：310 ℃/2023-10-04 09:14:53

在上一篇文章中（），我们了解到，在狗狗学习握手的初期，最快的训练策略是连续强化策略，即每一次狗狗做对握手动作，都给它奖励。

当狗狗学会了握手，接下来我们要做的是，怎么让狗狗在缺少奖励的情况下，仍能不知疲倦地和你握手？这需要用到另外一种训练策略——间歇强化策略。

间歇强化策略

间歇强化（intermittent reinforcement），又名部分强化（partial reinforcement），顾名思义，只奖励部分的正确行为。间歇强化大致可分为两大类策略：间隔策略和比率策略。

间隔策略

间隔策略是指在第一次正确动作之后，间隔一段时间再给奖励。奖励之后，重新开始下一轮奖励。奖励只依赖时间间隔，跟实验动物执行了多少次动作无关。

如果时间间隔是固定的，则称为固定间隔策略（fixed interval）。例如，每次大鼠压杆后8秒后才奖励它。固定间隔策略训练下大鼠，其行为有一个显著特征，得到奖励后压杆概率大幅下降。

固定间隔策略中，动物的累计反应次数。虚线为奖励时刻

这容易理解，每次奖励后，奖励的概率降低。这时压杆，要过一定时间（如8秒）之后才会有下一次奖励。

如果时间间隔是随机的，则称为可变间隔策略（variable interval）。例如，大鼠第一次压杆后2秒给奖励。下一次奖励在压杆8秒之后，再一次20秒。这种策略下，大鼠的压杆频率在奖励后虽然仍然会有所下降，但下降幅度远小于固定间隔策略。可变间隔策略会让大鼠保持相对稳定的速率压杆。

可变间隔策略可让大鼠保持稳定的压杆频率

大鼠的行为也容易理解。试想一下，假如你想考一个好成绩，但不知道老师的突击考试会发生在什么时候，最佳的策略是把功夫用在平时。这会让人养成一种用功学习的习惯，即使不再有考试。

其实，科学实验已经证明，可变间隔策略很容易让大鼠的压杆行为变成习惯行为。即，实验动物不再考虑最终奖励的价值，而是看见杆就压，动作固定。即使最终的食物奖励对大鼠来说已经没有太大价值，它依然会去压杆。

比率策略（Ratio schedule）

不同于时间间隔策略，比率策略是指大鼠压杆一定次数后再给奖励，跟时间无关。之所以称比率，是因为大鼠压杆和奖励之间有一个比率。比率不是1：1，而是n：1。

比率策略下，大鼠的压杆频率要高于间隔策略，因为大鼠知道压杆频率越高，获得奖励时间越早。

同样的，比率策略可分为固定比率策略和可变比率策略。

对于固定比率策略，大鼠压杆固定次数后可获得奖励。固定比率策略一个特征是，在获得奖励后，大鼠会消停一段时间，随后再开始另一波压杆。

固定比率策略，大鼠获得奖励之后，会有一段休息时间

这种行为也普遍存在我们人类身上。例如，售楼小哥卖出20套房子会得到20万元奖励。目标完成之前，他会拼命奔波。当20万元奖励拿到后，他感到身心俱疲，他会先放松一阵，然后再开始下一个20套房子。

如果是可变比率策略，那么大鼠压杆获得奖励的次数是随机的。第一次压杆4下可获得奖励，下一次2下，再下一次10下。这种策略下，大鼠会保持高频的、稳定的压杆频率。因为大鼠不知道压杆几次之后才能获得奖励，它知道的只是压杆频率越高，获得奖励的时间越早。

可变比率策略会让大鼠产生高频率的压杆行为

可变比率策略可产生高频率的行为，这也是赌博让人上瘾的原因。因为每次赌博是否赢钱是随机的，人们永远不知道哪一次会赢。当人们输了钱后，总想着下次可能就会翻盘，这会让人不停地赌，不停期望下一次赢钱尽快的到来。

哪一种间歇强化策略适合训练狗狗？

间歇强化策略之所以能让实验动物的行为更稳定，更不易消退，是因为经过间歇强化，实验动物已经了解到并不是每一次正确的行为都会有奖励。

这跟连续强化区别显著。连续强化后，如果一次正确行为之后没有奖励，对实验动物来说，就是一种惩罚、打击，它们会受挫。所以，学会的动作很容易消失。而间歇强化却让实验动物理解到，没有奖励的行为是正常现象，不会影响它们的心情。这是间歇强化让行为对没有奖励更有抵抗力的根本原因。

所以，我们要让狗狗知道，并不是每一次握手都会有奖励，奖励是随机给予的。

时间间隔策略操作起来麻烦，最实用的方法是可变比率策略，即在随机的几次握手后，给狗狗奖励。需要注意的是，奖励比率需要循序渐进的降低。例如，刚开始奖励次数为十之八九，然后降低为十之五六，十之一二。当然，不能完全不给奖励。如果狗狗长时间得不到奖励，最终，它的行为也是会消退的。

好了，赶快用科学的方法开始你的训狗之旅吧！