当前位置:宠物百科>综合>狗狗>正文

训狗的全部技巧:科学训狗大法,下

人气:190 ℃/2023-10-04 09:14:53

在上一篇文章中(),我们了解到,在狗狗学习握手的初期,最快的训练策略是连续强化策略,即每一次狗狗做对握手动作,都给它奖励。

当狗狗学会了握手,接下来我们要做的是,怎么让狗狗在缺少奖励的情况下,仍能不知疲倦地和你握手?这需要用到另外一种训练策略——间歇强化策略。

间歇强化策略

间歇强化(intermittent reinforcement),又名部分强化(partial reinforcement),顾名思义,只奖励部分的正确行为。间歇强化大致可分为两大类策略:间隔策略和比率策略。

间隔策略

间隔策略是指在第一次正确动作之后,间隔一段时间再给奖励。奖励之后,重新开始下一轮奖励。奖励只依赖时间间隔,跟实验动物执行了多少次动作无关。

如果时间间隔是固定的,则称为固定间隔策略(fixed interval)。例如,每次大鼠压杆后8秒后才奖励它。固定间隔策略训练下大鼠,其行为有一个显著特征,得到奖励后压杆概率大幅下降。

固定间隔策略中,动物的累计反应次数。虚线为奖励时刻

这容易理解,每次奖励后,奖励的概率降低。这时压杆,要过一定时间(如8秒)之后才会有下一次奖励。

如果时间间隔是随机的,则称为可变间隔策略(variable interval)。例如,大鼠第一次压杆后2秒给奖励。下一次奖励在压杆8秒之后,再一次20秒。这种策略下,大鼠的压杆频率在奖励后虽然仍然会有所下降,但下降幅度远小于固定间隔策略。可变间隔策略会让大鼠保持相对稳定的速率压杆。

可变间隔策略可让大鼠保持稳定的压杆频率

大鼠的行为也容易理解。试想一下,假如你想考一个好成绩,但不知道老师的突击考试会发生在什么时候,最佳的策略是把功夫用在平时。这会让人养成一种用功学习的习惯,即使不再有考试。

其实,科学实验已经证明,可变间隔策略很容易让大鼠的压杆行为变成习惯行为。即,实验动物不再考虑最终奖励的价值,而是看见杆就压,动作固定。即使最终的食物奖励对大鼠来说已经没有太大价值,它依然会去压杆。

比率策略(Ratio schedule)

不同于时间间隔策略,比率策略是指大鼠压杆一定次数后再给奖励,跟时间无关。之所以称比率,是因为大鼠压杆和奖励之间有一个比率。比率不是1:1,而是n:1。

比率策略下,大鼠的压杆频率要高于间隔策略,因为大鼠知道压杆频率越高,获得奖励时间越早。

同样的,比率策略可分为固定比率策略和可变比率策略。

对于固定比率策略,大鼠压杆固定次数后可获得奖励。固定比率策略一个特征是,在获得奖励后,大鼠会消停一段时间,随后再开始另一波压杆。

固定比率策略,大鼠获得奖励之后,会有一段休息时间

这种行为也普遍存在我们人类身上。例如,售楼小哥卖出20套房子会得到20万元奖励。目标完成之前,他会拼命奔波。当20万元奖励拿到后,他感到身心俱疲,他会先放松一阵,然后再开始下一个20套房子。

如果是可变比率策略,那么大鼠压杆获得奖励的次数是随机的。第一次压杆4下可获得奖励,下一次2下,再下一次10下。这种策略下,大鼠会保持高频的、稳定的压杆频率。因为大鼠不知道压杆几次之后才能获得奖励,它知道的只是压杆频率越高,获得奖励的时间越早。

可变比率策略会让大鼠产生高频率的压杆行为

可变比率策略可产生高频率的行为,这也是赌博让人上瘾的原因。因为每次赌博是否赢钱是随机的,人们永远不知道哪一次会赢。当人们输了钱后,总想着下次可能就会翻盘,这会让人不停地赌,不停期望下一次赢钱尽快的到来。

哪一种间歇强化策略适合训练狗狗?

间歇强化策略之所以能让实验动物的行为更稳定,更不易消退,是因为经过间歇强化,实验动物已经了解到并不是每一次正确的行为都会有奖励。

这跟连续强化区别显著。连续强化后,如果一次正确行为之后没有奖励,对实验动物来说,就是一种惩罚、打击,它们会受挫。所以,学会的动作很容易消失。而间歇强化却让实验动物理解到,没有奖励的行为是正常现象,不会影响它们的心情。这是间歇强化让行为对没有奖励更有抵抗力的根本原因。

所以,我们要让狗狗知道,并不是每一次握手都会有奖励,奖励是随机给予的。

时间间隔策略操作起来麻烦,最实用的方法是可变比率策略,即在随机的几次握手后,给狗狗奖励。需要注意的是,奖励比率需要循序渐进的降低。例如,刚开始奖励次数为十之八九,然后降低为十之五六,十之一二。当然,不能完全不给奖励。如果狗狗长时间得不到奖励,最终,它的行为也是会消退的。

好了,赶快用科学的方法开始你的训狗之旅吧!

搜索更多有关“训狗的全部技巧:科学训狗大法,下”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
CopyRight © 2021-2024 宠物百科 All Rights Reserved. 手机版