加入书架 | 推荐本书 | 返回书页

今书网 -> 其他类型 -> 猫头鹰的万花筒

第七十九夜 学习(二)

上一页        返回目录        下一页

    强化的权变关系。

    同自然界中波是一样,也就是说强化的频率(间隔多长时间给予强化),强化的强度(也就是振幅,一次给多少,波谷相当于给予负强化,波峰相当于正强化,振幅可以是个常数,也可以是变量,就好比波一样,频率和振幅都是可变的,但不会改变波的本质)。

    波的横坐标可以看作是学习积累量,纵坐标看做学习加速度(积极性)。

    连续强化和间接强化。

    连续强化多用于学习新事物,每做正确一个行为,即使没有达到目的,都需要及时奖励,这是保证学习积极性和有效性的最佳策略。

    间接强化多用于维持已学得行为,这时行为已经不再是学习(不再是新鲜事物和未知事物)而是重复性的行为,但如果一直不能得到强化(奖励,有益于生存和繁殖的所有行为或资源),个体无法积极响应和维持这种无意义的行为。

    间隔多少次或多长时间进行强化,和行为的难度(花费的时间和代价)、个体的认知(阀值高低,多少次没有回报才算不值得)、环境压力(外因造成的不利己)等综合决定。

    有意思的是,为什么间接强化对于已经习得的行为或认知要比连续强化更有效呢?

    连续强化对于个体而言获得更多的收益是没错的,但我们现在研究的是教授和训练,主体不只是学习个体还有教授的个体,个体最佳的学习路径并不是以自身实践在环境中学习。

    这样做一是效率不高,他要走很多弯路才能学习到正确的行为甚至永远都学习不到,二是风险大,例如哪些食物是有毒的,哪些动物最好离远点,这些学习往往是以生命为代价的,三是不具有种族累积性,个体的一生所学习到的知识和技能,如果不能教授给下一代,那么这个种族必将灭亡,因为这和基因进化性质一样,没有遗传,哪有变异。

    所以传授、教授是个体学习的最佳路径,所有哺乳动物都具备这样的传授行为,这时以上的问题就能很好的解释了:

    一是从传授者角度看,资源是有限的和必须要付出相应的代价获得,这是传授最基础的认知,因为个体学习的根本目的就是能获得更多的资源(或以更少的代价,更有效率的行为)来更好的生存和繁殖。

    对于已经学会的行为,相比正在学习的行为已经习得行为作用个体的时间很长,有的可能是一生,而学习过程(学习行为)却很短暂,只要个体掌握了学习就算结束。

    对于短期的学习行为因为要花费学习者更多的精力和时间(学习过程不产生效益),传授者如果不给予高频率大数量的奖励,个体很可能因为这个过程对自己没有收益而放弃。

    而当学习完成,个体已经没有理由再从传授者这里获得收益,他可以用学习到的行为获得收益,除非这种行为有利于传授者,而这种已经学会的行为与那些正在学习的行为相比不再重要,传授者必须以最小的付出维持个体的习得行为。

    从学习者(个体)来看,通过从教授者那里获得收益的频率和数量,让他们更关注那些新事物新学习,让个体明白什么才是相对重要的,这也是为什么差别化实质上是一种行为暗示。

    再从资源边际效应上看,如果同一种奖励过多,其每一次产生的激励作用递减,总有这样的一个临界数量,这时奖励对于个体而言已经不再有什么区别。

    例如食物训练时,每次只给一点就是因为当动物吃饱后,食物对他们而言已经不再有效益。

    最后,间隔强化最大的特点就是不确定性,对于个体而言,他不确定哪次行为或什么时间会有奖励,这种不确定性之所以能给个体以更大的强化是因为他符合我们(包括动物)进化机制。

    动物外出捕食并不是每次都能成功,他们不能确定收益的时间和数量,为了生存和繁殖,每次外出行为实质上都有一种获得食物和资源的预期,这种激励机制通过上百万年进化已经能十分有效的作用于几乎所有动物,相对于每次都能获得食物,这与我们自身进化和环境适应相冲突。

    变动比率(时间)安排。

    上面提到间隔强化中间隔有多种形式,有的以次数为依据(比率安排),有的以时间为依据(间隔安排),和前面提到的强化权变关系一样,强化具有波的性质。

    这里以固定时间或固定次数为间隔的是频率不变的波(如果每次强化数量也一样则波幅也不变)。

    例如工厂按件计费和按时计费就是这种情况,但环境中还存在一种不可预知、不可确定的间隔强化(个体掌控很少的情况,大多数生存环境都是这样),这种强化因为符合进化机制(动物捕食,存在超额收益的可能),所以对个体的作用和效果远大于固定强化。

    例如赌博、彩票、推销、保险、抽奖等。

    实验对饥饿的鸽子啄击铁板,但不确定次数出食,鸽子在一小时内不停的啄击12000多次,有的2次就出食了,有的198次才出食,平均一小时内需110次才出一次。

    实验再对同样饥饿的鸽子,这次设定固定次数出食,110次出一次,由于不再有少于110次出食的情况(例如2次就出食),鸽子啄击的频率由开始很快到后面明显变慢,到后面变成基本固定的频率。

    鸽子知道必须啄击同样的次数必定出食(在两次间隔中间,鸽子基本已经丧失了啄击的动力,但在次数快够出食时,啄击明显加快),这种确定性消除了超额收益的可能(短时间少次数获得收益),让个体获得收益的积极性完全丧失。

    所以,在可以产生超额收益的机制中,我们最好不要采用固定间隔强化(例如,考试前突击学习,假期末突击写作业,屎憋屁门了才去找纸等都是因为固定间隔是我们已经确定的,我们在确定发生之前才会行动,不只是人类,所有动物者是这样,确定性最大的坏处就是将所有可能结果都确定了,个体无论怎样发挥怎么积极,最终的结果都是一样,这限制了能力更高的个体或是积极性更高的个体的行为预期)。

    工厂实施的固定回报收益是因为生产环境完全可控,其部件流水速度是按照绝大多数个体的平均能力确定,这种一刀切的模式基本就扼杀了更高效率、更简流程、更好创意的可能。

    例如,事业单位每月按时发工资,无论你在这个单位贡献多少,无论这个月和下个月你创造了多少价值,每个月的收益都是不变的,这实质上就是效率最低下的强化模式。

    那么问题来了,为什么效率不高却还要采用呢?

    因为这种模式保证最大同一性及所有个体的收益性,牺牲强者维持弱者的机制。

    例如,如果采用不确定模式,那么收益必将产生极大分化,能力水平高的个体将获得几人甚至十几人的收益,但资源是有限的,必将造成能力最差的个体被淘汰出局,失业,无法生活。

    这在自然环境下是最正常不过的现象,放在整个宇宙都是普遍适用的生存法则,但我们人类却因为某些原因改变了这种普适法则。

    首先,这不利于社会稳定,不利于统治阶级统治,所以让所有人都能很好的生存,在中间大多数群体利益基本稳定的情况下(正态分布,自然竞争情况下,个体呈现正态分布),牺牲高能端利益补贴低能端(这两者都只占群体的少数,他们相加不会超过整体的一半),这种违背自然选择的机制虽然保证了所有个体最大化生存。

    但从长远来看,却牺牲了整个群体进化的普适性,因为剥夺了高能端个体的资源(研究已经证实,人类包括动物进化和行为本质上都是为了自身的生存和繁殖,资源越多的个体,其生存和繁殖的成功性越大,会有更多的子代),高能端不再有更高效的更积极的行为作用于环境和整个群体。

    他们不再创新、不再研究、不再思考、不再竞争,不再为子代生存长远计划,他们已经对这种机制麻木,并将自己同化(这种机制就是要让所有个体同化)。

    第二,进化机制告诉我们,存在就是合理的,因为他存在是因为适应环境才能存在。

    战争之所以伴随人类进化到现在,因为战争对人类进化起到相当重要的作用,每次世界大战,人类科学技术和生产水平都产生了跳跃性发展。

    战争打破了这种人为机制,甚至无视于人类种族、宗教、道德、法律,完全打破这些违背自然选择的所有机制,恢复了自然生存法则,弱肉强食,凡是在战争中生存下来的必定是强者。

    不存在短时间内高频收益,这个问题如果你拉开时间或是扩大视野,你会发现,在更大的环境中实质上还是超额不确定收益起作用,例如现在人工智能流水线被更多的企业应用,即使这样做会承受破产倒闭的风险。

    强化物。

    初级强化物,指满足基本生理需要(生存繁殖)的强化物,如食物、水、性行为等。

    次级强化物,指可间接影响个体生存繁殖的物质,例如金钱、关爱、赞扬、地位、尊重等。

    需要注意的是,还有一种强化物,是与个体喜好、兴趣、认知相关的,每个个体都不相同,但其本质是能让个体满足、愉悦、有获得感的事物。

    例如好动的孩子如果老师告诉他能安静坐十分钟会让他到教室外玩半小时,这个孩子会很乐意安静坐着听讲,玩半个小时对于这个孩子而言就是个相当有获得感的奖励,家长告诉孩子如果能在上午写完作业允许他玩会电子游戏,劳累工作一天的人回家听古典音乐等都是这样。

    那么这些大相径庭的喜好,为什么都会产生强化作用?他们与生存繁殖有什么关系?心情愉悦获得感有利于个体生存繁殖吗?

    普雷马克原理。

    该理论能很好的解释以上现象,个体会为获得自己喜好的行为而忍受进行自己不喜欢的行为,喜好行为的强度和收益一但大于厌恶行为的强度和损害,个体就会采取替代行为。

    对于低等动物,这种强化大多与生存繁殖有关(也就是食物、水、性行为等),对于人类而言,这种替代强化相当复杂。

    有的人喜欢吃油炸蚂蚱,有的人见到就恶心,有的人喜欢听秦腔,有的人则很反感,有的人喜欢观看相扑比赛,有的人则视为惩罚,有的人喜欢骨感的女人,有的则喜欢丰满的等等。

    人类个体的兴趣、喜好、认知差异如此巨大,研究发现,与基因变异一样。

    人类文化(文明)同样具有遗传和变异的特点,我们文化的变异程度和进化速度远大于其他物种,加之个体自身的遗传差异和后天环境因素,造成人类个体替代强化相当复杂。

    这些喜好为什么会适用于个体?这些喜好会强化他们自身的生存和繁殖吗?完全素食主义者为什么会存在?出家人完全禁欲与繁殖相背,为什么还会存在?节食主义者为什么会存在?

    请记住:存在即合理。
没看完?将本书加入收藏我是会员,将本书放入书架复制本书地址,传给QQ/MSN上的好友章节错误?点此举报