發(fā)了瘋地學(xué)習(xí)（下篇）——底層探究，激發(fā)學(xué)習(xí)的元動力

http://m.magentopwa.com2021年05月28日 13:50教育裝備網(wǎng)

　　強化學(xué)習(xí)，反饋回路與反饋強化就是構(gòu)成人工智能理論中強化學(xué)習(xí)的基礎(chǔ)機制，強化是指在不斷嘗試中，個體所學(xué)習(xí)到的反饋回路，不斷更新，并最終優(yōu)化到可能目標(biāo)的過程，它和監(jiān)督式機器學(xué)習(xí)一樣，是構(gòu)成人工智能的基石，從生物學(xué)的角度講，強化學(xué)習(xí)更符合人類的進(jìn)化方式，從古代的尼安德特人開始，不符合正反饋回路的行為或族群就注定被環(huán)境所更新，也意味著淘汰，人類之所以進(jìn)化成人類，是因為除了總結(jié)舊有知識并發(fā)現(xiàn)規(guī)律外，還會不斷嘗試和探索。深度了解強化學(xué)習(xí)的機制我們就能發(fā)現(xiàn)“學(xué)習(xí)”這個動作的本質(zhì)。

　　學(xué)習(xí)，究竟是為了什么?不打游戲是為了更好的學(xué)習(xí)，更好的學(xué)習(xí)是為了更好的生活，那什么又是更好的生活呢?可以痛快的玩游戲，算不算更好的生活呢。我們從小被教導(dǎo)要好好學(xué)習(xí)，卻從來沒有真正思考過，為什么要好好學(xué)習(xí)，如果連成因機制都不了解，看再多的思維教學(xué)和學(xué)習(xí)導(dǎo)論，也沒有辦法讓自己高效的執(zhí)行學(xué)習(xí)這件事，我們真的厭惡學(xué)習(xí)嗎?

　　其實，站在人工智能的角度看，學(xué)習(xí)和玩游戲沒有本質(zhì)的區(qū)別，學(xué)習(xí)是一個枯燥的過程，你要背單詞，記公式，還要練習(xí)，玩游戲也是如此，你要記憶每個角色的技能，走位技巧，出裝順序，也要通過很多的對局來練習(xí)。在強化學(xué)習(xí)系統(tǒng)中，他們都是一種東西，即“動作”。動作本身無所謂枯燥和有趣，關(guān)鍵看它所處的狀態(tài)和預(yù)期的獎勵。人類厭惡枯燥的東西，所以當(dāng)學(xué)習(xí)索然無味時，我們就會討厭學(xué)習(xí)，這是天性，學(xué)習(xí)并不能帶來和游戲一樣的快感，否則的話，沒有人會討厭學(xué)習(xí)，但是，也有人卻堅持學(xué)習(xí)并樂在其中，為什么?答案就是反饋機制，當(dāng)學(xué)習(xí)的動作帶給人的收益為正，就會帶給我們所說的快感預(yù)期，也即前文所題的多巴胺，如果只靠意志力去學(xué)習(xí)，就像不斷繃緊一根弦，強行違背生理的感覺，到最后早晚會斷掉。

　　我們絕大多數(shù)人，沒有移山填海的毅力，因此這樣的學(xué)習(xí)是不科學(xué)的，大腦發(fā)出指令的動機其實和海洋館里的海豹一樣，是為了眼前那條小魚干，頂一次球給一條魚，只有不斷收到正向的反饋，才會自然而然地保持前進(jìn)的動力。高清楚了這點，我們就可以思考，如何讓自己像打游戲一樣沉迷于學(xué)習(xí)。

　　我們該怎么做?學(xué)霸和學(xué)渣的區(qū)別，就在于對快感預(yù)期的不同，預(yù)期不同形成的反饋也不同。學(xué)霸，可以看作一個高效的強化學(xué)習(xí)系統(tǒng)，它具備完整的反饋回路以及有效的反饋強化。具體到操作中，成為學(xué)霸，以下三點是基礎(chǔ)。

　　縮短反饋周期。反饋周期長意味著半衰期長。那半衰期是什么，以后的文章我會講，這里只需要知道，反饋周期太長，是大多數(shù)人無法堅持的主要原因。舉個例子，有的人高中學(xué)習(xí)成績很好，可是到了大學(xué)就一落千丈，有人說是因為高考之后人松懈了，容易變笨犯懶。很可惜，這個說法并沒有研究結(jié)論支撐，真正的原因是反饋周期的拉長。在高中時，一個月會有三四次測試，努力學(xué)習(xí)一個周，就能看到努力的效果，班級名次很容易進(jìn)步，接著，同學(xué)吃驚，家長表揚，老師夸贊，你會覺得很開心，打了雞血一樣繼續(xù)學(xué)習(xí)，這種感覺可能會持續(xù)幾天，還沒等它消退，下一次考試又來了，在這樣的反饋回路中動作帶來的獎勵被極大加速，整個系統(tǒng)變得完全正向。而上了大學(xué)以后，認(rèn)真學(xué)習(xí)一個學(xué)期才能有一個號的GPA，這個反饋周期變長了好幾倍，而且也很少有人再收到過度的夸獎和極大表揚。因此，大多數(shù)人堅持不下來，取而代之的很多人習(xí)慣，考試前一周開始執(zhí)行學(xué)習(xí)的動作，因為只需要一周就可以獲得獎勵，比如及格。所以，要想辦法減少你的反饋周期。其他做法，將大目標(biāo)分解成小目標(biāo)，會更容易塑造一個連續(xù)的回路。

　　增加反饋強化。前面我們提到過三種反饋模式，固定比率強化，固定時距強化，不固定比率強化，那么把游戲替換成學(xué)習(xí)，我們需要做什么?可以是考試?yán)鄯e進(jìn)步10名，就請自己吃燒烤;也可以是隔壁班的小愛刮目相看的SSR;又或是再看三小時書就去打游戲。對應(yīng)到相應(yīng)的收益上來，就是提高學(xué)習(xí)留存率;延長學(xué)習(xí)時間;增加學(xué)習(xí)收益。

　　調(diào)整反饋難度，有研究表明，游戲玩家在大多高難度關(guān)卡挑戰(zhàn)成功后，大腦多巴胺回路會異常激活，也就是說，適當(dāng)?shù)母唠y度游戲，能夠最大化的激化反饋回路，這也是很多游戲中設(shè)置排位賽機制的由來，通過匹配不同難度的對手，既不會讓你一直輸下去，也不會讓你永遠(yuǎn)贏。而是塑造一種升段掉段的獎勵機制，讓你的反饋回路一直處于半激活狀態(tài)。在學(xué)習(xí)中，如何設(shè)置難度，需要根據(jù)個人情況制定，下一次考試提高10分，或成為班級第一，就是兩種不同的難度，既不要太簡單也不要太難。

　　一旦大腦完成了一次正反饋回路，那么久嘗試過一次甜頭，你的動力就會越來越足，甚至?xí)硎軐W(xué)習(xí)這件事本身像打游戲一樣，瘋狂的學(xué)習(xí)，這，就是學(xué)霸的誕生規(guī)則。關(guān)于反饋機制，還有很多東西可以講，具體的學(xué)習(xí)方法也遠(yuǎn)不止這些。那MR智慧教育，就是在探究學(xué)習(xí)動機和反饋的根源后，高效地輔助教學(xué)，引導(dǎo)反饋回路的正向，通過形象生動性增加反饋強化，大數(shù)據(jù)的指導(dǎo)下，也針對性的調(diào)整反饋難度。奧圖碼MR智慧教育，用底層思維邏輯，運用5G/VR/AR/MR/AI等技術(shù)手段，激發(fā)學(xué)習(xí)元動力。

中文字幕久久久久一区|国产黄片精品自拍视频|亚洲理论在线a中文字幕|69色视频日韩在线视频|97人妻碰碰照片免费上线|在线观看视频日韩一区二区|成人在免费视频手机观看网站|中文字幕亚洲欧美精品无限乱码

發(fā)了瘋地學(xué)習(xí)（下篇）——底層探究，激發(fā)學(xué)習(xí)的元動力

發(fā)了瘋地學(xué)習(xí)（下篇）——底層探究，激發(fā)學(xué)習(xí)的元動力