close

28天自制你的AlphaGo(四):結合強化學習與深度學習台中監視器批發的Policy Gradient(左右互搏自我進化的基礎)

28天自制你的AlphaGo(四):結合強化學習與深度學習的Policy Gradient(左右互搏自我進化的基礎)


雷鋒網(公眾號:雷鋒網)註:本文作者彭博,Blink·稟臨科技聯合創始人。文章由雷鋒網整理自作者知乎專欄,獲授權發佈。

本篇提前回答一個大傢經常問的問題:強化學習在 AlphaGo 中究竟是怎麼用的?比如說,SL策略網絡,是怎麼變成 RL 策略網絡的?

| Policy Gradient:簡單而有效

很有意思的是,很少見到有人回答上述問題(可能是因為 AlphaGo 論文在此寫得很簡略)。其實,這個問題的答案特別簡單:

如果我贏瞭棋,就說明這次我選擇的策略是正確的。所以可以對於這次所經歷的每一個局面,都加強選擇這局的走法的概率。

如果我輸瞭棋,就說明這次我選擇的策略是錯誤的。所以可以對於這次所經歷的每一個局面,都減少選擇這局的走法的概率。

舉個例子,比如說電腦左右互搏,黑棋開局走星位,白棋回應走小目,最後白棋輸瞭,那麼黑棋就加強開局走星位的概率(以及後續的每一步選擇這局的走法的概率),白棋就減少在黑棋開局走星位的情況下走小目的概率(以及後續的每一步選擇這局的走法的概率)。

等一下,這裡好像有問題。這是不是太傻瞭?也許白棋並不是敗在開局,而是敗在中盤的某一步?也許黑棋並不是真的這次走對瞭策略,而是白棋看漏瞭一步(而且白棋如果走對是可以贏的)?

以上說的很正確。但是,反過來想,如果黑棋的走法可以讓白棋後面打勺的概率增加,那也不錯啊。另一方面,如果白棋發現自己目前的策略容易進入自己不容易掌握的局面,那麼盡管確實可能有完美的招數隱藏在裡面,那白棋也不妨一開始就去避免這種局面吧。而且,勝和負的影響可以相互南投監視器價格抵消,所以在經過大量對局後,這個過程是比較穩定的。比如說如果某個開局的後續勝率經統計是50%,那它就不會被改變;但如果不是50%,這種改變就有一定道理。

這個過程,有點像人類棋手的“找到適合自己的棋風”的過程。毫無疑問,現在的 AlphaGo 已經找到瞭十分適合自己的棋風,它確實是會揚長避短的。

以上是最簡單的 Policy Gradient 的例子,它的問題是有可能陷入局部的最優(對付自己有效,不代表對付其他人有效),因此 AlphaGo 論文中會建立一個對手池(包括整個進化過程中形成的所有策略),保證新策略盡量對於不同對手都有效。在這個基礎上,可以做各種各樣的改進,例如配合未來的價值網絡,更清楚地看到自己的敗著在哪裡,而不是傻傻地把所有概率都同樣修改 。

| Deepmind 的相關研究

其實 Deepmind 自創始以來就在做類似的研究,在此簡單說說。經典的一系列論文是學會玩 Atari 遊戲:
監視器價格台中

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

例如最經典的 Pong:

這裡也有一個策略網絡,它輸入的是目前的屏幕圖像(實際上要輸入幾幅圖像,或者前後兩幅圖像的差,用於判斷運動情況),輸出的是此時應該往上移動的概率。用這裡所說的訓練方法就可以讓它無師自通,自己學會玩遊戲,最終達到相當高的水準(可以想象,這個學習過程會比較慢)。

但是如果我們仔細想想,這個辦法恐怕很難自己學會玩好星際!一個重要原因是星際的決策中有太復雜的“層次結構”。因此盡管 Deepmind 此前說星際是下一個目標,目前我們尚未看到 Deepmind 在這方面發表的進展。如果真的成功實現,將是相當大的成就。

最後,如果對於這方面感興趣,這是一篇很好的介紹:

Deep Reinforcement Learning: Pong from台中市監視器 Pixels

相關閱讀:

28 天自制你的 AlphaGo(一)

28 天自制你的 AlphaGo(二):訓彰化監視器練策略網絡,真正與之對弈

28天自制你的AlphaGo(三):對策略網絡的深入分析以及它的弱點所在

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
D93CEFB2EE3E5A46

arrow
arrow

    oqo66mm86c 發表在 痞客邦 留言(0) 人氣()