快2024了， RL是通往真正的智能比較主流的賽道嗎？

2023-12-02數碼

作為RL研究從業者，我認為RL的潛力還遠遠未被開發。一個真正的AI Agent應該有應對真實世界方方面面各種挑戰的能力，特別是得要有planning和reasoning的能力，而不只是有對於下一個語言token預測的能力。

現有RL能力的結合和落地

先說一下套用現有的RL理論和技術，在實際生活中能做到什麽。我們最近其實一直著力於開發能夠幫助AI從業人員在現有RL理論和技術下開發真正擁有在實際環境下有用的RL Agent，並且最近開源了Pearl，我的團隊最新開發的開源RL AI Agent框架（首日上線就拿到了540星，目前已經近1400星，感覺大家對RL還是有熱情的）。先上Github連結（其中有包括網站和ArXiv論文）：

我們認為實際落地場景中有用的RL Agent，不能局限於只有最大化cumulative reward的能力，而需要覆蓋以下的多個方向並且能夠在同一個Agent中加入任意以下能力的子集：

Pearl - 開源強化學習Agent框架設計

1. Dynamic Action Space （動態變化的行動空間）：在真實環境中，大多數情況下每一步決策可采取的行動都是動態的，而不會在同一個問題中永遠有一樣的行動空間。比如，在推薦系統中，不可能在每一步給使用者的可推薦內容集都是一樣的。因此，在Pearl的設計中，我們著重支持了每一步的動態行動空間，並特殊設計了replay buffer，value-based演算法和actor-critic演算法來支持動態行動空間下的policy learning。

2. Offline RL transition to Online RL（線下強化學習向線上強化學習的轉變）：多數的現有演算法只能顧及Offline和Online RL其中之一，而不能幫助Agent在完成Offline RL Pre-training之後做Online RL來和環境互動，從而真正學到optimal policy。Pearl的offline RL設計可以讓我們的Agent在完成offline RL後用一個參數就完成到online RL到轉變，從而幫助Agent從offline轉至online。

3. Intelligent Exploration（智能探索）：很多RL Agent設計的時候都用了最最常規的epsilon-greedy或者softmax的exploration，這種情況下，RL Agent並沒有針對性地去收集他自身不確定性最高的state action的數據。這導致了很多線上收集的數據是浪費了的。在智能探索的能力下，Agent能夠最大化在每一次線上互動收集到的數據中能學到的資訊，從而提升sample-efficiency。在智能探索的能力下，我們設計了同時對neural contextual bandit和RL問題的支持。

4. Safe Decision Making （安全決策）：安全一般分為兩類，一類是限制，另一類是風險。限制性的安全決策指的是在Agent的決策全過程中，總的限制性指標不能超過某個閾值。一般情況下會用CMDP相關的理論方向來解決，在Pearl的設計中，我們引進了RCPO演算法將其和任意actor-critic演算法結合，便可以保證環境設定中的限制性指標不會超過閾值。而風險性指標指的是針對在一個policy之下可能收到的總的reward的分布，來限制Agent所需要接受的風險。比如，如果需要設計一個相對比較保守的Agent，那就會取總的reward的分布的相對比較低的percentile，而如果設計的是激進的Agent，就可以相反取比較高的percentile。我們將這種風險性的安全決策和分布強化學習結合（QRDQN），來滿足相應的風險安全需求。

5. History Summarization for Partial Observability （針對部份可觀測性的歷史總結）：大多數實際套用場景中，Agent的觀測都是部份觀測，而不能知道真正實際產品或者使用者的真實狀態。因此，能夠從長時間的過往觀測和Agent已經采取的行動中，估計真正的state，是對於RL實際套用至關重要的。我們在Pearl的設計中引進了sequence model來完成對過往歷史的總結，並且用巧妙的工程技巧使得任意的history summarization可以和任意policy learning的演算法結合，完成兩個模組的同時學習。

最重要的一點是，在真實的套用場景中，我們希望以上的每一個Agent能力都是模組化的。也就是說，Agent的設計者可以在他們的場景中，結合以上的能力中的任意子集和常規policy learning的演算法（比如value-based或者actor-critic）結合，來完成一個真正能夠切合實際套用場景的RL-based AI Agent。

在我們的RL落地過程中，以上的RL能力以及他們的模組化結合對於最後的成功落地至關重要。

未來的RL展望

再講講對於未來的可能方向。

第一，我自己覺得將RL的planning能力和LLM還有diffusion model的結合，應該是下一個重要的突破口，問題在於action space的設計將會在什麽程度上完成並且如何設計基於這些能力下的RL Agent的目標，會是一個很有意思的事情。

第二，multi-agent會是一個重頭戲，因為當AI Agent慢慢變得普遍化之後，如何完成de-centralized agent training會是非常重要的一環。在之後的真實環境中，隨機的環境變量可能不只是人類，可能還有agent本身帶來的隨機性。

第三，一個最近沒有那麽火的方向，但我還是覺得極其重要的，是Auxiliary Task。一般的真實環境中都會有超過一個目標需要完成，那planning就需要兼顧多個目標，這就是Auxiliary Task在RL中的作用。目前在學術界，這個方向還處於相對早期，有待更多研究的開發。

第四，Hierarchical RL可能是一個突破口。像我上文所說，在真實世界中，行動空間一般都是動態的，並且很多時候是完全沒有重合的。比如一個機器人需要去幫你掃地和幫你做飯，這些事情可能沒有任何的重合的行動空間，但是卻需要統籌安排時間，比如在燉湯的時候去掃地，來完成效率最大化，這種問題都可以用到Hierarchical RL來解，但目前Hierarchical RL理論還沒有那麽成熟。

總結

RL還處於起步階段。雖然很多人質疑RL的有效性，我還是會覺得RL是在我目前看來，帶目的性的人工智能設計中最普適也最有可能成功的。最後附上一個看到的github上給Pearl的一個issue

Pearl - is this Q*?

希望Pearl能夠幫助大家開發能夠符合實際場景需求的RL Agent並且孵化出一個超越Q*的真正智能。