terasoft

強化學習

深度強化學習是機器學習的一個分支,它能協助您在面對複雜系統(如機器人和自主系統)時,實現控制器和決策系統。透過深度強化學習,您可以實現深度神經網路,這類網路運用透過模擬模型動態產生的資料進行訓練,進而學習複雜的行為。您只需準備一個模擬模型來代表您正在與之交互並嘗試控制的環境,無需提供標記或者未標記的預定義訓練資料集。

使用MATLAB® Simulink® 以及強化學習工具箱便可讓您執行從設計到部署決策系統的完整流程。利用我們的工具您可以:

  • 透過簡單的控制系統、自主系統和機器人範例,初步了解強化學習。
  • 只需簡單更改程式碼,便可在常見強化學習演算法間快速切換並評估和比較
  • 使用深度類神經網路,根據影像、影片和感測器資料定義複雜強化學習策略
  • 使用本機核心或雲端平行執行多個模擬,加速完成策略訓練
  • 將強化學習控制器部署到嵌入式裝置上。

強化學習智能體(agent)

強化學習智能體由策略和演算法構成,策略用於執行從輸入狀態到輸出動作的映射,演算法負責更新策略。常見演算法包括Deep Q-networks,、Actor-Critic 和deep deterministic policy gradients(DDPG)。演算法會更新策略,使之最大化環境提供的長期獎勵信號。

策略可通過深度類神經網路、多項式或查找資料表進行表達。然後,您可以將內置智能體(agent)和自訂智能體作為 MATLAB 物件或 Simulink 模組加以實現。

強化學習智能體(agent)
瞭解更多

在 MATLAB 和 Simulink 中進行環境建模

因為智能體需要與周邊環境進行互動,強化學習演算法訓練是一個動態的過程。對於機器人和自主系統等應用,在真實環境中使用實際硬體展開此類訓練不僅代價高昂,還可能面臨危險。正因如此,人們傾向於採用通過模擬產生資料的虛擬環境模型來進行強化學習。

您可以在 MATLAB 和 Simulink 中建構環境模型,以此描述系統動態、智能體的行動對系統動態產生的影響,以及用於評估所採取行動配適度的獎勵。這些模型在本質上可以是連續的或者離散的,可以採用不同的保真度來表示系統。此外,您也可以透過平行模擬來加快訓練。在某些情況下,您還可以重複使用現有的 MATLAB 和 Simulink 系統模型,只需稍加更改即可將其用於強化學習。

瞭解更多
在 MATLAB 和 Simulink 中進行環境建模

範例和參考應用

要開始了解強化學習,您可透過我們實現控制器的範例,如倒單擺平衡、網格世界導航及木棒台車系統平衡等問題。您還可以為自動駕駛汽車設計主動式定速巡航控制(ACC)系統和車道維持輔助系統(LKA)。強化學習也可以用於機器人應用程式(如軌跡規劃)和行為的教導(如移動運動)。

強化學習範例和參考應用
瞭解更多