 课程大纲:
        
    课程大纲:                    用Python进行深度强化学习培训
      
介绍
强化学习基础
强化学习基本技术
BURLAP简介
值迭代和策略迭代的收敛
奖赏塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可观察的马尔可夫决策过程(POMDP)
选择(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q学习
博弈论(Game Theory)专题
 
     
     
         
     加入高级会员获得助教答疑
 加入高级会员获得助教答疑 
                