前言
跟着科大老师搞了一段时间的强化学习研究,论文投出去我这边也算是可以收尾了,不管后面怎么样,还是有不少收获和成就感的。论文方面实验还是很多瑕疵,有些图表也没来得及做,有点可惜。总之,这段时间很有意思,也没有很累,倒还得了不少称赞。
也许但行好事莫问前程,或是东风吹送好运来。在校期间似乎从来没争取过什么,自己凭兴趣随便散散步,有认真搞学习,倒也谈不上很努力。傻傻的自释觉悟者,工作都没有认真找,主打一个无所谓。以至于我总是不理解为什么很多事情像安排好一样,等着我走过去给我一个reward,可我真的只是在散步。钝鸟随便飞,大器无须成。
sorry,跑题了。回到主题,研究设定是在极端稀疏且奖励滞后的环境下通过次优示例学习到最优策略。下面做了一个简单的总结,希望后面还有深入研究的机会吧。