次优示例强化学习实验总结

前言

跟着科大老师搞了一段时间的强化学习研究,论文投出去我这边也算是可以收尾了,不管后面怎么样,还是有不少收获和成就感的。论文方面实验还是很多瑕疵,有些图表也没来得及做,有点可惜。总之,这段时间很有意思,也没有很累,倒还得了不少称赞。

也许但行好事莫问前程,或是东风吹送好运来。在校期间似乎从来没争取过什么,自己凭兴趣随便散散步,有认真搞学习,倒也谈不上很努力。傻傻的自释觉悟者,工作都没有认真找,主打一个无所谓。以至于我总是不理解为什么很多事情像安排好一样,等着我走过去给我一个reward,可我真的只是在散步。钝鸟随便飞,大器无须成。

sorry,跑题了。回到主题,研究设定是在极端稀疏且奖励滞后的环境下通过次优示例学习到最优策略。下面做了一个简单的总结,希望后面还有深入研究的机会吧。

阅读更多

大语言模型应用

时代在召唤

大模型时代,学习和记录一些基于大语言模型构建和部署应用程序的方法和工具。

AI应用=大语言模型+交互+记忆+多模态

当然,现在主打一个提示工程(prompt engineering)。大模型才是长期记忆力,向量数据库是短期记忆。可能由更多模型组成的交互群体记忆会更牛逼。

阅读更多

AI工具箱

AnoI

首先我们得承认一件事,在不久后的地球上,在人类的各行各业中,对AI工具的掌握远比对知识的掌握更重要。

刚接触神经网络那会我还在高呼人工不智能机器不学习,如今我只能对着大模型给出的结果大呼牛逼。

在此整理一些AI工具吧,也算一个简单的市场调研。新的赛道已经开辟了,等晚上去散个步,晨跑也行捏。

阅读更多