次优示例强化学习实验总结

前言

跟着科大老师搞了一段时间的强化学习研究,论文投出去我这边也算是可以收尾了,不管后面怎么样,还是有不少收获和成就感的。论文方面实验还是很多瑕疵,有些图表也没来得及做,有点可惜。总之,这段时间很有意思,也没有很累,倒还得了不少称赞。

也许但行好事莫问前程,或是东风吹送好运来。在校期间似乎从来没争取过什么,自己凭兴趣随便散散步,有认真搞学习,倒也谈不上很努力。傻傻的自释觉悟者,工作都没有认真找,主打一个无所谓。以至于我总是不理解为什么很多事情像安排好一样,等着我走过去给我一个reward,可我真的只是在散步。钝鸟随便飞,大器无须成。

sorry,跑题了。回到主题,研究设定是在极端稀疏且奖励滞后的环境下通过次优示例学习到最优策略。下面做了一个简单的总结,希望后面还有深入研究的机会吧。

阅读更多

大语言模型应用

时代在召唤

大模型时代,学习和记录一些基于大语言模型构建和部署应用程序的方法和工具。

AI应用=大语言模型+交互+记忆+多模态

当然,现在主打一个提示工程(prompt engineering)。大模型才是长期记忆力,向量数据库是短期记忆。可能由更多模型组成的交互群体记忆会更牛逼。

阅读更多

深度学习之底层实现

前言

得益于AI的发展,更感谢这几年前辈们的努力,我们拥有一个很友好的深度学习开发环境。但做为一个即将步入工业界的码农来说,不懂底层是很残酷的一件事。幸运的是人生不一样,明白了国家机器的运作,搞懂了金融体系的构成,甚至看清了生活的本质,然后还热爱着并饱含初心,确实是真正的英雄。

阅读更多

刷题笔记

前言

刷题,开卷。

2022/9/1 还刷个屁的题,不卷了。 有时候逃避还真是最好的解决办法,所谓卷也不过是利己主义的精致。

阅读更多

深度学习模型泛化相关研究

人工智能?道可道非恒道!

有点无趣,2022年了,人工智能还处于暴力学习的阶段。

去年我的大半时间花在神经网络的可解释性上,然后利用隐式损失和耦合梯度设计了在初始化前修剪模型的方法。 在应用层面似乎有些许价值,可是不论多大的稀疏率,大量的样本和模型暴力的求解方法总是显得深度学习有点蠢。 我对神经网络超长的训练时间愈发反感,虽然看过不少文献在模型优化方面的研究,但确实是不太看好目前模型的训练方式。

多模态和自学习等研究带来了一些曙光,但道可道非恒道。 我不知道当前在某个尺度空间下所谓人工智能的表现结果智能何在,且不说非一成不变的万物。 那么在对于人来说都是非恒道的世间,模型的泛化又能到何等地步?

书生意气,我不配在哲学层面讨论,毕竟目前的人工笨蛋也达不到。 虽然有一种基础科学被质子锁死的感觉,但路还是要一步步走的,在此记录一些深度学习模型泛化的相关研究。

怅寥廓,不知沉浮。

阅读更多

图像处理之深度学习

前言

图像方面的处理是人工智能发展的一个主要分支,同时具备极高的应用价值,在此总结一些工业上学术上使用较为广泛的模型,或是较为经典,或是个人熟悉。

阅读更多