2024-01-19发表2024-01-20更新学习日志

次优示例强化学习实验总结

前言

跟着科大老师搞了一段时间的强化学习研究，论文投出去我这边也算是可以收尾了，不管后面怎么样，还是有不少收获和成就感的。论文方面实验还是很多瑕疵，有些图表也没来得及做，有点可惜。总之，这段时间很有意思，也没有很累，倒还得了不少称赞。

也许但行好事莫问前程，或是东风吹送好运来。在校期间似乎从来没争取过什么，自己凭兴趣随便散散步，有认真搞学习，倒也谈不上很努力。傻傻的自释觉悟者，工作都没有认真找，主打一个无所谓。以至于我总是不理解为什么很多事情像安排好一样，等着我走过去给我一个reward，可我真的只是在散步。钝鸟随便飞，大器无须成。

sorry，跑题了。回到主题，研究设定是在极端稀疏且奖励滞后的环境下通过次优示例学习到最优策略。下面做了一个简单的总结，希望后面还有深入研究的机会吧。

2023-07-09发表2023-07-15更新学习日志

大语言模型应用

时代在召唤

大模型时代，学习和记录一些基于大语言模型构建和部署应用程序的方法和工具。

AI应用=大语言模型+交互+记忆+多模态

当然，现在主打一个提示工程（prompt engineering）。大模型才是长期记忆力，向量数据库是短期记忆。可能由更多模型组成的交互群体记忆会更牛逼。

2023-06-29发表2023-06-30更新学习日志

语言模型微调综述

前言

微调的方法越来越有效，开源环境也越做越好，是真佩服这些大佬。

干啥啥不行，抄代码第一名。有时间稍微看点综述吧，整个脉络和体系应该再了解一下。

参考：Prompt-Tuning：深度解读一种新的微调范式，让天下没有难Tuning的大模型-PEFT技术简介

2023-04-20发表2023-04-20更新学习日志

大语言模型

AGI的火花

一篇很好的综述：大型语言模型（LLM）技术精要

大语言模型调研汇总

2023-04-16发表2023-04-16更新浮生日记

AyesI

试看将来的环球，必将是AI的世界。

2023-04-15发表2023-04-20更新浮生日记

AnoI

首先我们得承认一件事，在不久后的地球上，在人类的各行各业中，对AI工具的掌握远比对知识的掌握更重要。

刚接触神经网络那会我还在高呼人工不智能机器不学习，如今我只能对着大模型给出的结果大呼牛逼。

在此整理一些AI工具吧，也算一个简单的市场调研。新的赛道已经开辟了，等晚上去散个步，晨跑也行捏。

2023-04-09发表2023-04-15更新浮生日记

一个思考，关于硅基生命

涌现

二零二二年年底ChatGPT就给了人类亿点点小震撼，他终于带来了一次新的变革，即使他还没有为人类带来物质财富的增长。