休息一下

那个夏天我们说的最多的话就是“休息一下”。

恍惚间,又是一个三月,这个夏天也要来了。无意间看到伍六七最新的博客,琐碎和温暖的文字记录着那个暑假的相遇和“休息一下”,有些动容。可对我来说那只能是夏天,打工的人何来暑假之说。那个我是去年三月从学校出来的,日记里只有“自救”两个字。大抵是这历史的冬天让人觉得无趣,看的到远方,看得见未来,不想去那里。殊不知是宏大叙事把脑子烧坏了,自视清高的还没有签卖身契,自欺欺人的到了家创业公司。

看不出繁华,只有拥挤。他当然明白,于是向山里走去。

三月惊蛰,租房在小学旁边,气温和心境都没转暖,回想起来总是有些许心酸。当然剧本也是从这里开始转到下一幕的,所谓的创业公司也只是个草台班子,注定徒劳无功,一个月后我便开始敷衍了事。还好我忽悠和应付的本事还算可以,老板对我干的活还挺放心,所谓能扛事。零零星星的换了不少同事,最开始认识的X和Z也陆续走了。X是做强化学习的,毫不忌讳的告诉我老师打招呼水了一篇二区;Z是个有个性的游戏宅,除了挂在嘴边的塞尔达是天。后面新来的同事都比较憨,产品LE喜欢梳个背头,QT一身正气,去找“泰叔”谈项目时和硬件Y一起放老板鸽子也算件趣事。当然也在这段时间把毕业论文写完了,偶尔回学校处理些“麻烦”,临近毕业,能感觉到导师的不舍,但我确实该离开了。

伯乐常有,而千里驴不常有。带个金刚钻,专揽瓷器活。

六月三伏,暑假来了,有趣的人也来了。嘻嘻哈哈的后端大佬、恋爱脑“外国人”留学生、刺客伍六七的自然语言处理、阿拉猪产品经理,我们几个人组建的休息文化,竟然神奇般的稳定了公司一段时间。虽然期间也不少来去匆匆的同事,一指弹郭大侠、奶茶收集王菜蔡和一顿饭劝退的大多数人,但我们一起工作还挺开心的,至少我还没打算离开,因为我知道这将是一段值得的旅程。南京受控文本生成三人组风尘仆仆,但一路悠哉;孤军奋战帝都大模型邀请赛,巧碰天工当天就洪灾;陕西更是一周的梦幻之行,不仅是陪领导吃喝玩乐,不仅是在朋友家感受了风土,而是一只猪敲开了我的心门。大概是这段“轻松”的时光赶走了那个哲思的我,大概是最后一次“潦草”的毕业带来的莫名伤感,大概是离开学校后的“独处”让我找到了答案,孤傲的人接受了资本和技术规定的生活,回家悠然的念头显得那么可笑。

连雨不知秋来,一晴又觉夏至。

换一种生活就是救赎之道,雨后天晴,我毫不犹豫的拥抱这次偶然,被光温暖着,并反射着光。

后面的故事齁甜,就此结尾吧。休息一下,好久没有这么期待夏天了~

次优示例强化学习实验总结

前言

跟着科大老师搞了一段时间的强化学习研究,论文投出去我这边也算是可以收尾了,不管后面怎么样,还是有不少收获和成就感的。论文方面实验还是很多瑕疵,有些图表也没来得及做,有点可惜。总之,这段时间很有意思,也没有很累,倒还得了不少称赞。

也许但行好事莫问前程,或是东风吹送好运来。在校期间似乎从来没争取过什么,自己凭兴趣随便散散步,有认真搞学习,倒也谈不上很努力。傻傻的自释觉悟者,工作都没有认真找,主打一个无所谓。以至于我总是不理解为什么很多事情像安排好一样,等着我走过去给我一个reward,可我真的只是在散步。钝鸟随便飞,大器无须成。

sorry,跑题了。回到主题,研究设定是在极端稀疏且奖励滞后的环境下通过次优示例学习到最优策略。下面做了一个简单的总结,希望后面还有深入研究的机会吧。

阅读更多

大语言模型应用

时代在召唤

大模型时代,学习和记录一些基于大语言模型构建和部署应用程序的方法和工具。

AI应用=大语言模型+交互+记忆+多模态

当然,现在主打一个提示工程(prompt engineering)。大模型才是长期记忆力,向量数据库是短期记忆。可能由更多模型组成的交互群体记忆会更牛逼。

阅读更多