大语言模型
AGI的火花
一篇很好的综述:大型语言模型(LLM)技术精要
GPT
pass
LaMDA
pass
PaLM
pass
GLM-130B
清华中英双语语言模型,在量化方面有优势,开源。
LLaMA
Meta AI推出了大语言模型LLaMA,包括7B、13B、33B和65B几个版本,与GPT3性能相当。
10G显存可跑:8-bit LLaMA 7B,4-bit LLaMA 7B,4-bit LLaMA 13B 。
测试了7B模型,效果一般,需要针对性微调。
羊驼家族
LLaMA的模型泄漏诞生了羊驼家族:Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat...,基本上都是指令微调的结果。
-
由LLaMA 7B微调而来,仅用52k数据,训练成本低
-
LoRA微调
Alpaca-ChToken and Luotuo
中文token,Luotuo的开源做得很好
-
Vicuna
Vicuna-13B接近Bard
-
输出不受限制的AI模型,Freedom!
-
大模型的研究热点
LLaMA的轻量级版本和微软开源的Deep Speed Chat很大程度降低了大语言模型的门槛,相关的研究和应用已是呈爆炸式增长。
大模型的微调
提示学习(prompt learning)
指令学习(instruction learning)
LoRA微调(Alpaca-LoRA)
大模型的压缩和加速
大模型的能力涌现和多模态
不存在了,可解释性不存在了!
LLM = Compression
OpenAI的新观点:大语言模型的本质,其实是一个性能强大的数据无损压缩器。
...
个人想法
目前大模型的能力及其惊人,模型轻量化必然是现有阶段的关键环节。个人感觉大模型蒸馏和剪枝的方法即将遍地开花(前几年在预训练模型上的蒸馏就很多),虽然大模型的训练成本依旧很高,但做大模型压缩的研究绝对是有利可图的热点领域。
下游任务微调过程中的修剪
依据模型对数据的敏感修剪网络,应用到特定小场景。如:将LLaMA大模型修剪为只写投标文件的小模型(指令学习+剪枝)。
基于预训练模型的修剪
类似于训练前修剪的研究,甚至修剪后不做训练,也可以针对特定场景。
LoRA的变体
LoRA实在是太有效了,LoRA和剪枝的结合
利用大模型对轻量模型的蒸馏设计
如用chatgpt做评估训练一个轻量的问答系统
顺着大模型的思路去,设计大模型来修剪大模型,修剪一切!
瞎扯一下,大模型可以Segment Anything,大模型也可以Pruning Anything!