大语言模型

AGI的火花

一篇很好的综述:大型语言模型(LLM)技术精要

大语言模型调研汇总

GPT

pass

LaMDA

pass

PaLM

pass

GLM-130B

清华中英双语语言模型,在量化方面有优势,开源。

LLaMA

Meta AI推出了大语言模型LLaMA,包括7B、13B、33B和65B几个版本,与GPT3性能相当。

10G显存可跑:8-bit LLaMA 7B,4-bit LLaMA 7B,4-bit LLaMA 13B 。

测试了7B模型,效果一般,需要针对性微调。

  • 羊驼家族

    LLaMA的模型泄漏诞生了羊驼家族:Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat...,基本上都是指令微调的结果。

    • Alpaca

      由LLaMA 7B微调而来,仅用52k数据,训练成本低

      • Alpaca-LoRA

        LoRA微调

      • Alpaca-ChToken and Luotuo

        中文token,Luotuo的开源做得很好

    • Vicuna

      Vicuna-13B接近Bard

    • FreedomGPT

      输出不受限制的AI模型,Freedom!

大模型的研究热点

LLaMA的轻量级版本和微软开源的Deep Speed Chat很大程度降低了大语言模型的门槛,相关的研究和应用已是呈爆炸式增长。

个人想法

目前大模型的能力及其惊人,模型轻量化必然是现有阶段的关键环节。个人感觉大模型蒸馏和剪枝的方法即将遍地开花(前几年在预训练模型上的蒸馏就很多),虽然大模型的训练成本依旧很高,但做大模型压缩的研究绝对是有利可图的热点领域。

  • 下游任务微调过程中的修剪

    依据模型对数据的敏感修剪网络,应用到特定小场景。如:将LLaMA大模型修剪为只写投标文件的小模型(指令学习+剪枝)。

    参考一些针对Transformer模型的修剪

  • 基于预训练模型的修剪

    类似于训练前修剪的研究,甚至修剪后不做训练,也可以针对特定场景。

  • LoRA的变体

    LoRA实在是太有效了,LoRA和剪枝的结合

  • 利用大模型对轻量模型的蒸馏设计

    如用chatgpt做评估训练一个轻量的问答系统

  • 顺着大模型的思路去,设计大模型来修剪大模型,修剪一切!

    瞎扯一下,大模型可以Segment Anything,大模型也可以Pruning Anything!