跑在coolpi CM5上的LLM大语言模型
-
目前跑的7B的,CPU推理 四线程最好
内存占用2-4G
预计可以跑13B的模型我也不知道为什么这个模型有点骚气
目前可以在RK3588上跑的LLM大语言模型,我基本都找来测试过了,现在汇总下吧:
首先推荐的 llama.cpp 转为ggml模型,支持4-bit量化 主要是跑FB泄露的LLAMA模型权重的。
然后斯塔福出的羊驼(Alpaca),以及各种基于羊驼训练而来的模型都支持。 比如我上图就是一个中文的羊驼 Chinese LLaMA / Alpaca
如何获取模型,按他文档或者笔记去操作就行。实测13B的模型,内存占用4G左右,速度还是可以接受,效果基本可达到在GPT3
目前感兴趣的是另外一个模型 中文小羊驼Chinese-Vicuna 测试完再说
另外在coolpi尝试失败 在x86环境跑通的模型有:
ChatGLM-MNN 基于阿里MNN框架量化,清华的chatGLM模型
没有跑成功的原因是 MNN在arrch64编译有问题,已经提交issue,但是阿里那边因为缺少环境,暂时没能解决。这个有空我在琢磨下,ChatGLM还是目前比较好的中文开源模型。另外一个 是基于RWKV 模型(一个迭代很努力的中文模型) 和llama.cpp 做的
rwkv.cpp
编译能跑通,但是算法在arrch64下明显有问题,已提交了issue,但也因为作者没有环境,暂时没能解决 -
@顾真牛 666 啥模型啊
-
@xingzhan2012 目前基本上市面上有的LLM中文模型我都试了。上图跑的是基于斯坦福大学那个羊驼扩充中文词表后微调的模型有7B和14B两个模型。
清华大学那个6B模型应该也可以跑,但是量化推理程序用的阿里的MNN框架,在arrch64上编译有点问题,正在解决。
-
-
@顾真牛 可以出个教程吗
-
@allen 等我把14B模型搞定了 别急 7B还是有点弱智
-
@allen 代码的链接地址都贴了
其实也不用什么教程,我只是把所有模型都试了一下,很多能跑但是特别慢的我就没提了。
要是有什么问题,可以提出来交流下 -
13B 模型需要 60GB 以上的記憶體
-
@tonyone0902 用不了,量化的时候需要35G内存左右。推理只需要4G内存
-
速度大概每秒多少token呢