跑在coolpi CM5上的LLM大语言模型

顾真牛

目前跑的7B的，CPU推理四线程最好
内存占用2-4G
预计可以跑13B的模型

我也不知道为什么这个模型有点骚气

8ab45d17-d16c-413a-8263-cb213bdc2cf5-c8c2a99428830bbeff5451dbbb06f34.png

目前可以在RK3588上跑的LLM大语言模型，我基本都找来测试过了，现在汇总下吧：

首先推荐的 llama.cpp 转为ggml模型，支持4-bit量化主要是跑FB泄露的LLAMA模型权重的。

然后斯塔福出的羊驼（Alpaca），以及各种基于羊驼训练而来的模型都支持。比如我上图就是一个中文的羊驼 Chinese LLaMA / Alpaca
如何获取模型，按他文档或者笔记去操作就行。

实测13B的模型，内存占用4G左右，速度还是可以接受，效果基本可达到在GPT3

目前感兴趣的是另外一个模型中文小羊驼Chinese-Vicuna 测试完再说

另外在coolpi尝试失败在x86环境跑通的模型有：
ChatGLM-MNN 基于阿里MNN框架量化，清华的chatGLM模型
没有跑成功的原因是 MNN在arrch64编译有问题，已经提交issue，但是阿里那边因为缺少环境，暂时没能解决。这个有空我在琢磨下，ChatGLM还是目前比较好的中文开源模型。

另外一个是基于RWKV 模型（一个迭代很努力的中文模型）和llama.cpp 做的
rwkv.cpp
编译能跑通，但是算法在arrch64下明显有问题，已提交了issue，但也因为作者没有环境，暂时没能解决

xingzhan2012

@顾真牛 666 啥模型啊

顾真牛

@xingzhan2012 目前基本上市面上有的LLM中文模型我都试了。上图跑的是基于斯坦福大学那个羊驼扩充中文词表后微调的模型有7B和14B两个模型。

清华大学那个6B模型应该也可以跑，但是量化推理程序用的阿里的MNN框架，在arrch64上编译有点问题，正在解决。

george

@顾真牛

allen

@顾真牛可以出个教程吗

顾真牛

@allen 等我把14B模型搞定了别急 7B还是有点弱智

顾真牛

@allen 代码的链接地址都贴了

其实也不用什么教程，我只是把所有模型都试了一下，很多能跑但是特别慢的我就没提了。
要是有什么问题，可以提出来交流下

tonyone0902

13B 模型需要 60GB 以上的記憶體

顾真牛

@tonyone0902 用不了，量化的时候需要35G内存左右。推理只需要4G内存

xingchen.song

速度大概每秒多少token呢