• Recent
    • Docs
    • Github
    • 百度网盘
    • Onedrive
    • Official
    • Shop
    • Register
    • Login

    跑在coolpi CM5上的LLM大语言模型

    Scheduled Pinned Locked Moved AI Algorithm
    10 Posts 6 Posters 1.6k Views
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 顾
      顾真牛
      last edited by 顾真牛

      目前跑的7B的,CPU推理 四线程最好
      内存占用2-4G
      预计可以跑13B的模型

      我也不知道为什么这个模型有点骚气

      8ab45d17-d16c-413a-8263-cb213bdc2cf5-c8c2a99428830bbeff5451dbbb06f34.png

      目前可以在RK3588上跑的LLM大语言模型,我基本都找来测试过了,现在汇总下吧:

      首先推荐的 llama.cpp 转为ggml模型,支持4-bit量化 主要是跑FB泄露的LLAMA模型权重的。

      然后斯塔福出的羊驼(Alpaca),以及各种基于羊驼训练而来的模型都支持。 比如我上图就是一个中文的羊驼 Chinese LLaMA / Alpaca
      如何获取模型,按他文档或者笔记去操作就行。

      实测13B的模型,内存占用4G左右,速度还是可以接受,效果基本可达到在GPT3

      目前感兴趣的是另外一个模型 中文小羊驼Chinese-Vicuna 测试完再说

      另外在coolpi尝试失败 在x86环境跑通的模型有:
      ChatGLM-MNN 基于阿里MNN框架量化,清华的chatGLM模型
      没有跑成功的原因是 MNN在arrch64编译有问题,已经提交issue,但是阿里那边因为缺少环境,暂时没能解决。这个有空我在琢磨下,ChatGLM还是目前比较好的中文开源模型。

      另外一个 是基于RWKV 模型(一个迭代很努力的中文模型) 和llama.cpp 做的
      rwkv.cpp
      编译能跑通,但是算法在arrch64下明显有问题,已提交了issue,但也因为作者没有环境,暂时没能解决

      X A 2 Replies Last reply Reply Quote 0
      • X
        xingzhan2012 @顾真牛
        last edited by

        @顾真牛 666 啥模型啊

        顾 1 Reply Last reply Reply Quote 0
        • 顾
          顾真牛 @xingzhan2012
          last edited by 顾真牛

          @xingzhan2012 目前基本上市面上有的LLM中文模型我都试了。上图跑的是基于斯坦福大学那个羊驼扩充中文词表后微调的模型有7B和14B两个模型。

          清华大学那个6B模型应该也可以跑,但是量化推理程序用的阿里的MNN框架,在arrch64上编译有点问题,正在解决。

          G 1 Reply Last reply Reply Quote 0
          • G
            george @顾真牛
            last edited by

            @顾真牛 👍👍

            1 Reply Last reply Reply Quote 0
            • A
              allen @顾真牛
              last edited by

              @顾真牛 可以出个教程吗😂

              顾 2 Replies Last reply Reply Quote 0
              • 顾
                顾真牛 @allen
                last edited by

                @allen 等我把14B模型搞定了 别急 7B还是有点弱智

                1 Reply Last reply Reply Quote 0
                • 顾
                  顾真牛 @allen
                  last edited by

                  @allen 代码的链接地址都贴了

                  其实也不用什么教程,我只是把所有模型都试了一下,很多能跑但是特别慢的我就没提了。
                  要是有什么问题,可以提出来交流下

                  1 Reply Last reply Reply Quote 0
                  • T
                    tonyone0902
                    last edited by

                    13B 模型需要 60GB 以上的記憶體

                    顾 1 Reply Last reply Reply Quote 0
                    • 顾
                      顾真牛 @tonyone0902
                      last edited by

                      @tonyone0902 用不了,量化的时候需要35G内存左右。推理只需要4G内存

                      1 Reply Last reply Reply Quote 0
                      • X
                        xingchen.song
                        last edited by

                        速度大概每秒多少token呢

                        1 Reply Last reply Reply Quote 0
                        • 1 / 1
                        • First post
                          Last post