引用:
|
作者ghostcode
神人成功在 GTX 1060 6GB 上順跑 Qwen 3.6 35B A3B 模型,只需加入這五個參數。
https://www.koc.com.tw/archives/642193
搭配一顆 i3-8100 處理器和 24GB DDR4 記憶體,
跑 35B 參數的 Qwen 3.6 混合專家模型(MoE),
竟然能以每秒 17 個 token 的速度、256K token 的超長上下文穩定運行,
只有搭配五個 llama.cpp 的啟動參數。
PS:
公司的電腦沒獨顯,沒得試。
|
這篇文章應該也是 AI 寫的可能性很高
因為全篇都在亂寫
我在 2070 8G VRAM 下 Qwen 3.6 35BA3B 初始生成性能在 131K上下文 + kv q4_0 約 26 tk/s
他 1060 6G VRAM 性能約 17 tk/s
這基本上沒比純 CPU 推理快多少
這性跟一個 10W 左右帶 AI 推理的樹莓派5 差不多
我剛剛用我的 16 核 3950x 純 cpu 就 14 tk/s 了,他比我多一張顯卡才 17 tk/s?!
然後 llama.cpp 根本沒有 q3_0 這個參數
這完全是瞎編
https://github.com/ggml-org/llama.c...erver/README.md
Turbo Quant 在主線 llama.cpp 還只是幾個 PR,根本還沒合併
而且它的參數項:
turbo2、turbo3、turbo4
哪來的 q3_0
他的設定我的話只需要加一個 -fitt 128
其它 llama.cpp 都自動處理了
寫那堆分明就是騙流量來的