PCDVD數位科技討論區 - 瀏覽單個文章

引用:

作者ghostcode

神人成功在 GTX 1060 6GB 上順跑 Qwen 3.6 35B A3B 模型，只需加入這五個參數。

https://www.koc.com.tw/archives/642193

搭配一顆 i3-8100 處理器和 24GB DDR4 記憶體，
跑 35B 參數的 Qwen 3.6 混合專家模型（MoE），
竟然能以每秒 17 個 token 的速度、256K token 的超長上下文穩定運行，
只有搭配五個 llama.cpp 的啟動參數。

PS:
公司的電腦沒獨顯，沒得試。

這篇文章應該也是 AI 寫的可能性很高
因為全篇都在亂寫

我在 2070 8G VRAM 下 Qwen 3.6 35BA3B 初始生成性能在 131K上下文 + kv q4_0 約 26 tk/s
他 1060 6G VRAM 性能約 17 tk/s
這基本上沒比純 CPU 推理快多少
這性跟一個 10W 左右帶 AI 推理的樹莓派5 差不多
我剛剛用我的 16 核 3950x 純 cpu 就 14 tk/s 了，他比我多一張顯卡才 17 tk/s?!

然後 llama.cpp 根本沒有 q3_0 這個參數
這完全是瞎編
https://github.com/ggml-org/llama.c...erver/README.md

Turbo Quant 在主線 llama.cpp 還只是幾個 PR，根本還沒合併
而且它的參數項：

turbo2、turbo3、turbo4

哪來的 q3_0

他的設定我的話只需要加一個 -fitt 128
其它 llama.cpp 都自動處理了
寫那堆分明就是騙流量來的