瀏覽單個文章
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,071
引用:
作者ghostcode
神人成功在 GTX 1060 6GB 上順跑 Qwen 3.6 35B A3B 模型,只需加入這五個參數。

https://www.koc.com.tw/archives/642193

搭配一顆 i3-8100 處理器和 24GB DDR4 記憶體,
跑 35B 參數的 Qwen 3.6 混合專家模型(MoE),
竟然能以每秒 17 個 token 的速度、256K token 的超長上下文穩定運行,
只有搭配五個 llama.cpp 的啟動參數。

PS:
公司的電腦沒獨顯,沒得試。

這篇文章應該也是 AI 寫的可能性很高
因為全篇都在亂寫

我在 2070 8G VRAM 下 Qwen 3.6 35BA3B 初始生成性能在 131K上下文 + kv q4_0 約 26 tk/s
他 1060 6G VRAM 性能約 17 tk/s
這基本上沒比純 CPU 推理快多少
這性跟一個 10W 左右帶 AI 推理的樹莓派5 差不多
我剛剛用我的 16 核 3950x 純 cpu 就 14 tk/s 了,他比我多一張顯卡才 17 tk/s?!

然後 llama.cpp 根本沒有 q3_0 這個參數
這完全是瞎編
https://github.com/ggml-org/llama.c...erver/README.md

Turbo Quant 在主線 llama.cpp 還只是幾個 PR,根本還沒合併
而且它的參數項:

turbo2、turbo3、turbo4

哪來的 q3_0

他的設定我的話只需要加一個 -fitt 128
其它 llama.cpp 都自動處理了
寫那堆分明就是騙流量來的
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-05-12, 02:22 PM #40
回應時引用此文章
野口隆史離線中