瀏覽單個文章
ghostcode
Senior Member
 

加入日期: Sep 2001
您的住址: 淡水
文章: 1,352
引用:
作者野口隆史
你懶 ollama 比你更懶
它跟你一樣也不調校
90% 以上的場景
llama.cpp 比我自己手動抓出來的參數的結果更好

llama.cpp 自動選擇最適合你硬體的最佳化參數
llama.cpp 跟 ollama 性能差很多
在我的 3080 + ddr4 3200 128GB 的平台上
qwen3 30b vl 進行視訊推理的時候
最高有十倍以上的性能差距
文字生成也在五倍左右
一旦牽涉到 cpu 卸載
ollama 基本什麼都不做
內建的 llama.cpp 版本也比原版古老
很久才更新一次

ollama 算是少數每一方面都做得比原始項目更差的軟體
llama.cpp 完全基於 c/c++ 實現
連 web ui 效率跟功能都屌打 ollama 發展更久的成果



那我是真心不建議把 DGX Spark 放進選項
因為你沒有訓練需求
DGX Spark 雖然是 aarch 架構
看起來好像很多事情可以做
但會買這個的人,要求都非常單一
所以實際上你買來也只會跑推理

Strix Halo 效能略低 DGX Spark 10~2...


嗯,不會投入那麼大。只是想了解一些東西。

打算只當使用者,了解 AI 當工具使用。

不是要研發、或進行專案那麼深入。(頭腦、資源跟不上)
舊 2026-04-07, 12:35 PM #18
回應時引用此文章
ghostcode離線中