PCDVD數位科技討論區 - 瀏覽單個文章

引用:

作者substar999

根據樓上野口兄的解釋，加上自家設備本身的限制(7840U with 64G RAM)

我打算:
1. 至BIOS將32G RAM分配給780M (之前無聊時試過，確認可行)
2. 至llama.cpp下載Windows x64 (Vulkan)版本
3. 基於Gemini的建議，使用以下指令執行llama.cpp

set HF_HOME=D:\LLM_Models
llama-server.exe -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL -ngl 99 -c 32768 -t 8 --port 8086

然後等待指令執行出現類似llama server listening at http://127.0.0.1:8086

4. 瀏覽器打開http://127.0.0.1:8086

這樣應該就能順利啟動我的本地AI初體驗了吧？

-ngl 99 -t8 這些都是 llama-server的預設參數
llama.cpp 預設使用實體核心數的線程數
除非你是純 cpu 推理，否則我建議你以偶數的方式減少來提高性能
例如從 4 開始

我建議加 --fit on --fit-target 128
VRAM 預留 128MB，預設為 1024
--fit on 雖然也為預設參數，但與 --fit-target 一起使用的時候建議寫在一起

然後你應該先測試的後端為 ROCM
RDNA3 現在的 ROCM 支援很好
理應比 Vulkan 性能更高