瀏覽單個文章
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,071
引用:
作者substar999
根據樓上野口兄的解釋,加上自家設備本身的限制(7840U with 64G RAM)

我打算:
1. 至BIOS將32G RAM分配給780M (之前無聊時試過,確認可行)
2. 至llama.cpp下載Windows x64 (Vulkan)版本
3. 基於Gemini的建議,使用以下指令執行llama.cpp

set HF_HOME=D:\LLM_Models
llama-server.exe -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL -ngl 99 -c 32768 -t 8 --port 8086

然後等待指令執行出現類似llama server listening at http://127.0.0.1:8086

4. 瀏覽器打開http://127.0.0.1:8086

這樣應該就能順利啟動我的本地AI初體驗了吧?

-ngl 99 -t8 這些都是 llama-server的預設參數
llama.cpp 預設使用實體核心數的線程數
除非你是純 cpu 推理,否則我建議你以偶數的方式減少來提高性能
例如從 4 開始

我建議加 --fit on --fit-target 128
VRAM 預留 128MB,預設為 1024
--fit on 雖然也為預設參數,但與 --fit-target 一起使用的時候建議寫在一起

然後你應該先測試的後端為 ROCM
RDNA3 現在的 ROCM 支援很好
理應比 Vulkan 性能更高
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-10, 02:46 PM #30
回應時引用此文章
野口隆史離線中