PCDVD數位科技討論區 - Ollama for Gemma 4

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 七嘴八舌異言堂 (https://www.pcdvd.com.tw/forumdisplay.php?f=12)

- - Ollama for Gemma 4 (https://www.pcdvd.com.tw/showthread.php?t=1218133)

引用:

作者沒問題

好吧，我不只懶，我還蠢… :laugh: :laugh: :laugh:
有沒有什麼蠢人包可以讓我無痛上手你說的llama.cpp？

unsloth的gguf我現在安裝的就是這個，26B-Q4。

先下載模型
llama-server -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
https://huggingface.co/unsloth/gemm...l-app=llama.cpp

如果要執行你原本已經下載好的
加 -m
例如 llama-server -m c:\模型存放路徑\模型名稱.gguf
如果通過預設下載，以後可以直接執行 llama-server
然後進入 webui 選擇你的模型就好了

其實執行 llama-server.exe 後，也是可以透過網頁方式溝通。

習慣問題，我也是先找開箱及用的。除非真的受不了。

加上用量，可能不升級硬體，改訂閱比較快。比以前訂 netfix 好多了，幾乎沒在看。

因為我在家、公司都會用，不可能花錢兩邊升級硬體。

至於我買 MBA 是有另外的需求，早預定要買，在等上市。

放在公司的電腦比家裡慘，沒配獨顯，真的卡到懷疑人生。

引用:

作者ghostcode

改訂閱也是一種選擇
我是自己有做一些東西
不太適合用線上 api
所以只能走本地
我有放一台電腦在客廳 24H 跑 llama-server
不過這只能應付一些基本需求
因為也沒有 gpu, 純 cpu 推理
等到真的有需要的才會開有 gpu 的電腦
我覺得我可能很長一段時間都不會有便宜的顯卡可以買

引用:

作者野口隆史

有人跟我說可以裝LM Studio。

我今天坐在電腦前，想著Llama沒有前端的問題。
於是我花了一下午，用了Gemini 4跟ChatGPT 5寫了一個Python的Windows UI端。
不用網頁，直接啟動就可以了。
不過目前只能有支持Nvidia CUDA 13，最少4070 12GB，如果你要碰運氣看看4060 8GB可不可以用也可以。
但是我想3070到3090應該是有點問題。
當然，也沒有針對AMD，所以A卡使用者應該不用試了。

我把我打包好的文件全放上來。
你只要自已去unsloth去下載有it-ud的模型行運行就可以了。
運行的速度取決於：
1.你的CPU頻率。
2.你的實體核心數量。
3.你的記憶體多大。
4.你的記憶體是DDR5或DDR4。
5.你的記憶體有幾通道。
6.你的記憶體頻率。
7.你的顯卡是什麼等級。
8.你的顯卡有沒有超過12GB。

如果你的顯卡有16GB，那麼用這個UI端配上Llama，你應該可以跑Q4到Q5的大模型。
但是要跑26B可能還是有點慢。
只要小於Q4或是只有9B跟E4B的模型，就是自動客服的等級而以，蠻智障的。
如果你有算力超強的THREADRIPPER，可能會有點幫助。
不過這些模型的最大問題就是要在記憶體跟顯存間來回搬移，這是時間上最大的損失。
當然如果你有AI加速卡，或是H200之類的，你可以考慮31B或是FP16，但是我測算了一下，你的記憶體要高達256GB！
也就是說你的顯存至少要有96GB。
最後，就是你需要的都是PCIE5X16不然太浪費時間了。

大家試用看看吧。

我在這裡提供三個包裝，一個是包含gemma-4-E4B-it-UD-Q8_K_XL、Llama-Server.exe及CUDA 13。
完整包裝，約8GB
另一個僅有Llama-Server.exe跟CUDA 13等等完整的元件。
Llama Server跟CUDA 13整合包
如果你怕有什麼問題，你也可以自已去下載。
最後就是我的Llama UI。
主要是我的Llama UI是我自已用AI寫的。
Llama UI單獨包
最後就是參數的部份，你們可以自已去問AI，讓他們找給你答案。

我給出我用gemma-4-E4B-it-UD-Q8_K_XL 模型的參數。
我在測試機上的配置是RTX 4070 12GB。
XEON 2697A v4 32執行緒處理器。
DDR4 2400 64GB。

GPU 層數：建議填入35或40，如果你有16GB的還可以寫到60等於全部放到顯存去跑，最快。
上下文長度：建議填入8192，若足夠的還可以填16384。
執行緒數：建議填入28，有人建議是實體核心數量，有人是建議如果大部份都在顯存時，可以超過實體核心數。
埠號：維持8080

快速注意力：務必打勾，並選擇auto
記憶體駐留：強烈建議打勾

以上兩項如果你會宕機的話，就自已試一下看要關哪一個，還是兩個都關。

溫度：若要寫程式、除錯、進行嚴謹的硬體架構分析：調低至0.2到0.3（極度理性，不廢話），若要發想創意、聊天：設定在0.7。
重複懲罰：維持1.1避免模型在長篇大論時像跳針一樣重複同一句話。

另外想順便說說AI編程。
你要先給他樣板，他才會學會你大概想要的結果是什麼。
之後你開始下咒語，他很笨，完全沒有獨立的能力正確完成你想要的結果。
這時候，大概就是白費時間。
但是，同樣這樣的時間，AI會開始學會你的焦點，重點是什麼。把注意力放在你看重的地方，開始學會你的大架構。
之後就可以重新開始，他很快就會進入狀況。
另外，Gemini的編程能力我覺得比GPT強又好，重點是有點錯有點問題但快，而GPT的優點是綜合思考跟細節的掌握，最大的問題就是慢。
這時候，你才能開始細緻的修正。
如果你不精通一種編程，你其實不應該使用AI幫你完成編程。
因為真正的細節調校還是要你自已。
如果你要寫的東西AI自已沒見過，少有樣例，那真的是毀天滅地。
又如果你有你的側重點，而且很吃實務跟經驗的，那只能靠自已，AI還是幫不了你。

如果沒有 blackwell 世代的 gpu
那就不要用 cuda 13.x，有問題會隨機生成亂碼，解決只能退回 12.x
https://github.com/ggml-org/llama.cpp/issues/21255

另外重造車輪除非你造的車輪比原本的更好
否則就只是浪費時間，氛圍編碼可以寫出具有不少優點的代碼
但其中不包括簡潔跟高效
你何必捨近求遠呢？llama.cpp 的 webui 已經夠強了
沒有其它同質性前端比它更好
人家還是純 c/c++，你用 python 就表示性能至少有 20~100 倍的差距

引用:

作者野口隆史

因爲我還沒看到大神你給我推薦一個好的UI啊 :ase :p :D :laugh: :laugh:
而且我本身就很不喜歡WebUI。
之前看到Ollama的UI，我還蠻喜歡的，只是效能一樣不怎樣。
又想到從來還沒有認真用AI來編程，就這樣耗下去了。

引用:

作者沒問題

webui 你就把它包成 UWP 或者 web app 就可以了
你不管用什麼方式實現，都要面對解析器的性能問題
沒有任何語言可以快過 c++
這點 llama.cpp 已經做得很好了

前端我目前用的是 OpenWebUI
這套我用好幾年了
我當初用的時候它還是一個 100% 的開源專案
現在跟 ollama 一樣變成是假開源而且性能很差
但功能性還行，我必須再次強調性能真的很差
我不會推薦任何人使用，但你很難找到功能性如此全面的替代品

如果要打掉重來，我記得我上個月有看 llama.cpp 的後端添加 sqlite 的版本
但我沒加星，所以一時半刻找不到

其他你可以試試
Jan
https://www.jan.ai/

LibreChat
https://github.com/danny-avila/LibreChat

LibreChat 我幾年前用過一陣子
但是它那個時候還是開發階段
底層經常變動，導致我無法使用 ci/cd 在本地自動部署
現在這些問題都沒有了
部署方式也可以直接選擇 docker
我會比較推這套

比較新的就是 unsloth studio
https://unsloth.ai/docs/new/studio
不過它太肥了，會裝一堆我永遠不會用到的東西
我幾個禮拜前裝過一次，總共佔用了 18GB
除此之它的聊天介面目前已經能提供很好的工具調用
做的甚至比 lm studio 更好

根據樓上野口兄的解釋，加上自家設備本身的限制(7840U with 64G RAM)

我打算:
1. 至BIOS將32G RAM分配給780M (之前無聊時試過，確認可行)
2. 至llama.cpp下載Windows x64 (Vulkan)版本
3. 基於Gemini的建議，使用以下指令執行llama.cpp

set HF_HOME=D:\LLM_Models
llama-server.exe -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL -ngl 99 -c 32768 -t 8 --port 8086

然後等待指令執行出現類似llama server listening at http://127.0.0.1:8086

4. 瀏覽器打開http://127.0.0.1:8086

這樣應該就能順利啟動我的本地AI初體驗了吧？

引用:

作者substar999

-ngl 99 -t8 這些都是 llama-server的預設參數
llama.cpp 預設使用實體核心數的線程數
除非你是純 cpu 推理，否則我建議你以偶數的方式減少來提高性能
例如從 4 開始

我建議加 --fit on --fit-target 128
VRAM 預留 128MB，預設為 1024
--fit on 雖然也為預設參數，但與 --fit-target 一起使用的時候建議寫在一起

然後你應該先測試的後端為 ROCM
RDNA3 現在的 ROCM 支援很好
理應比 Vulkan 性能更高