![]() |
||
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,071
|
引用:
先下載模型 llama-server -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL https://huggingface.co/unsloth/gemm...l-app=llama.cpp 如果要執行你原本已經下載好的 加 -m 例如 llama-server -m c:\模型存放路徑\模型名稱.gguf 如果通過預設下載,以後可以直接執行 llama-server 然後進入 webui 選擇你的模型就好了
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
||||||||
|
|
|
Senior Member
![]() ![]() ![]() 加入日期: Sep 2001 您的住址: 淡水
文章: 1,352
|
其實執行 llama-server.exe 後,也是可以透過網頁方式溝通。
習慣問題,我也是先找開箱及用的。除非真的受不了。 加上用量,可能不升級硬體,改訂閱比較快。比以前訂 netfix 好多了,幾乎沒在看。 因為我在家、公司都會用,不可能花錢兩邊升級硬體。 至於我買 MBA 是有另外的需求,早預定要買,在等上市。 放在公司的電腦比家裡慘,沒配獨顯,真的卡到懷疑人生。 此文章於 2026-04-07 08:51 PM 被 ghostcode 編輯. |
||
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,071
|
引用:
改訂閱也是一種選擇 我是自己有做一些東西 不太適合用線上 api 所以只能走本地 我有放一台電腦在客廳 24H 跑 llama-server 不過這只能應付一些基本需求 因為也沒有 gpu, 純 cpu 推理 等到真的有需要的才會開有 gpu 的電腦 我覺得我可能很長一段時間都不會有便宜的顯卡可以買
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
|
|
|
|
Major Member
![]() 加入日期: Dec 2015
文章: 211
|
引用:
有人跟我說可以裝LM Studio。 此文章於 2026-04-08 07:00 PM 被 沒問題 編輯. |
|
|
|
|
Major Member
![]() 加入日期: Dec 2015
文章: 211
|
我今天坐在電腦前,想著Llama沒有前端的問題。
於是我花了一下午,用了Gemini 4跟ChatGPT 5寫了一個Python的Windows UI端。 不用網頁,直接啟動就可以了。 不過目前只能有支持Nvidia CUDA 13,最少4070 12GB,如果你要碰運氣看看4060 8GB可不可以用也可以。 但是我想3070到3090應該是有點問題。 當然,也沒有針對AMD,所以A卡使用者應該不用試了。 我把我打包好的文件全放上來。 你只要自已去unsloth去下載有it-ud的模型行運行就可以了。 運行的速度取決於: 1.你的CPU頻率。 2.你的實體核心數量。 3.你的記憶體多大。 4.你的記憶體是DDR5或DDR4。 5.你的記憶體有幾通道。 6.你的記憶體頻率。 7.你的顯卡是什麼等級。 8.你的顯卡有沒有超過12GB。 如果你的顯卡有16GB,那麼用這個UI端配上Llama,你應該可以跑Q4到Q5的大模型。 但是要跑26B可能還是有點慢。 只要小於Q4或是只有9B跟E4B的模型,就是自動客服的等級而以,蠻智障的。 如果你有算力超強的THREADRIPPER,可能會有點幫助。 不過這些模型的最大問題就是要在記憶體跟顯存間來回搬移,這是時間上最大的損失。 當然如果你有AI加速卡,或是H200之類的,你可以考慮31B或是FP16,但是我測算了一下,你的記憶體要高達256GB! 也就是說你的顯存至少要有96GB。 最後,就是你需要的都是PCIE5X16不然太浪費時間了。 大家試用看看吧。 我在這裡提供三個包裝,一個是包含gemma-4-E4B-it-UD-Q8_K_XL、Llama-Server.exe及CUDA 13。 完整包裝,約8GB 另一個僅有Llama-Server.exe跟CUDA 13等等完整的元件。 Llama Server跟CUDA 13整合包 如果你怕有什麼問題,你也可以自已去下載。 最後就是我的Llama UI。 主要是我的Llama UI是我自已用AI寫的。 Llama UI單獨包 最後就是參數的部份,你們可以自已去問AI,讓他們找給你答案。 我給出我用gemma-4-E4B-it-UD-Q8_K_XL 模型的參數。 我在測試機上的配置是RTX 4070 12GB。 XEON 2697A v4 32執行緒處理器。 DDR4 2400 64GB。 GPU 層數:建議填入35或40,如果你有16GB的還可以寫到60等於全部放到顯存去跑,最快。 上下文長度:建議填入8192,若足夠的還可以填16384。 執行緒數:建議填入28,有人建議是實體核心數量,有人是建議如果大部份都在顯存時,可以超過實體核心數。 埠號:維持8080 快速注意力:務必打勾,並選擇auto 記憶體駐留:強烈建議打勾 以上兩項如果你會宕機的話,就自已試一下看要關哪一個,還是兩個都關。 溫度:若要寫程式、除錯、進行嚴謹的硬體架構分析:調低至0.2到0.3(極度理性,不廢話),若要發想創意、聊天:設定在0.7。 重複懲罰:維持1.1避免模型在長篇大論時像跳針一樣重複同一句話。 另外想順便說說AI編程。 你要先給他樣板,他才會學會你大概想要的結果是什麼。 之後你開始下咒語,他很笨,完全沒有獨立的能力正確完成你想要的結果。 這時候,大概就是白費時間。 但是,同樣這樣的時間,AI會開始學會你的焦點,重點是什麼。把注意力放在你看重的地方,開始學會你的大架構。 之後就可以重新開始,他很快就會進入狀況。 另外,Gemini的編程能力我覺得比GPT強又好,重點是有點錯有點問題但快,而GPT的優點是綜合思考跟細節的掌握,最大的問題就是慢。 這時候,你才能開始細緻的修正。 如果你不精通一種編程,你其實不應該使用AI幫你完成編程。 因為真正的細節調校還是要你自已。 如果你要寫的東西AI自已沒見過,少有樣例,那真的是毀天滅地。 又如果你有你的側重點,而且很吃實務跟經驗的,那只能靠自已,AI還是幫不了你。 此文章於 2026-04-10 12:56 PM 被 沒問題 編輯. |
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,071
|
如果沒有 blackwell 世代的 gpu
那就不要用 cuda 13.x,有問題會隨機生成亂碼,解決只能退回 12.x https://github.com/ggml-org/llama.cpp/issues/21255 另外重造車輪除非你造的車輪比原本的更好 否則就只是浪費時間,氛圍編碼可以寫出具有不少優點的代碼 但其中不包括簡潔跟高效 你何必捨近求遠呢?llama.cpp 的 webui 已經夠強了 沒有其它同質性前端比它更好 人家還是純 c/c++,你用 python 就表示性能至少有 20~100 倍的差距
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
|
|
|
Major Member
![]() 加入日期: Dec 2015
文章: 211
|
引用:
因爲我還沒看到大神你給我推薦一個好的UI啊 而且我本身就很不喜歡WebUI。 之前看到Ollama的UI,我還蠻喜歡的,只是效能一樣不怎樣。 又想到從來還沒有認真用AI來編程,就這樣耗下去了。 |
|
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,071
|
引用:
webui 你就把它包成 UWP 或者 web app 就可以了 你不管用什麼方式實現,都要面對解析器的性能問題 沒有任何語言可以快過 c++ 這點 llama.cpp 已經做得很好了 前端我目前用的是 OpenWebUI 這套我用好幾年了 我當初用的時候它還是一個 100% 的開源專案 現在跟 ollama 一樣變成是假開源而且性能很差 但功能性還行,我必須再次強調性能真的很差 我不會推薦任何人使用,但你很難找到功能性如此全面的替代品 如果要打掉重來,我記得我上個月有看 llama.cpp 的後端添加 sqlite 的版本 但我沒加星,所以一時半刻找不到 其他你可以試試 Jan https://www.jan.ai/ LibreChat https://github.com/danny-avila/LibreChat LibreChat 我幾年前用過一陣子 但是它那個時候還是開發階段 底層經常變動,導致我無法使用 ci/cd 在本地自動部署 現在這些問題都沒有了 部署方式也可以直接選擇 docker 我會比較推這套 比較新的就是 unsloth studio https://unsloth.ai/docs/new/studio 不過它太肥了,會裝一堆我永遠不會用到的東西 我幾個禮拜前裝過一次,總共佔用了 18GB 除此之它的聊天介面目前已經能提供很好的工具調用 做的甚至比 lm studio 更好
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
|
|
|
|
Master Member
![]() ![]() ![]() ![]() 加入日期: Sep 2001 您的住址: K
文章: 1,510
|
根據樓上野口兄的解釋,加上自家設備本身的限制(7840U with 64G RAM)
我打算: 1. 至BIOS將32G RAM分配給780M (之前無聊時試過,確認可行) 2. 至llama.cpp下載Windows x64 (Vulkan)版本 3. 基於Gemini的建議,使用以下指令執行llama.cpp set HF_HOME=D:\LLM_Models llama-server.exe -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL -ngl 99 -c 32768 -t 8 --port 8086 然後等待指令執行出現類似llama server listening at http://127.0.0.1:8086 4. 瀏覽器打開http://127.0.0.1:8086 這樣應該就能順利啟動我的本地AI初體驗了吧? |
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,071
|
引用:
-ngl 99 -t8 這些都是 llama-server的預設參數 llama.cpp 預設使用實體核心數的線程數 除非你是純 cpu 推理,否則我建議你以偶數的方式減少來提高性能 例如從 4 開始 我建議加 --fit on --fit-target 128 VRAM 預留 128MB,預設為 1024 --fit on 雖然也為預設參數,但與 --fit-target 一起使用的時候建議寫在一起 然後你應該先測試的後端為 ROCM RDNA3 現在的 ROCM 支援很好 理應比 Vulkan 性能更高
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
|
|
|