PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 其他群組 > 七嘴八舌異言堂
帳戶
密碼
 

  回應
 
主題工具
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,069
引用:
作者沒問題
好吧,我不只懶,我還蠢…
有沒有什麼蠢人包可以讓我無痛上手你說的llama.cpp?

unsloth的gguf我現在安裝的就是這個,26B-Q4。

先下載模型
llama-server -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
https://huggingface.co/unsloth/gemm...l-app=llama.cpp

如果要執行你原本已經下載好的
加 -m
例如 llama-server -m c:\模型存放路徑\模型名稱.gguf
如果通過預設下載,以後可以直接執行 llama-server
然後進入 webui 選擇你的模型就好了
     
      
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-07, 08:36 PM #21
回應時引用此文章
野口隆史離線中  
ghostcode
Senior Member
 

加入日期: Sep 2001
您的住址: 淡水
文章: 1,352
其實執行 llama-server.exe 後,也是可以透過網頁方式溝通。

習慣問題,我也是先找開箱及用的。除非真的受不了。

加上用量,可能不升級硬體,改訂閱比較快。比以前訂 netfix 好多了,幾乎沒在看。

因為我在家、公司都會用,不可能花錢兩邊升級硬體。

至於我買 MBA 是有另外的需求,早預定要買,在等上市。

放在公司的電腦比家裡慘,沒配獨顯,真的卡到懷疑人生。
 

此文章於 2026-04-07 08:51 PM 被 ghostcode 編輯.
舊 2026-04-07, 08:40 PM #22
回應時引用此文章
ghostcode現在在線上  
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,069
引用:
作者ghostcode
其實執行 llama-server.exe 後,也是可以透過網頁方式溝通。

習慣問題,我也是先找開箱及用的。除非真的受不了。

加上用量,可能不升級硬體,改訂閱比較快。比以前訂 netfix 好多了,幾乎沒在看。

因為我在家、公司都會用,不可能花錢兩邊升級硬體。

至於我買 MBA 是有另外的需求,早預定要買,在等上市。

放在公司的電腦比家裡慘,沒配獨顯,真的卡到懷疑人生。

改訂閱也是一種選擇
我是自己有做一些東西
不太適合用線上 api
所以只能走本地
我有放一台電腦在客廳 24H 跑 llama-server
不過這只能應付一些基本需求
因為也沒有 gpu, 純 cpu 推理
等到真的有需要的才會開有 gpu 的電腦
我覺得我可能很長一段時間都不會有便宜的顯卡可以買
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-08, 11:16 AM #23
回應時引用此文章
野口隆史離線中  
沒問題
Major Member
 

加入日期: Dec 2015
文章: 211
引用:
作者野口隆史
改訂閱也是一種選擇
我是自己有做一些東西
不太適合用線上 api
所以只能走本地
我有放一台電腦在客廳 24H 跑 llama-server
不過這只能應付一些基本需求
因為也沒有 gpu, 純 cpu 推理
等到真的有需要的才會開有 gpu 的電腦
我覺得我可能很長一段時間都不會有便宜的顯卡可以買


有人跟我說可以裝LM Studio。

此文章於 2026-04-08 07:00 PM 被 沒問題 編輯.
舊 2026-04-08, 06:37 PM #24
回應時引用此文章
沒問題現在在線上  
沒問題
Major Member
 

加入日期: Dec 2015
文章: 211
我今天坐在電腦前,想著Llama沒有前端的問題。
於是我花了一下午,用了Gemini 4跟ChatGPT 5寫了一個Python的Windows UI端。
不用網頁,直接啟動就可以了。
不過目前只能有支持Nvidia CUDA 13,最少4070 12GB,如果你要碰運氣看看4060 8GB可不可以用也可以。
但是我想3070到3090應該是有點問題。
當然,也沒有針對AMD,所以A卡有使用者應該不用試了。

我把我打包好的文件全放上來。
你只要自已去unsloth去下載有it-ud的模型行運行就可以了。
運行的速度取決於:
1.你的CPU頻率。
2.你的實體核心數量。
3.你的記憶體多大。
4.你的記憶體是DDR5或DDR4。
5.你的記憶體有幾通道。
6.你的記憶體頻率。
7.你的顯卡是什麼等級。
8.你的顯卡有沒有超過12GB。

如果你的顯卡有16GB,那麼用這個UI端配上Llama,你應該可以跑Q4到Q5的大模型。
但是要跑26B的可能還是有點慢。
只要小於Q4或是只有9B跟E4B的模型,就是自動客服的等級而以,滿智障的。
如果你有算力超強的THREADRIPPER,可能會有點幫助。
不過這些模型的最大問題就是要在記憶體跟顯存間來回搬移,這是時間上最大的損失。
當然如果你有AI加速卡,或是H200之類的,你可以考慮31B或是FP16,但是我測算了一下,你的記憶體要高達256GB!
也就是說你的顯存至少要有96GB。
最後,就是你需要的都是PCIE5X16不然太浪費時間了。

大家試用看看吧。

我在這裡提供三個包裝,一個是包含gemma-4-E4B-it-UD-Q8_K_XL、Llama-Server.exe及CUDA 13。
完整包裝,約8GB
另一個僅有Llama-Server.exe跟CUDA 13等等完整的元件。
Llama Server跟CUDA 13整合包
如果你怕有什麼問題,你也可以自已去下載。
最後就是我的Llama UI。
主要是我的Llama UI是我自已用AI寫的。
Llama UI單獨包
最後就是參數的部份,你們可以自已去問AI,讓他們找給你答案。


我給出我用gemma-4-E4B-it-UD-Q8_K_XL 模型的參數。
我在測試機上的配置是RTX 4070 12GB。
XEON 2697A v4 32執行緒處理器。
DDR4 2400 64GB。

GPU 層數:建議填入35或40,如果你有16GB的還可以寫到60等於全部放到顯存去跑,最快。
上下文長度:建議填入8192,若足夠的還可以填16384。
執行緒數:建議填入28,有人建議是實體核心數量,有人是建議如果大部份都在顯存時,可以超過實體核心數。
埠號:維持8080

快速注意力:務必打勾,並選擇auto
記憶體駐留:強烈建議打勾

以上兩項如果你會宕機的話,就自已試一下看要關哪一個,還是兩個都關。

溫度:若要寫程式、除錯、進行嚴謹的硬體架構分析:調低至0.2到0.3(極度理性,不廢話),若要發想創意、聊天:設定在0.7。
重複懲罰:維持1.1避免模型在長篇大論時像跳針一樣重複同一句話。


另外想順便說說AI編程。
你要先給他樣板,他才會學會你大概想要的結果是什麼。
之後你開始下咒語,他很笨,完全沒有獨立的能力正確完成你想要的結果。
這時候,大概就是白費時間。
但是,同樣這樣的時間,AI會開始學會你的焦點,重點是什麼。把注意力放在你看重的地方,開始學會你的大架構。
之後就可以重新開始,他很快就會進入狀況。
另外,Gemini的編程能力我覺得比GPT強又好,重點是有點錯有點問題但快,而GPT的優點是綜合思考跟細節的掌握,最大的問題就是慢。
這時候,你才能開始細緻的修正。
如果你不精通一種編程,你其實不應該使用AI幫你完成編程。
因為真正的細節調校還是要你自已。
如果你要寫的東西AI自已沒見過,少有樣例,那真的是毀天滅地。
又如果你有你的側重點,而且很吃實務跟經驗的,那只能靠自已,AI還是幫不了你。
舊 2026-04-10, 02:15 AM #25
回應時引用此文章
沒問題現在在線上  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是07:52 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2026。