PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 其他群組 > 七嘴八舌異言堂
帳戶
密碼
 

  回應
 
主題工具
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,069
引用:
作者ghostcode
手上機器雖多,一直沒湊一台最好的。

用目前常用的電腦(就是上網,看影片、論壇,i5 9400 / 32GB / GTX 1660)

反而用 opencode + 一些免費額度,已經生出 3,4 個可以自動化掉我上班的工作。

原本不太想為一堆要花半小時到2小時之間的工作弄個 RPA 自動化,沒啥效益。

但現在用 AI 開發一些小工具,花的時間縮短很多。

一下子就產出 3,4 個能處理重複性工作的小工具。

而給 ollama 用的是最簡單工具,連我寫都比它快的。(因為免費額度還在 CD)

速度就像初學者打字一樣。CPU / RAM 全滿載。

跑出的結果,幾乎是 try & error。都想弄台 DGX Spark 玩。


PS:
80年代我花在電子電腦的錢...想起來就恐怖。
以前靠 RAM 顆粒賺幾十萬,一瞬間就花光,現在幾十萬下不了手。
加上 DGX Spark 光電費可能用噴的。

你的需求如果只是推理而不是訓練
同樣的錢買 GPU 或者 mac studio
速度會快更多倍
甚至不如買 Strix Halo,還比 DGX Spark 便宜兩千美元
     
      
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-06, 09:26 PM #11
回應時引用此文章
野口隆史離線中  
沒問題
Major Member
 

加入日期: Dec 2015
文章: 211
引用:
作者野口隆史
不要用 ollama
ollama 難用、性能差、假開源
而且它底層是用 llama.cpp
我完全不懂為什麼它的性能可以差成這樣
單用 llama.cpp 更簡潔,性能更強


問題是,我現在很懶…
我看到ollamasetup,我就無腦下載裝了就跑。
我也已經很懶得自已調校了。
 
舊 2026-04-06, 09:48 PM #12
回應時引用此文章
沒問題現在在線上  
ghostcode
Senior Member
 

加入日期: Sep 2001
您的住址: 淡水
文章: 1,352
引用:
作者野口隆史
你的需求如果只是推理而不是訓練
同樣的錢買 GPU 或者 mac studio
速度會快更多倍
甚至不如買 Strix Halo,還比 DGX Spark 便宜兩千美元


我主要是幫我一些程式,並沒有要訓練。(以前是帶 team 開發系統)

雖然兩者工作上都用的到,但實際環境不允許,我也不願意自找麻煩。

(我待在業務單位,資訊/資安等沒任何權限,做這些沒任何好處,只有壞處。
一旦有自建系統,各種書表、文件、公文、調查表...先被搞死)

我以為 Strix Halo 又是玩改名遊戲,沒想到真的有效果。

我研究看看是不是真的幫助很大。

原本有打算買 Mac Book Air M5 + RAM。沒那麼專業到用 Pro。

此文章於 2026-04-06 10:17 PM 被 ghostcode 編輯.
舊 2026-04-06, 10:15 PM #13
回應時引用此文章
ghostcode現在在線上  
risc_bar
Power Member
 
risc_bar的大頭照
 

加入日期: May 2004
文章: 687
ollama 的跟商用的gemini / gpt model差很多
下一樣的prompt ollama 在問答上的語意分析及回答正確率很低,只能到6成左右
換成gemini /gpt 等都可以上到9成
舊 2026-04-07, 08:11 AM #14
回應時引用此文章
risc_bar現在在線上  
lifaung
Senior Member
 

加入日期: Aug 2001
您的住址: 台中or桃園
文章: 1,155
引用:
作者risc_bar
ollama 的跟商用的gemini / gpt model差很多
下一樣的prompt ollama 在問答上的語意分析及回答正確率很低,只能到6成左右
換成gemini /gpt 等都可以上到9成


別這樣, 人家的比較標準是Qwen 2.5等級
實際水準是Qwen3左右....

和Qwen 3.5比起來還有一段距離Orz
舊 2026-04-07, 09:51 AM #15
回應時引用此文章
lifaung離線中  
ghostcode
Senior Member
 

加入日期: Sep 2001
您的住址: 淡水
文章: 1,352
引用:
作者lifaung
別這樣, 人家的比較標準是Qwen 2.5等級
實際水準是Qwen3左右....

和Qwen 3.5比起來還有一段距離Orz


Qwen 也是先把中文訊息,轉成英文處理。

畢竟中文語意太模糊,且難處理斷字。
舊 2026-04-07, 11:00 AM #16
回應時引用此文章
ghostcode現在在線上  
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,069
引用:
作者沒問題
問題是,我現在很懶…
我看到ollamasetup,我就無腦下載裝了就跑。
我也已經很懶得自已調校了。

你懶 ollama 比你更懶
它跟你一樣也不調校
90% 以上的場景
llama.cpp 比我自己手動抓出來的參數的結果更好

llama.cpp 自動選擇最適合你硬體的最佳化參數
llama.cpp 跟 ollama 性能差很多
在我的 3080 + ddr4 3200 128GB 的平台上
qwen3 30b vl 進行視訊推理的時候
最高有十倍以上的性能差距
文字生成也在五倍左右
一旦牽涉到 cpu 卸載
ollama 基本什麼都不做
內建的 llama.cpp 版本也比原版古老
很久才更新一次

ollama 算是少數每一方面都做得比原始項目更差的軟體
llama.cpp 完全基於 c/c++ 實現
連 web ui 效率跟功能都屌打 ollama 發展更久的成果


引用:
作者ghostcode
我主要是幫我一些程式,並沒有要訓練。(以前是帶 team 開發系統)

雖然兩者工作上都用的到,但實際環境不允許,我也不願意自找麻煩。

(我待在業務單位,資訊/資安等沒任何權限,做這些沒任何好處,只有壞處。
一旦有自建系統,各種書表、文件、公文、調查表...先被搞死)

我以為 Strix Halo 又是玩改名遊戲,沒想到真的有效果。

我研究看看是不是真的幫助很大。

原本有打算買 Mac Book Air M5 + RAM。沒那麼專業到用 Pro。

那我是真心不建議把 DGX Spark 放進選項
因為你沒有訓練需求
DGX Spark 雖然是 aarch 架構
看起來好像很多事情可以做
但會買這個的人,要求都非常單一
所以實際上你買來也只會跑推理

Strix Halo 效能略低 DGX Spark 10~20%
但價格只要一半,便宜治百病

如果是平均記憶體價格
則是 mac 會更划算
但是我其實不建議你現在買 mac
因為 mac studio 可能兩個月內就出新版了
性能差距跟 m4 系列會更大

除非你跑的模型需要更大的記憶體
不然還是 GPU 會更好
只要是 NV 的都可以
但不建議買 RTX PRO 4000
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-07, 11:33 AM #17
回應時引用此文章
野口隆史離線中  
ghostcode
Senior Member
 

加入日期: Sep 2001
您的住址: 淡水
文章: 1,352
引用:
作者野口隆史
你懶 ollama 比你更懶
它跟你一樣也不調校
90% 以上的場景
llama.cpp 比我自己手動抓出來的參數的結果更好

llama.cpp 自動選擇最適合你硬體的最佳化參數
llama.cpp 跟 ollama 性能差很多
在我的 3080 + ddr4 3200 128GB 的平台上
qwen3 30b vl 進行視訊推理的時候
最高有十倍以上的性能差距
文字生成也在五倍左右
一旦牽涉到 cpu 卸載
ollama 基本什麼都不做
內建的 llama.cpp 版本也比原版古老
很久才更新一次

ollama 算是少數每一方面都做得比原始項目更差的軟體
llama.cpp 完全基於 c/c++ 實現
連 web ui 效率跟功能都屌打 ollama 發展更久的成果



那我是真心不建議把 DGX Spark 放進選項
因為你沒有訓練需求
DGX Spark 雖然是 aarch 架構
看起來好像很多事情可以做
但會買這個的人,要求都非常單一
所以實際上你買來也只會跑推理

Strix Halo 效能略低 DGX Spark 10~2...


嗯,不會投入那麼大。只是想了解一些東西。

打算只當使用者,了解 AI 當工具使用。

不是要研發、或進行專案那麼深入。(頭腦、資源跟不上)
舊 2026-04-07, 12:35 PM #18
回應時引用此文章
ghostcode現在在線上  
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,069
剛被老婆抓去做飯了
前面其實還沒說完

以 Gemma4 來說
這個模型存在工具調用的一些錯誤
目前有修正這個錯誤的就是 llama.cpp
https://github.com/ggml-org/llama.cpp/pull/21418

還有 unsloth 的 gguf
https://huggingface.co/unsloth/gemm...F/discussions/6
直接更新模型內建的聊天模板
https://github.com/ggml-org/llama.c...terleaved.jinja

還有一個比較嚴重的問題是上下文檢查點會占用大量的記憶體
目前此 bug 也已修復
等到諸如 lm studio, ollama 修正那又不知道等到猴年馬月
https://github.com/ggml-org/llama.cpp/discussions/21480
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2026-04-07, 12:44 PM #19
回應時引用此文章
野口隆史離線中  
沒問題
Major Member
 

加入日期: Dec 2015
文章: 211
引用:
作者野口隆史
剛被老婆抓去做飯了
前面其實還沒說完

以 Gemma4 來說
這個模型存在工具調用的一些錯誤
目前有修正這個錯誤的就是 llama.cpp
https://github.com/ggml-org/llama.cpp/pull/21418

還有 unsloth 的 gguf
https://huggingface.co/unsloth/gemm...F/discussions/6
直接更新模型內建的聊天模板
https://github.com/ggml-org/llama.c...terleaved.jinja

還有一個比較嚴重的問題是上下文檢查點會占用大量的記憶體
目前此 bug 也已修復
等到諸如 lm studio, ollama 修正那又不知道等到猴年馬月
https://github.com/ggml-org/llama.cpp/discussions/21480


好吧,我不只懶,我還蠢…
有沒有什麼蠢人包可以讓我無痛上手你說的llama.cpp?

unsloth的gguf我現在安裝的就是這個,26B-Q4。

此文章於 2026-04-07 08:11 PM 被 沒問題 編輯.
舊 2026-04-07, 08:10 PM #20
回應時引用此文章
沒問題現在在線上  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是07:52 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2026。