引用:
|
作者又見阿鳥
不一定...
跑70B的AI要48GB的記憶體,現在有壓縮6倍的技術
你會用8GB或是16GB的記憶體去跑70B嗎?
還是拿48GB去跑120B..或是更高...
電腦技術一直都是硬體有多強,軟體就會想辦法榨乾效能
就像影片壓縮技術,壓縮率更高,畫質更好...
但是FHD2K4K8K...檔案還是越來越大.....
|
量化就是量化
從來不是壓縮
而且早在 TurboQuant 之前就有 1.58 bit 量化了
TurboQuant 主要是量化 KV cache
目前雖然有人已經用在量化模型本身
但損失方面的認知還處於起步階段
根本不可能人用在生產環境
事實上現在是硬體有多強
軟體就有多爛
手機遊戲 pc 遊戲跟 windows 非原生前端
跟一堆無腦狂推 rust 的 c/c++ 初級用戶
就是很好的例子