NVIDIA又被逮到作弊了(這次是Texture Filtering作弊)

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

引用:

Originally posted by giligula
有些話恕刪了
就我認為
NV30 仍是一顆暴力的 GPU
500MHz 超高時脈
DDR II 記憶體
加上那顆超暴力風扇
很難將它歸類為精巧或聰明的 GPU
只能說他遇到了 R300 這顆比怪�**朁ギ囿煽馱�

well, 其實我覺得這句話有兩個問題.

1. 晶片發熱量高和它設計精巧與否沒有頗直接的關聯
我這樣講好了, 如果以R300的架構實作32bit內部精確度, 估計是一億五千萬以上的電晶體數; 目前的R300是一億一千五百萬.
雖說NV3x與R300的架構不能一概而論, 問題是R300的架構上的確比NV3x要"直來直往"許多.
先前也說過, NV3x需要相配合的軟體才能發揮, 而R300則是在設計上追求要先能夠跑快現有的軟體, 這部分的哲學造成的落差也應該要考慮進去.

2. GeForceFX 5800 Ultra的主要發熱量來源來自2.5v DDR2.
這部分非常值得注意.
因為samsung沒有能夠設計出真正合於當初DDR2設計目標的產品,
於是本來計畫使用1.8v的DDR2變成2.5v, 發熱量從本來計畫中的稍降尚可,
變成現有產品的延伸, 成為無法接受的超高熱量. 光工作維持熱量就48W, 還沒加上IO部分的熱量.
整個產品1/2以上的熱量來自八顆DDR2本身, 只能說NV3x最大的敗筆就是在採用了不夠成熟的DDR2.
這部分來自GZeasy的cho桑實測時的經驗.

另, 我覺得FX Flow也不能稱之為暴力扇, 它的噪音來源主要來自高頻的震動音, 但是風量其實尚可而已. FX Flow當初的主要目的在於吸入機殼外部的低溫空氣, 因為他認為只靠留空一條PCI本身所能得到的低溫空氣量並不足夠; 我不知道是不是nVIDIA本家設計的, 但是顯然整個FX Flow設計還不夠好.

引用:

floating point precision 主要不是用在顏色上
就算使用了 FP32
但是最後輸出的 DAC 也只有 10bit
那其他 22bit 照樣浪費
floating point 是應用在其他方面如 normal map 上
目前 8bit 的 normal map 的確有精確度不足的問題
造成 artifact 的存在
DOOM III 的 normal map 材質在設計之初就為 floating point precision 了

嗯, 當初GF4時期的DAC已經全面10bit了, 但是支援10bit Frame Buffer的則要等到FX之後.
只是高精確度轉低不是直接浪費掉, 而是經過dithering之後才轉換的, 人眼仍然可以感受到更多的資訊.
現在的重點在於, FP32/FP24/FP16目前使用上的絕對必要性存在嗎?
連Pixar都只用到FP16了.... FP32我現在覺得除了用於查表之外, 可能必要性並不大.

引用:

JC 並沒有說 12bit 就足夠
而是說並不是所有的情況下都需要用到高精確度
在某些情況下 12bit 就足夠
在某些是 FP16
少數需要用到 FP32

這邊我要提出一個疑問了.
這樣的整個Data Flow可以中途切換精確度嗎?

假設可以的話, R300全程都是FP24, 直到輸出前才轉成10bit;
但是NV3x可以從一開始是FP32, 部分精確度不需要保存可以轉成FP16, 甚至是FX12, 最後輸出前Dithering成10bit Int....

NV3x全程用FP32和視狀況切換精確度的狀況, 速度不知道會差上多少?
NVIDIA的人員會對FutureMark反彈的心態我想我也可以體會一點了, 因為NV3x的確需要一點特殊的關照才會發揮高速, 不然的話硬叫它開FP32全程實在是有點欺負人.
既然知道眼前的牆壁很硬, 實在沒必要拿腦袋瓜撞上去.

引用:

這和使用 pixel shader 2.0 的時機是一樣的
在 pixel shader 1.4 能夠做出很好的效果
又何必需要用到 2.0 呢
2.0 跟 1.4 的差別在可程式化的程度不同而已
所以也不是所有像素都需要用到 2.0
同樣的
精度這種東西也是視情況而定
在效能與品質間取得平衡才是重要的
畢竟大家之前用 8bit precision 還不是用得很爽
不必出了個 floating point precision
就一窩蜂的趕流行

well, SSE的例子有蠻大的差異所以恕刪, Intel當初就是打算拿SSE來取代x87的, 所以沒有用不用的問題.

至於不是所有像素都需要用到PS2.0 , 部分可以用PS1.4之類的話,
去對nVIDIA說他們可能會跳腳吧? 這的確是行銷上的一個大問題.

----
不過我們好像也不能一聲令下要它們全部實作IEEE754.....
雖說FX的確除了部份例外之外, 把資料結構整個都弄成IEEE754了.

相對地, ATi 因為用了FP24, 現在當然會喊24bit就夠用; 但是明年呢?
R400可能是個內部精確度達32bit的R300系產品, 到時候它會喊24bit夠用嗎?

結論: 別把廠商看的太高尚了, 跟著起舞的消費者麻煩就大了.

此文章於 2003-06-13 05:45 PM 被 Artx1 編輯.

2003-06-13, 04:34 PM #61

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

http://pc.watch.impress.co.jp/docs/...12/kaigai01.htm

每次要講架構都得等到後藤大叔去訪談.... ^^a
總之, nVIDIA的技術總監, David B. Kirk講解GeForceFX的架構概念.

重點在於--在GeForceFX已經不存在完整的管線這種說法了.
雖說程式的觀點可以看成4條可以處理1個以上像素的管線, 或者8條彼此之間單元共有的管線; 但是在晶片的觀點來說, 除了資料流程之外所有的單元都已經全面打散開來, 管線已經不再如過去一般單純了.

後藤大叔的比喻不錯----就如同Pentium Pro將管線的單元打散一般.(亂序執行)

所以我們想到了什麼呢?
想到了當初Pentium Pro一開始在執行舊有程式的時候, 效能低落的狀況, 還外加了融入On-Die Cache造成的低良率; 使得人人棄若敝屣.
但是等到了PentiumII, Pentium3的時候因為Compiler技術進步, 開始發揮實力.

那麼GeForce FX也會有這一天的到來嗎?
只好等著看嘍.

-----
http://pc.watch.impress.co.jp/docs/...13/kaigai01.htm

第二篇比較有趣.
和3DLabs當初講OpenGL2.0的實作還不需要全面浮點話(P10), 第二年沒人說不需要浮點化一樣. 現在有人說24bit就成了, 明年也八成全部都當沒說過了....

倒是, 雖說已經做得到了.... 有人做了可以讓GeForceFX壓MPEG2的Shader了嗎? ^^a

明年的目標是Shader 3.0和PCI-Express 16x....

此文章於 2003-06-13 09:13 PM 被 Artx1 編輯.

2003-06-13, 08:51 PM #63

宗毛

Elite Member

加入日期: Mar 2002

您的住址: 台北市

文章: 4,505

引用:

Originally posted by Artx1
2. GeForceFX 5800 Ultra的主要發熱量來源來自2.5v DDR2.
這部分非常值得注意.
因為samsung沒有能夠設計出真正合於當初DDR2設計目標的產品,
於是本來計畫使用1.8v的DDR2變成2.5v, 發熱量從本來計畫中的稍降尚可,
變成現有產品的延伸, 成為無法接受的超高熱量. 光工作維持熱量就48W, 還沒加上IO部分的熱量.
整個產品1/2以上的熱量來自八顆DDR2本身, 只能說NV3x最大的敗筆就是在採用了不夠成熟的DDR2.
這部分來自GZeasy的cho桑實測時的經驗.
(前後恕刪

)
[/B]

這裡有一個問題想問一下@@"
就是剛剛查了好久要找9800p 256mb和5800ultra用的ram到底是什麼
發現兩個是差不多的耶

9800pro 256mb：
Samsung K4N26323AE-GC22

5800ultra 256mb：
Samsung K4N26323AE-GC1K
Samsung K4N26323AE-GC20

從下面的規格查的
http://www.samsung.com/Products/Sem...DRAM_200305.pdf

都是2.5v的DDR SGRAM II，FBGA
差別只有在時脈5800u用的是500MHz(而且就跑這個頻率)
9800p用的是450MHz(但是只跑350)
ati把這個ddr2拿來降頻跑所以不至於那麼熱?(有降壓嗎?)

昨天又看到美光GDDR3的新聞
現在DDR2有如您所言"真正合於當初DDR2設計目標的產品"了嗎?

附帶一問一個笨問題

SGRAM和SDRAM的差別到底在那裡?
上次看到一篇討論最後只有講到已經沒有太大差別了，為何又要如此區分呢?

__________________

收到…那我就不去上課了……

GeForce3新舊Driver測試(有差嗎?)
9800SE軟改簡單教學(Catalyst+RivaTuner)。私人收藏

Magnifier.tw
2003-10-26撼訊9800XT Preview2003-11-039700Pro/9800Pro/9800XT大集合!
2004-05-28ATi強力接棒者--Radeon X800Pro !2004-06-30DX9.0c帶給了GeForceFX什麼影響?(Far Cry)
2005-01-15X800XL現身─ATI中/高階新戰將！2005-02-17剪不斷、理還亂─『CPU＆顯示卡』前世今生徹底解析！
2005-06-30[G70系列之1]7800GTX真的非『最高階』CPU不可嗎？
more......

2003-06-13, 09:52 PM #64

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

引用:

Originally posted by 宗毛
差別只有在時脈5800u用的是500MHz(而且就跑這個頻率)
9800p用的是450MHz(但是只跑350)
ati把這個ddr2拿來降頻跑所以不至於那麼熱?(有降壓嗎?)

昨天又看到美光GDDR3的新聞
現在DDR2有如您所言"真正合於當初DDR2設計目標的產品"了嗎?

附帶一問一個笨問題
SGRAM和SDRAM的差別到底在那裡?
上次看到一篇討論最後只有講到已經沒有太大差別了，為何又要如此區分呢?

沒搞錯的話應該是沒降壓, 因為真的降壓的話只怕沒辦法運作, 根本是一樣的東西.
而且DDR2當初規格制定的時候是打算跑1.8v的, 這和現在的2.5v可真的是頗大的差距.
(根本和DDR1沒兩樣....= =b)
GDDR3則把buster langth加到8cycle去了. 這能進一步加大頻寬利用效率; 其餘的大部分是電氣特性上的改進.

另, 如果9800Pro2真的讓RAM跑到450MHz的話, 只怕我們會看到 ATi 版的發火怪物.(汗)

----
SGRAM....我現在是不知道有啥差異了啦.... ^^a

2003-06-13, 10:12 PM #65

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

我們來引點文章吧.

引用:

這裡就先談談 JEDEC SDRAM 一些「基本觀念」。其實無論是 SDR SDRAM、DDR SDRAM 以及 DDR II，基本架構都是不變的。

首先，就是 "prefetch" 這個觀念。在過去的 DRAM 設計中，prefetch 為何會被導入？主因就是希望搭配 prefetch 以及 multiple internal bank，可以允許讓 DRAM cell 以比外部為低的時脈運作，在輸出的時候透過多組 output buffer進行 interleave 以達成較內部DRAM array 數倍的時脈輸出資料；換句話說，電力消耗和雜訊都可以因此減少，這個因素在實作 burst 存取時更是重要。

那麼 SDRAM 是怎樣的情況？在 JEDEC 的定義中，有一個很有名的 "2n rule"，它包含了兩個要素：(這裡必須注意一點，如果 SDRAM 本身可以進行 back-to-back CAS access，2n rule 本身就沒有重要性，pipelined address lockahead 這裡暫時不提。)

第一、2bit 的 prefetch buffer。

第二、column address to column address 的 cycle 數為 2 cycle，如果讀寫的command 是在奇數或偶數 cycle 被發出，那麼新的 column address 就在其對應的奇偶數 cycle 出現。就某種意義而言，這就代表 JEDEC SDRAM 的 DRAM array 是以外部 I/O 的一半時脈在運作的。

DDR SDRAM 又是怎麼一回事呢？很簡單，把 SDRAM 中原本 2 cycle 的 CAS-to-CAS縮成 1 cycle、也就是讓 DRAM array 跑 "full speed"，不就得了？當然，實際上電路的修改是省不了的，最起碼除了必須以 differential clock 去取代原本的 single clock 外，也必須增加額外的 delay lock loop 去對齊資料輸出與輸入 DRAM 的時脈。

如果 prefetch 的寬度越寬，越可以確保越快速的未中斷資料流，這對於「隱藏」因為precharge、RAS/CAS 等所造成的 latency、達成高度的運作管線化非常的有幫助。

但是為何我們不一口氣做到 8n、16n 甚至 32n 呢？prefetch buffer 寬度的增加意味著更多數量的 output register，這些都會增加晶片的面積；另一個隱而不現的就是 bank 數目的增加，也會降低晶片的電路密度，也等於增加晶片的面積。另外，如果碰到內部資料發生 thrashing 所造成的隨機定址，也會增加額外的耗電。

這裡就可以明白為何早期的 DRAM 多半都是以 2bit prefetch 為主，這樣子也就可以了解 DDR II 的原理了：它只是將 2n rule 改成 4n rule 罷了；同理可證，DDR II 起碼需要四組 internal bank (JEDEC 官方規格是固定在 4 bank) 以及 4bit 的 prefetch buffer。

除此之外，DDR II 還有一些地方和 DDR 不太相同，除了 command bus 是 DRAM array 的兩倍時脈外，為了有效提高 command bus 的利用率，中斷類型的 command 皆被取消、read latency 僅比 write latency 多出一個 cycle、posted CAS 等等，這些多少可以提升整體有效頻寬比例。不過就整體來看，DDR II 普遍在 CAS latency 遠長於 SDR/DDR SDRAM，這部份落後後者應該是跑不掉的，雖然應該有很多技巧可以利用。

為什麼 NV30 的性能不太可能大幅領先 R300？這點絕對是很關鍵性的因素。Samsung 的 K4N26323AE-GC 在 500MHz 下竟然有著驚人的 7 "clock" CAS latency，理論頻寬也比 R300 小一截。也許 NV30 本身可以倚賴「效率」來彌補這段差距，但是就算足以扯平，可以領先的幅度恐怕也不會太大，這裡更不提 ATi 如果拉高 R300 時脈、在沒有使用 FSAA 後的結果。

(by Waterball)

2003-06-13, 10:27 PM #66

宗毛

Elite Member

加入日期: Mar 2002

您的住址: 台北市

文章: 4,505

引用:

Originally posted by Artx1
沒搞錯的話應該是沒降壓, 因為真的降壓的話只怕沒辦法運作, 根本是一樣的東西.
而且DDR2當初規格制定的時候是打算跑1.8v的, 這和現在的2.5v可真的是頗大的差距.
(根本和DDR1沒兩樣....= =b)
GDDR3則把buster langth加到8cycle去了. 這能進一步加大頻寬利用效率; 其餘的大部分是電氣特性上的改進.

另, 如果9800Pro2真的讓RAM跑到450MHz的話, 只怕我們會看到 ATi 版的發火怪物.(汗)

----
SGRAM....我現在是不知道有啥差異了啦.... ^^a

嘿嘿，您可能也知道吧，我剛剛問了一下GOOGLE大大(www.google.com

)
他說主要是差在Block Write 和Masked Write 兩個功能
http://www.geocities.com/Tokyo/Towers/6851/sgram.htm
http://www.vis.com.tw/vis/News.nsf/...f7?OpenDocument
http://www.8nana.com.tw/aes/lessons...ry_Support.html

我也找到上次的討論串了
http://bbs.gzeasy.com/index.php?act...=24170&hl=sgram
DrowTerran說：

引用:

sgram支持block write把
不过geforce以后的nv显卡都不支持block write了
所以没啥用,可能是质量好一点
ati就不清楚了

這邊還有個有關BlockWrite的神祕事件
http://bbs.gzeasy.com/index.php?act=ST&f=1&t=25686

喔喔，我搞胡塗了

__________________

2003-06-14, 12:06 AM #67

宗毛

Elite Member

加入日期: Mar 2002

您的住址: 台北市

文章: 4,505

引用:

Originally posted by Artx1
^^a
我也是有印象看過block write在GeForce256開始就沒有使用了, 所以我不知道現在差在哪裡....
但是我倒是沒看過"去打開block write"這個功能的嘗試....^^a

謝謝您那篇ddr/ddr2運作原理的文章

唉唉，記憶體的實際運作細節真的是一知半解呀

不過不知道9800p在用Samsung K4N26323AE-GC22的時候有沒有把CAS latency調小
(這個bios做得到嗎?)
因為從測試數據上看來，256mb ddr2的時脈略高為350，128mb ddr為340
但是表現幾乎完全一樣
(或者是較高延遲時間的影響就是350MHZ和340MHz間的時脈差距約3%?)
--
嘿嘿，扯到ddr2真的是有點扯遠了

__________________

2003-06-14, 02:27 AM #69

orinsinal

Master Member

加入日期: Feb 2002

您的住址: Taipei

文章: 1,611

引用:

Originally posted by 宗毛
謝謝您那篇ddr/ddr2運作原理的文章
唉唉，記憶體的實際運作細節真的是一知半解呀
不過不知道9800p在用Samsung K4N26323AE-GC22的時候有沒有把CAS latency調小
(這個bios做得到嗎?)
因為從測試數據上看來，256mb ddr2的時脈略高為350，128mb ddr為340
但是表現幾乎完全一樣
(或者是較高延遲時間的影響就是350MHZ和340MHz間的時脈差距約3%?)

這跟使用這種DDRII並不是如想像中這麼好有很大關聯
當初nv30利用GDDRII的慘狀，如今ATi是有好一些
但是很顯然地也碰到DDRII無法有效發揮在一般情況下能改進的效能

1600x1200?這種解析度是玩家玩的嗎?
用LCD的人頂多開到1280x1024，更何況外加這麼高倍取樣的AA/AF
評測性質其實是遠大過實際意義的

2003-06-14, 02:45 AM #70