瀏覽單個文章
ChungWhaCanon
Senior Member
 
ChungWhaCanon的大頭照
 

加入日期: Mar 2004
您的住址: 長沙
文章: 1,365
AMD公佈Vega顯卡架構設計 5年來的GCN大改

消息來源
從2011年底首發HD 7970顯卡以來,AMD使用GCN架構已經有5年多時間了,同時針對圖形、計算雙重使命開發的GCN已經衍生出4代架構,時至今日依然是AMD顯卡的主流,在異步運算等設計上很有前瞻性,在DX12/Vulkan時代依然不落伍。儘管如此,AMD還是準備了新一代顯卡架構,昨晚正式公佈了Vega顯卡的架構設計,GCN架構將被NCU架構取代,不僅用上HBM2,還會使用新的HBC快取架構。


AMD發布新一代Vega的架構細節如下:
Vega顯卡新一代VRAM架構
Vega顯卡新一代幾何渲染管線
Vega顯卡新一代NCU單元
Vega顯卡新一代像素引擎

不過AMD還未公佈Vega顯卡的具體規格,包括串流處理器單元數量、核心頻率、記憶體頻率、效能水準、上市時間、售價等等。

Vega顯卡新一代記憶體架構
Vega顯卡為人熟知的一個特點就是HBM2,在2015年的Fiji核心上AMD使用了第一代的HBM記憶體,不過當時的Fiji架構並不是完全針對HBM開發,現在的Vega核心不同,AMD稱之為世界上最具並行性的GPU記憶體架構。


HBC快取,HBM2不僅僅是記憶體,AMD給的定義是高頻寬快取。


有關HBM2記憶體的優勢,相比HBM1代1Gbps的速率,HBM2的速率提升到2Gbps,這也是AMD宣稱2x頻寬/針腳的來源。


8倍密度,這是說HBM記憶體佔用的面積比GDDR5更低。


Techreport網站所曝光的Vega核心照片。


上面的示意圖,可以看到HBM2的配置方式跟Fury顯卡不同—AMD之前是每個GPU核心堆棧4顆HBM,現在的Vega則是堆棧2顆,TR網站曝光的Vega實物圖也證實了這個變化。這就解釋了AMD之前公佈的Vega顯卡在使用了速率雙倍的HBM2之後,頻寬為何是512GB/s,只跟第一代HBM顯卡相同。

HBM2容量更大,三星、SK Hynix都可以做到單顆容量4GB,Vega顯卡只要2顆就能實現8GB容量,容量上比Fury顯卡擴大一倍,但堆棧數量少了一半,導致等效頻寬從4096bit減少到2048bit,所以總頻寬一降一升之後並沒有變化,還是512GB/s。

512GB/s的顯卡頻寬在消費級產品依然是傲視群雄,比它高的是Tesla P100加速卡的720GB/s,但後者是針對高效能伺服器市場,價格與消費級不能相比。其次AMD這麼做顯然有助於降低成本,畢竟堆棧的HBM顆粒越少,製造難度也越低,成本也會更低。

HBCC快取主控


最高支援512TB虛擬尋址空間


自適應、細粒度數據遷移


Fallout4、Witcher3遊戲的實例,這兩款遊戲在分配的尋址空間要比實際佔用的高得多,大約是實際使用的2倍,浪費嚴重。原因與DX11 API效率低有關,但也跟傳統遊戲的使用方式有關。


Vega顯卡新一代幾何渲染管線
Vega顯卡第二個改進之處就是全新的可編輯幾何渲染管線,號稱每週期吞吐率提升一倍,並使用了新的原語渲染器,改善了載入均衡。




2倍的吞吐率


新的原語指令渲染器


改善了載入均衡


Vega顯卡新一代NCU單元
AMD顯卡的GCN架構已經使用4代了,也該是更新的時候,Vega顯卡上AMD使用了NCU(Next-Generation Compute Engine)架構,最佳化了IPC性能,提高了靈活性。


之前曝光的AMD NCU架構

AMD在這次的PPT中並沒有詳細介紹NUC架構的特點,不過之前有消息提到了NCU的改進之處—現有的GCN單元中每個CU計算單元是64個流處理器,實際上是由4組固定16-Wide的單元組成,而Vega顯卡的NCU架構中每組CU單元更具靈活性,可以根據工作負載來動態調配。

除了常規的FP32單精度、FP64雙精度之外,NCU還將支援8位元、16位元計算,性能還會雙倍甚至4倍成長,這點其實也不是秘密了,因為之前公佈的Radeon Instinct專業卡中MI25就是基於Vega顯卡的,其25TFLOPS的性能就是指FP16,FP32浮點性能是12.5TFLOPS。



NUC為更高的時脈頻率最佳化


AMD強調NCU是為更高的時脈頻率最佳化,顯然是在暗示Vega顯卡的頻率可以更高,目前的Polaris顯卡雖然也是14nm,不過GPU核心頻率在1.5GHz以內,這點比不上NVIDIA的Pascal顯卡,後者可以到1.8GHz以上,現在AMD也強調Vega顯卡為更高的時脈頻率及IPC性能最佳化,核心頻率也能跑的更高。

Vega顯卡新一代像素引擎


最後一部分改進就是新一代像素引擎了,目前傳統的架構中像素與紋理數據是非一致性的,新的像素引擎現在是後端與L2快取相連,這將會提高使用延遲渲染技術的應用性能,換句話說這個改進對VR渲染之類的應用程式很有價值。





--
結果煞有其事的倒數網頁給的還是PPT....AMD你還是先乾一瓶農藥吧!
     
      
__________________

Which one do you like to choose?
舊 2017-01-06, 04:53 PM #1
回應時引用此文章
ChungWhaCanon離線中