AMD推土機架構:整數性能比同頻率的Phenom II X4高出10-35％

playgamefun

Power Member

加入日期: Oct 2004

文章: 594

AMD推土機架構:整數性能比同頻率的Phenom II X4高出10-35％

來源:
http://news.mydrivers.com/1/150/150209.htm
Intel Nehalem架構支持單核心雙線程，而AMD推土機架構則頗有點兒反其道而行之的意思，將每兩個核心捆綁在一塊兒，稱之為一個「推土機模塊」(Bulldozer Module)，讓其中著兩個核心既有各自獨立的執行管線、整數調度器和一級緩存，也有共享的預取和解碼單元、浮點調度器(和兩個128-bit FMAC乘法累加單元)、二級緩存。
Intel在Core/Nehalem微架構中使用一個統一調度器處理所有指令，不管是整數的還是浮點的，而AMD推土機架構將它們獨立開來。AMD表示，每個推土機模塊都有一個浮點調度器，輔以兩個128-bit FMAC，而分配給核心的每個線程都可以使用任意一個FMAC單元；如果一個線程是純整數的，另一個就可以將所有浮點執行資源據為己有。
另外AMD相信，常規服務器工作負載量中有80％都是純整數操作，所以才給每個推土機模塊配備了兩個整數調度器，每個核心一個。

Intel的超線程技術讓處理器核心面積增加了不到5％，可帶來最多30％的性能提升，其中浮點7％、整數13％，當然實際應用中差異很大。
AMD推土機模塊使用兩個整數核心增加的核心面積則有50％左右，但AMD表示這在線程代碼上獲得的性能提升最多能有80％。當然，不要指望新架構就能帶來翻天覆地的變化。根據路線圖，「贊比西河」(Zambezi)會有四核心和八核心版本(雙模塊和四模塊)，其中四核心的整數性能大約比頻率類似的Phenom II X4高出10-35％，八核心的將成為一個線程怪獸。

文中提到多增加一個整數核心die size才增加50%，有可能四核心推土機die size比Athlon II X4更小，只有Athlon X4的75%左右，體積更小效能卻更高。

此文章於 2009-12-01 11:01 PM 被 playgamefun 編輯.

2009-12-01, 10:53 PM #1

大埤鄉[鄉民]

*停權中*

加入日期: Apr 2009

您的住址: 呆丸

文章: 372

也就是說整數單元兩個控制器兩個，浮點運算單元兩個，但是控制器一個

就因為AMD相信整數單元的應用遠比浮點運算單元多

感覺像閹割版的核心一樣...

這樣如果需要大量浮點運算，那推土機不就效能更差

就因為只有一個控制單元

就我的印象INTEL的超線程好像是兩個CU對上一個ALU

那AMD這個又是什麼...怪怪的

2009-12-02, 12:15 AM #3

jior Power Member 加入日期: May 2004 文章: 609	這樣算是反向的讓CPU多工嗎? 還是以後狀況越演越烈,會變的像GPU的多SP狀況 __________________ rev.VII AMD Ryzen 9 3900x\|ASUS Strix X570-i\|Micron Ballistix Sport LT DDR4-3733 16Gx2 \|GIGABYTE GTX1080 TURBO OC 03 USD\|NuForce DAC-9 192K\|Plinius 9100\|ELAC BS312\|LG 49UM7300 Abee RS01\|be quite! Dark Rock TF\| Corsair SF-600 DasKeyBoard
2009-12-02, 02:13 AM #4

dabochi

*停權中*

加入日期: Nov 2002

您的住址: 東湖

文章: 1,688

設計看起來很像Sun的UltraSPARC T1(Niagara) 同樣是以伺服器應用為出發點來設計的架構
不過看到這有兩個疑問:
1.Sun到了UltraSPARC RK(Rock)之後還是回復走標準的1ALU-1FPU
理由是Database應用上還是很吃浮點推土機接下來會不會也因為同樣的考慮而如是做?
還是說會學IBM的M/F架構利用多晶片封裝把協處理器包進去?

2.既然都明講是for server 那普羅大眾領域用起來會不會跟Barcelona一樣悽慘?

2009-12-02, 02:25 AM #5

ProtoZohar

Master Member

加入日期: May 2009

文章: 2,405

引用:

作者ExtremeTech

那請教一下

砂石車的主機板有啥功能?

之前好像有說還是AM3

所以功能和現在差異應該是不大吧

__________________
眞子内親王　　　　　　　　　　　　　　　　　　　綠壩娘

2009-12-02, 03:42 AM #6

blair

Elite Member

加入日期: Jun 2001

您的住址: 地球

文章: 6,234

不曉得爲什麼，通常當CPU效能落後對手的時候，
落後方就會在整數上做文章，而領先方通常都浮點強大。
K5 vs Pentium
K6 vs Pentium II
K7 vs PIII,P4
K8 vs P4 family
K8 vs Core 2 duo
K8L,K10 vs Core 2 duo....

除AI的對抗外，其他處理器如全美達，VIA，blahblahblah...也常會聽到「雖浮點較弱，但整數強大」等等等....的說辭
有沒高人知道為啥?

__________________
~愛由一個笑容開始，用一個吻來成長，用一滴眼淚來結束。
當你出生時你一個人在哭，而所有在旁的在笑，因此請活出你的生命，
當你死的時候，圍繞你的人在哭而你便是唯一在笑。~

此文章於 2009-12-02 11:49 PM 被 blair 編輯.

2009-12-02, 11:45 PM #8

playgamefun

Power Member

加入日期: Oct 2004

文章: 594

轉貼AMDzone的文章，AMD有提到將SSE&AVX丟給GPU運算的計畫，還不確定會在Bulldozer上實作?!
- Bulldozer will have improved single-thread performance than today's processors
- He seems to imply that at some point SIMD instructions may be offload to GPU, but it'll be the (post-2011) future era
- Larger cache, higher memory integration (stacked memory) are being considered for the future era
- Each Bulldozer module is an optimized dual core
- Each Bulldozer "core" is capable of 2 loads/cycle; each is a 4-way out-of-order machine
- Bulldozer module is not bigger in area than Intel's hyperthreading design
- Bulldozer module can achieve ~80% speedup when running 2 threads (versus ~25% from hyperthreading)
- Multiple Bulldozer modules can share the L2 cache; and multiple of those (module? L2?) can share the L3 and NB
- Each INT scheduler can issue 4 inst./cycle; the FP scheduler can issue 4 inst./cycle
- "Over time" a Bulldozer "core" (INT only?) can be deployed in APU to work with GPGPU (for FP?)
來源:
http://www.amdzone.com/phpbb3/viewt...p?f=52&t=137076
http://phx.corporate-ir.net/phoenix...eventID=2457769

2009-12-04, 11:08 PM #10

KenCheng 停權中加入日期: Sep 2000 您的住址: TW 文章: 305	也許浮點數是想交給GPU來做吧! 要是真的的話 intel的CPU浮點數運算應該很難趕得上GPU的速度吧
2009-12-03, 12:31 AM #9