PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   系統組件 (https://www.pcdvd.com.tw/forumdisplay.php?f=19)
-   -   Intel下代Skylake時脈不高,但性能將會有明顯提升 (https://www.pcdvd.com.tw/showthread.php?t=1074202)

flatmode 2015-04-03 06:32 PM

引用:
作者nanri
instruction decoder,其實這部分之前的CPU就做得夠多了,
例如指令預解碼,
甚至是到了P4那階段,還用uOps cache來存之前解碼過的產生的uOps,
ALU的執行速度還是時脈的兩倍呢,
只不過單核效能還是上不去。


netburst之所以上不去除了pipeline太長外, 重要的是它並不是super scalar!! 只有一個issue port與一條20~31 stage pipeline(C2D開始一直是四條 12 stage pipeline除了短而有效率外 因issuer多而容錯率高也是重點), 可笑的是連個decoder都沒有! 一切instruction都塞給sequencer去解operand效率多好才怪更不用說這種實做方式超操branch prediction 也就是因為只有一條pipeline一旦出錯就GG了 而trace cache也算是這種設計的fail save 不過不像砂橋的uops cache那樣可以存取所有coding, trace cache的實作是有條件的也就是只能存取與上一個micro op有關聯的code 事後把好不容易取來的micro op照順序排列等下次不用解直接用 可是一旦遇到非data dependency就完了 一切重頭來. 之後的pipeline stall也是意料之中 這也是為什麼i社盡量鼓勵compiler使用simd來實作的原因 另外netburst並沒有真正意義的OoOE. 整個back end 就只有一堆shift register 跟 physical register file. 沒有OoOe 所必須要有的scheduler quote, reservation station, 以及能夠不按順序存取的 reorder buffer. 而physical register file能做的也只剩renaming而已 能夠把一直僅存於 out of order execution中的register renaming獨立出來也算是奇蹟



引用:
作者nanri
x86先天有很多eax,[記憶體位址]指令,
一旦執行到該指令,就卡,
就算解碼階段能避開,甚至是遇到要搬記憶體資料的指令就先跳過做別的(oooe),
不過還是卡卡卡,最終還是得要把記憶體頻寬加得很大,
既然這樣,再多的issue,再好的scheduler,也是沒用。


x86先天上太過於依賴accumulator這個stack machine時代遺留的余毒 之前老外也談到這個問題而結論只能在long mode/flat mode/abi x32上解決對accumulator的依賴 但是長久之計便是要改寫整個isa來解決其根本問題 畢竟x86在long mode 下仍然有 register starve問題 增加register也只能算是必要之惡

引用:
作者nanri
工程的東西,
其實極限就在那邊,
有些東西,你在設計圖上面畫得很爽、很漂亮、功能很好很完美,
可是在實際製作上,得要考慮到現有材料的特性到哪,
想要超越這個極限,就得要改用別的材料,
這時成本又不同了,甚至是找不到這種材料來做;
甚至是你畫得出來,製作過程根本會無法施工,
只能改設計,改一改原本的功能...


是因為IA32太過沒效率了才會用暴力硬上 基本上你絕對看不到有哪一個isa會比ia32更燒錢而且更疊床架屋. 雖然x64解決了些386一直以來的問題 但是效率還是很不好

kuliu 2015-04-07 09:51 AM

內顯可能有提升
但單核skylake效能應該提升不了多少
i系列 234代效能可視為相等

Stonehendge 2015-04-07 11:36 AM

引用:
作者firmware
基本上這些我大三上修完CO就知道了....難不成AMD那邊的神人會不知道嗎 ?
工程類 (不只電資類) 很多東西都是 : 大家都知道, 連落後國家都知道, 但實作不出來, 或是實作出來很不理想...
要去實作的時候, 才會發現會需要更多的周邊知識/背景知識...一個小小的例子 : CPU clock這麼快, 快到都可以看成 distributed circuit 了, 這時候又變成電磁學了....Orz
ps : 題外話, 以前我還是大學生的時候, 也對A/I的CPU運作超有興趣, 超愛在論壇上閱讀/談論這些內容...
後來碩班修了一些VLSI相關的課程後, 才發現自己連 "教科書的課後習題" 都寫得很辛苦了, 那更別說要去實作這種 : 全地球只有5間公司能做出來的東西了...
, 自此認清這是神人領域, 凡人庸才根本不可能觸及...


電資類學生通常會修個HDL/ASIC design之類的課程
然候作業大多是交個簡單8051 or 早期Sunspark or 早期MIPS之類的簡單的uARC來交交作業
其複雜度完全跟現代的高性能的uARC完全不能比
(更何況大部份人大概都是跟學長借code來"參考"--->照本宣科 :laugh: )

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事 :D
(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能..... :stupefy: )

從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化

事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)

flatmode 2015-04-10 06:01 AM

引用:
作者Stonehendge

隨便談談架構說要增強frontend/增強backend/增強memory subsystem/blahblah...etc,畫畫看起來漂亮又強的block diagram,用嘴巴說說都很簡單
實際上要實作出來且實際性能要高,那完全是另一回事 :D
(看看X-gene,還沒出時規格跟block diagram"看起來"超強,一堆人期待,結果實作出來第一代的效能..... :stupefy: )


x-gene基本上是沒有跳脫embedded思維下的產品所以效能上並不意外 至少同期的cyclone還比較有誠意些 至於snapdragon, krait空有OoOe在單緒上還拼輸只有in order的45nm bonnell atom就只能拉時脈+堆核心數在ad/ppt上騙騙消費者罷了.

引用:
作者Stonehendge
從90年代後期一堆RISC陣營百家爭鳴要跟intel對抗,到現在只剩下IBM/intel/AMD
(加個有企圖心進軍low-power server的ARM)
連IBM也放棄跟intel拼single thread performance了,Power 8改走超高TLP路線,每core8個thread,要靠compiler去做最佳化


90年代risc在於各公司政策錯誤並且沒有建立工業標準, complier,binary互不相容且各架構雖然都是reduced instruction但是差異極大甚至大過68k跟x86的差異 光是以上就玩死一堆program developer更不用說流入消費市場了. i社還沒動手他們就已經玩死自己了. 而且x86在risc誕生前已經幹掉不少對手了(6502/z80/transputer/68000)如果當年conventional risc作的起來像今天arm的話或許x86會更進化也說不定.

引用:
作者Stonehendge
事實就是:全世界能玩高性能CPU微架構的就是那圈子裡的一小群人
Intel花大錢維持2個團隊(Oregan+Haifa)不是沒原因的,沒這些人每天繳盡腦汁,那能有每個Tick或Tock給你%5~10%的single-thread performance進步
(intel至少很誠實會告訴你每世代要加個5%性能是多麼困難的事)
Apple也當初挖PA-RISC團隊來兜A7/A8(這團隊更早之前就是幫AMD設計K8 uARC的人,被內鬥完後離職跑去玩PA-RISC,後來又跳Apple)


事實上扣除itanium(Pennsylvania ), xeon phi "larrabee"(new york), quark(santa slara, 原本是xscale團隊)三個團隊外 主要團隊有:

austin(pentium p54, p54c, netburst willamette, teja, tulsa, bonnell, silvermont, baytrail)

hifa(pentium p5, p55c, pentium II klamath, deschute, P3 coppermine, tualatin timna, pentium m bania, dothan, core 2 conroe, wolfdale, sandy bridge, skylake)

oregon(386, 486, 486dx2, 486dx4, pentium pro "p6", pentium III katmai, netnurst northwood, prescott, paxvile, dunnington, nehalem, westmere haswell, broadwell)

基本oregon團隊是專職server solution所以並不只望在他們的consumer cpu有效能上的大躍進而他們的專長是修改i/o跟integration, add new instruction set在legacy code效能上沒有幫助是一定的 能在ipc上增長5%對這個團隊已經算是奇蹟了. austin近幾年來專注在mobile所以主流cpu也看不到他們的作品 所以i社目前能期待的只有hifa了

alucardlin 2015-04-10 10:23 PM

引用:
作者kuliu
內顯可能有提升
但單核skylake效能應該提升不了多少
i系列 234代效能可視為相等


同頻性能提升不小
skylake 4c8t 2.6G 性能等同 E3-1230V3

jjh80 2015-04-11 09:24 AM

陰特噁最強科技>> 凍結 過熱 高溫 usb缺陷

limit555 2015-04-11 11:43 AM

拿出來亮相才知道吧


速度哪有已經夠用了?

至少讓我載入遊戲不要等那麼久

Reich 唐 2015-04-12 08:37 PM

引用:
作者alucardlin
同頻性能提升不小
skylake 4c8t 2.6G 性能等同 E3-1230V3

如果真的是這樣,就看超頻性如何了,何時能室溫5GHz up啊...

從2011年等到2016年,別再讓人失望啦... :laugh:


zergqq 2015-04-12 10:33 PM

intel的avx-512蠻強的,有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改

flatmode 2015-04-13 02:24 PM

引用:
作者Reich 唐
如果真的是這樣,就看超頻性如何了,何時能室溫5GHz up啊...

從2011年等到2016年,別再讓人失望啦... :laugh:

http://i.imgur.com/cB6fGyY.jpg


netburst跟bonnell die shrink到22nm理論上能超到10ghz 但是你要嗎?? 如果2ghz能幹掉5ghz為何要選時脈高的cpu? cpu就是因為效率變好而不用太多cycle就能處理 cpu越爛才需要衝高時脈!!

引用:
作者zergqq
intel的avx-512蠻強的,有32個512bit reg,evex prefix又增加到4byte,看起來架構有確實大改


聽說x86-64也會大改加入更多integer register(16 to 32)


所有的時間均為GMT +8。 現在的時間是01:07 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。