一般都是看decoder之後那段來決定...過程不重要 結果是一切
Predecoder這段 查了很久確定到Skylake都是16B with 6 instruction
K8/K10 32B with 3 ins. Bulldozer 32B with 4 ins.
Streamroller有點不好說 32B但不清楚到底4還8 可信資料不足
而Zen應該是32B with 4 ins. 已經取過多也取不夠多 不知道decoder會不會改
simple decoder可能有專利?
fetch不是越多越好 而是要搭配cache跟scheuling
CPU是一個整體 pipeline上面要均衡
我認為Bulldozer當初做太多Predecoder這段 Steamroller增加decoder
很明顯就是取太多但是後面跟不上 才會這樣改
因為還需要其他搭配 例如Skylake有標明 那個數據是Win 10 x64下的結果
你沒用這個OS 沒用AVX是達不到相同IPC & Flops
AMD資料超難找
http://ieeexplore.ieee.org/xpl/logi...umber%3D6757357