引用:
作者vampire
並沒有8組浮點運算這回事
4組永遠是4組
一對CPU同時只能有一個使用FPU
之所以被很多人誤解有8組
是因為類似SSE擴展指令集AVX 可以一次計算2組浮點數
一個CPU同時使用AVX計算2個浮點數 跟2個CPU可以個別計算一次浮點數
可是完完全全的不一樣
浮點運算器不可分割使用
我不瞭解你用的算法 不過如果使用了SSE擴展 或是改用VS2015編譯 對效能都是有幫助的
|
剛剛查了一下,編譯器本身不支援AVX(我用的語言是現在很冷門的delphi)
那就蠻奇怪的,如果還是一組,那代表FX8350的浮點運算器性能約為3470的160%
可是在原本單執行序的程式碼部分FX8350就是慢很多...
剛剛查了一下推土機架構的圖
http://www.anandtech.com/show/2881
裡面的內文
Behind the FP scheduler are two 128-bit wide FMACs. AMD says that each thread dispatched to the core can take one of the 128-bit FMACs or, if one thread is purely integer, the other can use all of the FP execution resources to itself.
模組中都在做浮點運算時每個核心都會拿到1個128bit FMAC來做運算
所以推土機系列的浮點數運算器算是能拆的?
引用:
作者anderson1127
能不能發揮硬體的性能,永遠取決於軟體本身及作業系統!!
樓主的案例是取決於軟體本身 , 用multi-thread可以增進執行效率 , 主因還是不能夠有
data dependency , 如果發生相依性,想快也會快不起來....
|
因為我的程式碼內沒有用synchronized...所以真的有data dependency,會算出一堆垃圾
