決戰(zhàn)性能之巔!NV雙芯旗艦GTX590評(píng)測(cè)
在競(jìng)爭(zhēng)對(duì)手還在游戲性能方面苦苦追趕之時(shí),NVIDIA已經(jīng)在朝著更高的目標(biāo)邁進(jìn)了。3D和游戲當(dāng)然是一個(gè)重要方面,是GPU的老本行,而并行計(jì)算則是GPU的未來(lái),兩者不但不沖突而且是相輔相成的,NVIDIA的目的是游戲和計(jì)算同步發(fā)展。
10.2 適合科學(xué)計(jì)算的Fermi架構(gòu)
在前文中筆者提到過(guò),GF100是近年來(lái)GPU架構(gòu)變化最大的一次,它不僅僅體現(xiàn)在圖形架構(gòu)方面,其實(shí)他在并行計(jì)算架構(gòu)方面的改進(jìn)更徹底,現(xiàn)在要講的才是Fermi架構(gòu)的精華部分。
G80是統(tǒng)一圖形及并行計(jì)算的雛形,而GT200是對(duì)G80在性能及功能性方面的擴(kuò)展。而對(duì)于Fermi,NVIDIA利用了從之前兩款處理器以及為它們所編寫的應(yīng)用程序所獲得的經(jīng)驗(yàn),并采用了一種全新的方法而設(shè)計(jì)和創(chuàng)建了世界上第一款計(jì)算GPU。在為Fermi的研發(fā)開展準(zhǔn)備工作時(shí),NVIDIA聽取了自推出G80和GT200以來(lái)大量從事GPU計(jì)算的用戶的反饋,并將以下關(guān)鍵領(lǐng)域作為改進(jìn)的重點(diǎn):
1. 提高雙精度浮點(diǎn)運(yùn)算的性能——高性能計(jì)算與科學(xué)計(jì)算很少用到單精度。
2. ECC支持——ECC使得GPU計(jì)算用戶在數(shù)據(jù)中心中可放心地部署大量的GPU,并確保數(shù)據(jù)敏感型應(yīng)用程序如醫(yī)學(xué)影像及財(cái)務(wù)期權(quán)定價(jià)等不出現(xiàn)內(nèi)存錯(cuò)誤。
3. 真正的緩存層次——有些并行算法無(wú)法使用GPU的共用存儲(chǔ)器,用戶需要一個(gè)真正的緩存架構(gòu)以提供幫助。
4. 更大的共用存儲(chǔ)空間——許多CUDA程序員需要超過(guò)16KB的共用存儲(chǔ)器來(lái)實(shí)現(xiàn)應(yīng)用程序的加速。
5. 更快速的情境轉(zhuǎn)換——用戶需要在應(yīng)用程序之間實(shí)現(xiàn)更快速的情境轉(zhuǎn)換,以及圖形與計(jì)算應(yīng)用之間更快的互操作。
6. 更快速的原子操作——用戶需要為他們的并行算法實(shí)現(xiàn)更快速的“讀-修改-寫”原子操作。
針對(duì)以上的這些需求,F(xiàn)ermi工作小組設(shè)計(jì)了一款處理器,總計(jì)算能力得到了很大的提升,通過(guò)架構(gòu)上的創(chuàng)新還大大增加了可編程性以及計(jì)算效率。Fermi在架構(gòu)上的亮點(diǎn)體現(xiàn)在:
● 第三代流處理器簇(SM)
每個(gè)SM有32個(gè)CUDA核,是GT200的4倍
雙精度浮點(diǎn)運(yùn)算的峰值性能是GT200的8倍
雙Warp調(diào)度器同時(shí)調(diào)度和分配來(lái)自兩個(gè)不同warp的指令
64KB的RAM,可配置為共享緩存+L1緩存
● 第二代并行線程執(zhí)行ISA
統(tǒng)一尋址空間,提供完全的C++支持
針對(duì)OpenCL和DirectCompute做優(yōu)化處理
完全的IEEE 754-2008 32-bit/64-bit精度支持
完全的32-bit整數(shù)路徑,64-bit擴(kuò)展
內(nèi)存存取指令支持向64-bit尋址的轉(zhuǎn)換
通過(guò)Predication提升性能
● 改進(jìn)的內(nèi)存子系統(tǒng)
并行DataCacheTM 層次,擁有可配置的L1和統(tǒng)一的L2緩存
第一款提供ECC內(nèi)存支持的GPU
顯著提升原子內(nèi)存操作性能
● NVIDIA TM引擎
應(yīng)用程序情境切換性能10倍于上代產(chǎn)品
同時(shí)執(zhí)行多個(gè)核心程序
線程塊亂序執(zhí)行
雙重疊式內(nèi)存?zhèn)鬏斠?/SPAN>
關(guān)注我們
