決戰(zhàn)性能之巔!NV雙芯旗艦GTX590評(píng)測(cè)
從HD4000時(shí)代開(kāi)始,AMD改進(jìn)ROP單元設(shè)計(jì)之后抗鋸齒效能大增,在標(biāo)準(zhǔn)的4xMSAA模式下已經(jīng)與N卡不相上下,而在最高的8xMSAA模式下大幅領(lǐng)先于N卡。NVIDIA雖然提供了比較巧妙的高精度CSAA模式,但畫(huà)質(zhì)方面還是比不上正統(tǒng)的MSAA,基于8xMSAA的更高級(jí)別8xQ AA與16xQ AA也毫無(wú)用武之地,因?yàn)镹卡的8xMSAA效能偏低。
為了一雪前恥,NVIDIA在GF100當(dāng)中重新設(shè)計(jì)了ROP單元(后端渲染單元,俗稱光柵單元)。主要是大幅提升了數(shù)據(jù)吞吐量與效率,上頁(yè)介紹過(guò)GF100的L2已經(jīng)不再與ROP及顯存控制器綁定在一起,而且是全局共享的,因此存取效能與帶寬大幅提升。
9.7 光柵單元與32倍抗鋸齒
GF100的每個(gè)ROPs包括8個(gè)ROP單元,比GT200翻了一倍。這8個(gè)ROP單元可在一個(gè)時(shí)鐘周期類(lèi)輸出8個(gè)32bit整數(shù)像素、4個(gè)16bit浮點(diǎn)像素或2個(gè)32bit浮點(diǎn)像素。原子指令性能也得到了大幅提升,相同地址的原子操作執(zhí)行速度最高可達(dá)GT200的20倍,鄰近存儲(chǔ)區(qū)的操作執(zhí)行速度最高可達(dá)7.5倍。
在GF100上,由于壓縮效率的提升以及更多ROP單元能夠更有效地渲染這些無(wú)法被壓縮的較小基元,因此8倍速多重采樣抗鋸齒(8xMSAA)的性能得到了大幅提升。
在上代架構(gòu)中,由于ROP資源有限,在進(jìn)行高倍抗鋸齒采樣的同時(shí)還執(zhí)行渲染后端處理任務(wù)時(shí)(如SSAO、運(yùn)動(dòng)模糊、景深等),效率會(huì)非常低下。典型的比如《鷹擊長(zhǎng)空》、《晴空》等等。
GF100不僅ROP資源非常豐富,而且可以在DirectCompute 11的幫助下減輕ROP部分的負(fù)載,提高執(zhí)行效率,此時(shí)開(kāi)啟高倍抗鋸齒就沒(méi)什么壓力了。
● 將CSAA精度提升至32倍,并優(yōu)化算法實(shí)現(xiàn)更高畫(huà)質(zhì)
解決了8xMSAA效率抵消的問(wèn)題之后,NVIDIA在此基礎(chǔ)上更上一層樓,開(kāi)放了更高級(jí)別的32x CSAA抗鋸齒模式,上代精品只能提供16xQ CSAA而且實(shí)用性并不高。同時(shí)新的抗鋸齒模式還優(yōu)化了“透明覆蓋”(Alpha-to-Coverage)采樣的算法,實(shí)現(xiàn)更高的畫(huà)質(zhì):
受到API與GPU計(jì)算能力的限制,當(dāng)今的游戲能夠渲染的幾何圖形數(shù)量還很有限。樹(shù)葉的渲染是一個(gè)尤其突出的難題。針對(duì)葉子的一種常用技術(shù)就是創(chuàng)建一個(gè)包含許多樹(shù)葉的透明紋理模版,利用“透明覆蓋”來(lái)除去樹(shù)葉之間的縫隙。覆蓋采樣的數(shù)量決定了邊緣的畫(huà)質(zhì)。如果只有四個(gè)覆蓋或八個(gè)采樣,那么將會(huì)出現(xiàn)非常糟糕的鋸齒以及鑲邊現(xiàn)象,尤其是在紋理靠近屏幕的時(shí)候。采用32倍速覆蓋采樣抗鋸齒(CSAA),GPU共有32個(gè)覆蓋采樣,從而最大限度減少了鑲邊效果。
32x CSAA相比8x MSAA性能損失并不大,非常值得一試
透明多重采樣(TMAA)也能夠從CSAA中獲益匪淺。由于“透明覆蓋”不在DirectX 9 API當(dāng)中,所以DirectX 9游戲無(wú)法直接使用“透明至覆蓋”。而TMAA恰恰對(duì)這樣的游戲有所幫助。取而代之的是,它們采用了一種叫做“透明測(cè)試”的技術(shù),該技術(shù)能夠?yàn)橥该骷y理產(chǎn)生硬邊緣。TMAA能夠轉(zhuǎn)換DirectX 9應(yīng)用程序中舊的著色器代碼,使其能夠使用“透明覆蓋”。而“透明覆蓋”與CSAA相結(jié)合,能夠生成大幅提升的圖像質(zhì)量。
關(guān)注我們
