決戰(zhàn)性能之巔!NV雙芯旗艦GTX590評測
GF100的每個SM都擁有4個紋理單元,這樣整顆核心總共就是4x16=64個紋理單元,數(shù)量居然僅與G92處在同一水平。要知道GTX480被屏蔽了一組SM之后紋理單元只剩下60個,而自家上代GTX285和對手HD5870都擁有80個紋理單元。難道說NVIDIA認為DX11時代紋理貼圖并不重要,因此在擴充流處理器規(guī)模的同時忽略了紋理?
9.5 精兵簡政的紋理單元
GT200的流處理器與紋理
G92的流處理器與紋理
在以往的GT200架構(gòu)中,是三個SM共享一個紋理引擎,該引擎含有八個紋理定址單元和過濾單元。更早的G92則是兩個SM共享一個紋理引擎。
GF100的紋理單元確實是少了,但NVIDIA重新設(shè)計了紋理單元,通過改進效率來提升紋理性能,而不是以暴力擴充規(guī)模的方式實現(xiàn),因為NVIDIA發(fā)現(xiàn)龐大規(guī)模的紋理單元也存在瓶頸,而且會浪費很多晶體管。
GF100的每組SM內(nèi)部包含4個紋理單元
NVIDIA的方法聽起來很簡單,但做起來很復雜——就是將紋理單元從外圍模塊搬入到了SM之中,從而提升了紋理高速緩存的利用率、并達到了更高的時鐘頻率。道理就類似于AMD和Intel把內(nèi)存控制器整合在了CPU內(nèi)部,從而大幅提升了內(nèi)存帶寬和延遲。
我們知道,N卡的流處理器工作頻率非常高,達到了核心頻率的兩倍甚至更高,而其包括紋理單元、光柵單元及周邊控制模塊在內(nèi)的其它部分工作頻率比較低。現(xiàn)在NVIDIA將紋理單元轉(zhuǎn)移到了SM內(nèi)部之后,大幅提高了工作頻率,全新的一級緩存將以1200-1400MHz的全速運行,紋理單元雖然還是以半速工作但也受益匪淺。
在GF100架構(gòu)中,每個SM都擁有自己專用的紋理單元并共享一級紋理高速緩存,GF100專用的1級紋理高速緩存經(jīng)過重新設(shè)計,可實現(xiàn)更高的效率。而且,通過配備統(tǒng)一的2級高速緩存,紋理可用的最大高速緩存容量達到了GT200的三倍,為紋理密集的著色器提升了命中率。
每個紋理單元在一個時鐘周期內(nèi)能夠計算一個紋理地址并獲取四個紋理采樣。返回的結(jié)果可以是經(jīng)過過濾的也可以是未過濾的。支持的模式包括雙線性、三線性以及各向異性過濾模式。
而且,紋理單元的內(nèi)部架構(gòu)還得到了大幅增強。在陰影貼圖、屏幕空間環(huán)境光遮蔽等實際使用情況中,凈效應(yīng)就是所實現(xiàn)的紋理性能得到了大幅提升。
GF100的紋理單元還新增了對DirectX 11中BC6H與BC7紋理壓縮格式的支持,從而減少了HDR紋理與渲染器目標的存儲器占用。
紋理單元通過DirectX 11的Gather4特性,還支持抖動采樣。這樣一來,單一紋理指令就能夠從一個128×128的像素網(wǎng)格中獲取四個紋理像素。GF100在硬件上采用了DirectX 11四偏置點Gather4,大大加快了陰影貼圖、環(huán)境光遮蔽以及后期處理算法的速度。憑借抖動采樣,游戲就能夠高效地執(zhí)行更加平滑的軟陰影或定制紋理過濾器。
關(guān)注我們
