GPU GTX 200

Le GPU della serie GTX 200 sono prodotte da TSMC con tecnologia a 65 nm e sono composte da ben 1.4 miliardi di transistor . Le dimensioni sono ragguardevoli, ricordano da vicino la GPU G80 introdotta con le GeForce 8800 GTX, ma G80 era un processore grafico a 90 nm, è quindi facilmente intuibile come la complessità dell'architettura NVIDIA si cresciuta notevolmente.

GTX 200 è prodotto in due versioni GTX 280 e GTX 260, questi chip si differenziano per il differente numero di Processor Core, ROPs, Texture Filtering Units e interfaccia di memoria.


GPU

GTX 280

GTX 260

G92

Processo produttivo

65 nm

65 nm

65 nm

Numero di transistor

1,4 miliardi

1,4 miliardi

0,774 miliardi

Graphics Clock

602 Mhz

576 Mhz

675 Mhz

Processor Clock

1296 Mhz

1242 Mhz

1688 Mhz

Numero di Processor Core

240

192

128

Interfaccia di Memoria

512 bit

448 bit

256 bit

Frequenza Memoria

1107 Mhz / 2214 Mhz

999 Mhz / 1998 Mhz

1100 Mhz / 2200 Mhz

Bandwidth Memoria

141,7 GB/s

111,9 GB/s

70,4 GB/s

ROPs

32

28

16

Unità Texture Filtering

80

64

64

Texture Filtering Rate

48.2 GigaTexels/sec

36.9 GigaTexels/sec

43,2 GigaTexels/sec


GTX 200 supporta tre volte i threads gestibili dai suoi predecessori, migliora del 20 % la gestione delle texture e integra per la prima volta in una scheda video NVIDIA, un controller di memoria a 512 bit . A differenza di ATI, NVIDIA ha deciso di utilizzare le collaudate GDDR3 , riducendo il rischio di scarsa disponibilità delle memorie durante la produzione.

Le ROPs oltre ad essere raddoppiate rispetto al passato, ora lavorano alla stessa frequenza della GPU, nelle serie precedenti lavoravano a metà della frequenza. Al fine di migliorare ulteriormente il trasferimento delle texture dalla memoria alla GPU e viceversa, è stata inserita una t ecnologia di compressione delle stesse, che permette migliori prestazioni alle risoluzioni più alte, questa tecnologia è inserita anche nelle GeForce 9600 GT.


NVIDIA GeForce GTX 280 1. GPU GTX 200 1 

NVIDIA GeForce GTX 280 1. GPU GTX 200 2 





Graphics Processing Architecture e Parallel Computing Architecture



NVIDIA GeForce GTX 280 1. GPU GTX 200 3 

NVIDIA GeForce GTX 280 1. GPU GTX 200 4 

Nella modalità “grafica”, la scheda utilizza le strutture dati necessarie per l'accesso alle texture e agli altri elementi grafici necessari per comporre una scenda 3D.

Nella modalità “parallel computing” invece, esiste un unico gestore delle risorse e vengono attivate alcune unità specifiche per operare in modo atomico sulla memoria video, così da permettere operazioni più complesse.


Le schede video NVIDIA possono lavorare in due modalità operative; la prima è dedicata alle normali funzionalità video, abilitando infatti le unità di e laborazione geometrica , vertex e shader , è possibile utilizzare i Processor Core per elaborare immagini tridimensionali; attivando la modalità Parallel Computing invece, la scheda può eseguire codice “generico” e l'intera gestione dei vari Thread è demandata a Thread Sheduler, che alloca dinamicamente le risorse e i dati tra le varie unità di elaborazione. Al fine di ottimizzare l'accesso alla memoria, ogni blocco di 8 unità, può alternare i propri thread senza costi aggiuntivi (cambio di contesto, etc), infatti un thread può essere messo in pausa in attesa di dati dalla memoria, e successivamente riavviato; l'affinamento di questa tecnologia, ha permesso di sfruttare quasi sempre alla massima efficienza le unità di elaborazione.


CPU vs GPU


NVIDIA GeForce GTX 280 1. GPU GTX 200 5

NVIDIA GeForce GTX 280 1. GPU GTX 200 6

Architettura di una CPU Single Core

Architettura di una GPU NVIDIA con supporto CUDA


A differenza di una CPU, le GPU hanno ridotti quantitativi di CACHE (si parla di pochi KB ) è quindi necessario ridurre al massimo i “tempi morti” di caricamento dei dati; un'altra differenza sostanziale, è che in una GPU, i transistor sono per lo più utilizzati per svolgere calcoli; al contrario in una CPU, la maggior parte della circuiteria è dedicata alla gestione del sistema, alla predizione dei dati da elaborare e alla cache, che nella maggior parte dei processori moderni occupa più della metà del silicio disponibile.