Club ATI Radeon HD2900 PRO 512 Mb

La progettazione del R600 Ã¨ iniziata nel 2003 in contemporanea con lo sviluppo della GPU Xenos di X-BOX 360 da cui eredita molte interessanti caratteristiche e ne estende notevolmente le capacitÃ .

Lâ€™architettura di R600 Ã¨ unificata, completamente basata su thread con bilanciamento automatico del carico sulle varie unitÃ di shader, rispettando in pieno le specifiche DirectX Shader Model 4.0. Lâ€™uso degli shader core permette di generare un alto throughput dalle ALU in abbinamento con basse latenze di accesso alla memoria.

Le unitÃ principali di R600 sono il Command Processor, il Setup Engine, lâ€™Ultra Threaded Dispatch e le Stream Processing Units.

Club ATI Radeon HD2900 PRO 512 Mb 1. Architettura R600 1

Schema a blocchi dell'architettura di R600

Command Processor

Ãˆ lâ€™unitÃ di elaborazione che si occupa di gestire le chiamate da parte del driver e indicare allâ€™hardware quali operazioni eseguire. Ãˆ anche compito del Command Processor di validare lo stato della GPU e modificarlo in base alle necessitÃ ; questa funzionalitÃ Ã¨ stata introdotta per seguire le specifiche DX10 che prevedono di delegare alla GPU questa operazione, riducendo lâ€™overhead indotto dalla stessa elaborazione eseguita via software dalla CPU. Le applicazioni DX9 possono a loro volta trarre vantaggio da questa nuova funzionalitÃ riducendo, secondo dati forniti da ATI, lâ€™overhead fino al 30%.

Setup Engine

Dopo la validazione dello stato e del codice da parte del Command processor, le istruzioni vengono passate al Setup Engine che si occupa di allocare le risorse (shader unit e spazio di memoria), i dati vengono organizzati per ottimizzare lâ€™accesso alla memoria inoltre i vertex sono preparati per essere inviati allâ€™unitÃ di â€œtassellazioneâ€ che si occupa di suddividere le immagini in modo da aumentare la qualitÃ finale e ridurre il carico di lavoro. Lâ€™unitÃ di tassellazione Ã¨ derivata da Xenos.

Al termine di questo processo, il Setup Engine assembla le instruzioni geometry e pixel sharder, discriminando quali parti della scena saranno visualizzate e quali no. Il risultato Ã¨ inviato al â€œUltra Threaded Dispatch Processorâ€.

Ultra Threaded Dispatch Processor

Lâ€™ Ultra Threaded Dispatch non Ã¨ altro che che lo scheduler di R600. Gestisce tre code separate per ognuno dei tre componenti grafici (vertex, geometry e shader) e permette di riorganizzare le istruzioni in modo da ridurre le latenze di accesso alla memoria. Per ogni shader cluster sono presenti due â€œArbiterâ€ e due â€œSequencerâ€ che rispettivamente decidono e sequenzializzano le operazioni da eseguire. Texture e Vertex beneficiano di unitÃ di elaborazione dedicati.

Club ATI Radeon HD2900 PRO 512 Mb 1. Architettura R600 2

Schema a blocchi del Ultra Threaded Dispatch Processor

Stream Processing Units

Allâ€™interno di R600 sono presenti 4 cluster da 16 shader units, ognuna delle quali puÃ² svolgere 5 operazioni contemporanee.

Le 5 ALU incluse in ogni shader unit non sono tutte uguali, la quinta infatti Ã¨ potenziata rispetto alle altre e puÃ² svolgere operazioni matematiche piÃ¹ complesse anche in modo indipendente rispetto alle altre 4. Se le istruzioni sono ordinate in modo opportuno, da parte del compilatore, a gruppi di 5, si puÃ² sfruttare tutta la potenza di R600 senza sprechi, altrimenti una sola delle 5 unitÃ di elaborazione sarÃ effettivamente attiva durante lâ€™elaborazione.

R600 puÃ² svolgere 5 istruzioni per ciclo di clock (64 Alu per ogni istruzione), invece G80 di Nvidia esegue una singola istruzione nelle 128 Alu disponibili.

Memory controller in R600

Il particolare memory controller denominato Ring Bus, era giÃ apparso in R520 e R580. In R600 Ã¨ stato ulteriormente migliorato. Il nome Ring Bus, deriva dalla sua struttura che ricorda un anello che congiunge GPU, bus PCI-e e memoria video in una rete totalmente distribuita. L'uscita (o l'ingresso) di dati in questo bus Ã¨ gestita dalla presenza di nodi all'interno di questa rete.

Club ATI Radeon HD2900 PRO 512 Mb 1. Architettura R600 3

Architettura Ring Bus

Il Ring Bus di R600 Ã¨ ampio 1024 bit, suddivisi in due componenti da 512 bit uno per la scrittura e l'altro per la lettura dei dati. I nodi di stop sono in corrispondenza di un doppio canale della memoria video, ciascuno dei quali ampio 64 bit, e del bus PCI-e. Quindi, complessivamente, ci sono quattro nodi di stop per quanto riguarda la memoria video e uno per il bus PCI-e. Al centro di questa struttura, troviamo infine il core di R600, che quindi Ã¨ in grado di dialogare con il bus di sistema e con il bus della memoria video tramite l'interposizione di questo anello.

Che tipo di problemi puÃ² compoprtare un tale approccio nei confronti, ad esempio, di una soluzione Crossbarr Switch adottata da G80? In primis, i dati che circolano nell'anello devono continuare a girare finchÃ¨ non trovano il giusto nodo di stop. Questo inevitabilmente puÃ² portare ad un aumento della latenza con cui una data istruzione viene immessa o viene letta da una cella di memoria video. Tuttavia dato il basso numero si stop e la quantitÃ di thread che uno stesso stop puÃ² gestire, il problema latenza non dovrebbe essere rilevante. In secondo luogo, questo tipo di anello Ã¨ decisamente piÃ¹ difficile da ottimizzare rispetto ad un tradizionale Crossbar Switch, per cui si corre il rischio che non tutta l'ampiezza di banda sia sfruttata a pieno.

R600: questione Antialiasing

Fin dall'uscita del R600, Ã¨ immediatamente emerso il notevole impatto sulle prestazioni dell'Antialiasing applicato alla scena renderizzata, se confrontato con le soluzioni nVidia.

La perdita di prestazioni Ã¨ da ricercarsi, essenzialmente, nella mancanza del circuito di resolve nelle rop's. Tale circuito normalmente si occupa di effettuare i calcoli di interpolazione per l'applicazione dei campioni dell'antialiasing alla scena visiva. L'assenza di questo componente porta l'R600 a caricare lo shader core di questo compito, cosÃ¬ facendo, nel rendering di una scena con l'antialiasing parte dello shader core risulta impegnato nelle operazioni sui vertex e sui pixel mentre un'altra parte Ã¨ occupata nei calcoli di interpolazione.

La scelta di AMD di eliminare questo circuito puÃ² essere stata decisa inseguito ad uno o piÃ¹ dei seguenti motivi:

Mancanza di spazio: R600 Ã¨ una gpu estremamente complessa, composta da oltre 700 milioni di transistor ad 80 nm, per cui la mancanza del circuito di resolve nelle rop's potrebbe essere imputata ad una precisa scelta progettuale dettata da delle difficoltÃ nell'implementazione nella gpu stessa.
VolontÃ di slegarsi dall'interpolazione lineare: Applicare l'antialiasing nelle rop's, significa applicarlo a "giochi fatti", ovvero a scena praticamente quasi giÃ renderizzata. Questo implica l'utilizzo del solo metodo di interpolazione lineare per il calcolo dei campioni. Facendo i calcoli a monte, R600 Ã¨ in grado di slegarsi da questo schema, potendo effettuare calcoli di interpolazione non lineare. Questo sarÃ molto utile in quei motori grafici che sfrutteranno l'antialiasing via shader (vedi Unreal 3 Engine).
Grande capacitÃ matematica di R600: Questa gpu presenta delle capacitÃ matematiche davvero notevoli che, che sotto alcuni aspetti si sono dimostrate maggiori di quelle del diretto concorrente nVidia. La scelta di affidare allo shader core i calcoli di interpolazione, potrebbe essere quindi figlia di questa capacitÃ matematica.

Probabilmente queste tre ipotesi sono tutte in parte vere. Solo con RV670 e seguenti si potrÃ capire se il sacrificio architetturale Ã¨ stato preponderante in questa scelta, infatti essendo costruito a 55 nm, ci sarÃ piÃ¹ spazio di manovra per i progettisti.