1. Blackwell in pillole


L'architettura delle GPU NVIDIA Serie RTX 50, nota come 'Blackwell', rappresenta un'evoluzione dell'architettura Ada Lovelace delle RTX 40.

Blackwell ottimizza componenti chiave per gestire con maggiore efficienza e velocità i calcoli neurali e AI.

Il nuovo chip grafico GB202, prodotto con il processo TSMC a 5nm nella variante 4NP, rappresenta, in soldoni, un'evoluzione della tecnologia utilizzata nelle architetture precedenti come Ada Lovelace e Hopper.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 1 


La RTX 5090, la GPU più potente della serie, adotta il chip GB202: sebbene si tratti di una variante 'ridotta' rispetto al chip completo, le prestazioni di cui è capace sono ugualmente straordinarie.

Con una superficie di 750mm² e ben 92,2 miliardi di transistor, la RTX 5090 stabilisce un nuovo benchmark di potenza per le GPU NVIDIA, rappresentando un salto prestazionale significativo rispetto alle generazioni precedenti.

Questa nuova architettura è progettata per ottimizzare i carichi di lavoro neurali, ridurre il consumo di VRAM e migliorare l'efficienza energetica.

NVIDIA ha aggiornato gli RT Core alla 4ª generazione e i Tensor Core alla 5ª generazione, rendendo compatibili i calcoli in FP32 e INT32.

Questa unificazione permette una gestione più rapida ed efficiente dei carichi di lavoro AI, accelerando significativamente le operazioni di intelligenza artificiale.

Per ottimizzare ulteriormente le prestazioni, Blackwell introduce il GigaThread Engine, che si occupa dell'allocazione delle risorse per il rendering, mentre l'AI Management Processor (AMP) gestisce i carichi di lavoro AI, migliorando l'efficienza complessiva.

Il nuovo motore di accelerazione multimediale include unità di codifica (NVENC) e decodifica (NVDEC) di nona generazione, che supportano formati avanzati come AV1 e HEVC (x265) con un miglioramento significativo della qualità rispetto ai formati precedenti, grazie all'utilizzo di Chroma Subsampling 4:2:2 al posto del 4:2:0 usato in passato.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 2 


A livello strutturale, il raster engine di GB202 è suddiviso in 11 GPC (Graphics Processing Cluster), 3 dei quali incompleti, con ogni cluster completo che contiene 16 Streaming Multiprocessor (SM) raggruppati in 8 TPC (Texture Processing Cluster) ed un raster engine con 16 ROP.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 3 


La principale novità in Blackwell riguarda il modo in cui gli Streaming Multiprocessors (SM) gestiscono il lavoro: vengono introdotti i "neural shaders", che consentono di utilizzare l'intelligenza artificiale per eseguire operazioni grafiche avanzate come se fossero normali shader.

Questo approccio è supportato dalle nuove API Cooperative Vectors di Microsoft, che rendono più efficienti i carichi di lavoro attraverso i Tensor Core.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 4 


I nuovi Tensor Core di 5° generazione supportano il formato dati FP4 (precisione 1/8) per i carichi di lavoro ad alta velocità, offrendo 32 volte la capacità di elaborazione rispetto al primo Tensor Core introdotto con l'architettura Volta.

Nel corso degli anni, i modelli di intelligenza artificiale hanno utilizzato formati di dati a precisione inferiore e la "sparsità" per migliorare le prestazioni.

L'AI Management Processor (AMP) consente di eseguire contemporaneamente carichi di lavoro di intelligenza artificiale e grafica al livello più alto della GPU, ad esempio, renderizzando grafiche in tempo reale per un gioco mentre esegue un LLM, senza che uno influenzi le prestazioni dell'altro.

AMP è un gestore hardware specializzato per tutte le risorse di accelerazione AI nel chip ed è essenziale per far funzionare la generazione multi-frame di DLSS 4.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 5 


Gli RT Core di 4° generazione non solo offrono un aumento generazionale delle prestazioni in ray tracing e nell'intersezione dei raggi, riducendo il costo di attivazione del path tracing e degli effetti ray traced, ma introducono anche un potenziale salto nelle prestazioni grazie alla "Mega Geometry".

Questo consente di gestire oggetti ray traced con un numero di poligoni estremamente elevato, aumentando, allo stesso tempo, il loro livello di dettaglio.

Il conteggio dei poligoni ed il ray tracing comportano un aumento lineare dei costi di prestazioni poiché ogni triangolo deve intersecare un raggio e devono esserci abbastanza raggi per intersecare ciascun triangolo.

Tutto ciò viene realizzato trattando i gruppi di triangoli in un oggetto come una "primitiva", con strutture di accelerazione a livello di cluster.

I nuovi RT Core introducono un componente chiamato "triangle cluster intersection engine", progettato specificamente per gestire la Mega Geometry.

L'integrazione di un formato di compressione dei cluster di triangoli e di un motore di decompressione senza perdita consente un'elaborazione più efficiente della geometria complessa.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 6  ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 7 


Per contrastare l'aumento del consumo energetico dovuto alle dimensioni maggiori del chip GB202, NVIDIA ha sviluppato un sistema avanzato di gestione energetica che ottimizza il consumo attraverso gating della potenza e della frequenza per ciascun GPC, riducendo al minimo il dispendio energetico e mantenendo temperature ridotte.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 8 


L'integrazione delle memorie GDDR7 contribuisce ulteriormente alla riduzione dei consumi.

Le nuove memorie sono infatti in grado di raggiungere una velocità doppia rispetto alle GDDR6, ma consumando solo la metà dell'energia per bit grazie all'adozione della tecnologia PAM3 (Pulse Amplitude Modulation).

A differenza della precedente tecnologia PAM4, che trasportava 4 bit per ciclo di clock, la PAM3 ne trasporta solo 3: questo permette di migliorare l'integrità del segnale e ridurre il consumo energetico senza compromettere le prestazioni, poiché le GDDR7 possono comunque raggiungere frequenze particolarmente elevate come i 1750MHz (pari a 28 Gbps) nel caso della RTX 5090.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 9 


Il rinnovato Display Engine, infine, presenta finalmente il supporto a DisplayPort 2.1 e standard UHBR20, permettendo output 4K240 o 8K60 senza DSC e con l'utilizzo di un singolo cavo.


DLSS 4, MFG e Reflex 2

ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 10 


DLSS 4 introduce un salto significativo nella qualità dell'immagine e nelle prestazioni: non si tratta solo di un aggiornamento con l'introduzione di una nuova funzionalità, ossia la Multi Frame Generation, ma vengono apportati aggiornamenti a quasi tutte le sotto-funzionalità.

Fin dall'inizio, DLSS ha fatto affidamento sull'AI per ricostruire i dettagli in Super Resolution, ma con DLSS 4 NVIDIA introduce un nuovo modello di intelligenza artificiale Transformer che sostituisce le Convolutional Neural Networks precedentemente utilizzate, raddoppiando i parametri, quadruplicando le prestazioni di calcolo e migliorando significativamente la qualità dell'immagine.

La Ray Reconstruction, introdotta con DLSS 3.5, ottiene un importante aggiornamento della qualità dell'immagine grazie al nuovo modello Transformer.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 11 


Per comprendere la Multi Frame Generation è necessario capire come funziona il DLSS Frame Generation introdotto con le GeForce Ada.

Un componente Optical Flow Accelerator fornisce all'algoritmo DLSS i dati per generare un intero frame utilizzando una rete neurale, basandosi sulle informazioni di un frame precedentemente renderizzato e raddoppiando, così, la frequenza dei fotogrammi.

Con la Multi Frame Generation l'AI prende in carico le funzioni dell'Optical Flow per prevedere fino a tre fotogrammi successivi a partire da un frame renderizzato convenzionalmente, generando, effettivamente, quattro fotogrammi.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 12 


Ora, supponendo che questo frame renderizzato sia il prodotto della Super Risoluzione, con l'impostazione di prestazioni massime che genera 4 volte i pixel da un singolo pixel renderizzato, si arriva alla possibilità che l'elaborazione di 1/4 di un frame venga utilizzata per disegnare 4 fotogrammi o che 15 su ogni 16 pixel siano completamente generati da DLSS.

Quando si generano così tanti fotogrammi, il Frame Pacing diventa un problema e gli intervalli irregolari dei fotogrammi influenzano la fluidità.

DLSS 4 risolve questi problemi utilizzando un'unità hardware dedicata all'interno del Display Engine di Blackwell che si occupa del flip metering, riducendo la variabilità della visualizzazione dei fotogrammi da 5 a 10 volte.


ZOTAC GeForce RTX 5070 SOLID CORE 1. Blackwell in pillole 13 


L'originale NVIDIA Reflex ha migliorato la reattività nei giochi online competitivi, riducendo la latenza del sistema fino al 50% grazie ad una semplificazione della coda di rendering, risultando quindi necessario per la Frame Generation di DLSS 3 a causa della latenza introdotta dalla tecnologia.

La Multi-Frame Generation richiede una tecnologia altrettanto avanzata ed ecco, quindi, che NVIDIA introduce Reflex 2.

NVIDIA afferma di aver ridotto la latenza del 75% grazie al Frame Warp, che aggiorna in tempo reale la posizione della fotocamera (viewport) in base agli input dell'utente e ricostruisce il fotogramma da visualizzare utilizzando informazioni temporali.