Xilinx Versal, la nuova piattaforma adattiva che accelera l’intelligenza artificiale

Pubblicato il 09 Ott 2018

Fig0 versal_acap


Xilinx, fra i leader del mercato delle piattaforme adattive, ha presentato una nuova piattaforma per l’accelerazione del calcolo, denominata Versal, particolarmente adatta a risolvere le problematiche legate all’intelligenza artificiale e al machine learning.

È cosa nota che negli ultimi mesi, proprio mentre la richiesta di capacità di calcolo si sta intensificando in tutti i settori – soprattutto a causa delle necessità degli algoritmi di IA e Machine Learning -, la crescita di potenza dei processori “convenzionali” (detti scalari) ha cominciato a mostrare la corda, non riuscendo più a confermare – dopo 50 anni di progressi – le previsioni della legge di Moore.

Le alternative generalmente prese in considerazione dai produttori sono state l’utilizzo di processori vettoriali e DSP, per esempio contenuti nelle GPU, e l’impiego di logica programmabile basata su FPGA. Tutte e tre le tecnologie presentano vantaggi e svantaggi, poiché ciascuna di esse è più adatta per alcuni compiti e meno per altri. Tuttavia, se si riuscisse a realizzare una piattaforma che contenesse risorse di calcolo di tutti e tre i tipi, ma gestibile e soprattutto programmabile con facilità, si avrebbe in mano uno strumento capace di far fronte a ogni esigenza elaborativa. Ebbene, questa è più o meno l’idea alla base della piattaforma adattiva Xilinx ACAP Versal.

La piattaforma Versal

Le macchine Versal combinano unità di elaborazione scalari, unità hardware adattabili e riprogrammabili e unità intelligenti con tecnologie di memoria e di interfacciamento all’avanguardia per offrire un’accelerazione potente ed eterogenea in qualsiasi applicazione. Inoltre, l’hardware e il software della piattaforma possono essere programmati e messi a punto da sviluppatori software, data scientist e sviluppatori hardware grazie a un gran numero di strumenti, librerie, middleware e ambienti che consentono di operare all’interno di flussi di progettazione standardizzati.

Al momento dell’annuncio, la gamma di prodotti è articolata su ben 6 serie differenti di dispositivi, ottimizzati a livello hardware per specifici domini di operazioni, e realizzati in tecnologia FinFET a 7 nanometri (la factory è quella della taiwanese TSMC, nota al grande pubblico per la produzione dei chip A12 “bionic” montati sul nuovo iPhone).

Delle sei serie, la Versal Prime, la Versal Premium e la Versal HBM sono progettate per fornire livelli all’avanguardia sul mercato in termini di prestazioni, connettività, larghezza di banda e integrazione per le applicazioni più esigenti. Le tre serie AI Core, AI Edge e AI RF integrano la nuova unità per l’intelligenza artificiale, costituita da un nuovo blocco hardware progettato per rispondere alle esigenze emergenti di inferenza dell’IA con bassa latenza in una vasta gamma di applicazioni e supporta inoltre implementazioni DSP avanzate per applicazioni quali i sistemi wireless e i radar. Il blocco è strettamente accoppiato con le unità hardware adattabili della piattaforma Versal, allo scopo di consentire l’accelerazione dell’intera applicazione, il che implica che sia l’hardware, sia il software possano essere regolati per garantire i massimi livelli di prestazioni e di efficienza.

Le serie Versal Prime e Versal AI Core, in particolare, saranno le prime a essere messe sul mercato, prevedibilmente nella seconda metà del 2019; tuttavia, Xilinx ha avviato un ampio programma di accesso anticipato ai prodotti, per cui già parecchi esemplari di macchine Versal sono da qualche mese al lavoro presso diversi clienti chiave selezionati.

Versal Prime

La serie Xilinx Versal Prime è progettata per assicurare un’ampia applicabilità in più mercati ed è ottimizzata per la connettività e per l’accelerazione in linea di un insieme eterogeneo di carichi di lavoro. Le versioni di fascia intermedia contano nove dispositivi, ciascuno dei quali comprende i processori applicativi dual-core Arm Cortex A72, i processori dual-core Arm Cortex R5 in tempo reale, 256KB di memoria su chip con ECC, più di 4.000 unità DSP ottimizzate per operazioni in virgola mobile ad alta precisione con bassa latenza, oltre 2 milioni di celle logiche di sistema combinate con oltre 200Mb di UltraRAM da oltre 200 megabit al secondo, più di 90Mb di RAM a blocchi e 30 Mb di RAM distribuita con supporto alle gerarchie di memoria personalizzate. È presente anche un’impressionante serie di opzioni di I/O multicanale (PCIe, CCIX, SerDes, Ethernet, memory controller, I/O multiplati e HD, eccetera), il tutto interconnesso da un network-on-chip (NoC) allo stato dell’arte con un massimo di 28 porte master/slave, che mette a disposizione una banda multi-terabit con una latenza ridotta, combinata con l’efficienza energetica e la programmabilità software nativa.

Versal AI Core

La serie Xilinx Versal AI Core comprende prodotti caratterizzati dalla massima potenza di calcolo e da latenza più bassa, che consente di ottenere velocità e prestazioni all’avanguardia nell’inferenza dell’IA. La serie è ottimizzata per cloud, reti e macchine autonome, e assicura la massima gamma di opzioni di accelerazione dell’IA e del carico di lavoro disponibile nel settore. Comprende cinque dispositivi, che offrono da 128 a 400 unità di IA.

La serie utilizza processori applicativi dual-core Arm Cortex A72, processori dual-core Arm Cortex R5 in tempo reale, 256KB di memoria su chip con ECC, e più di 1.900 unità DSP ottimizzate per le operazioni in virgola mobile ad alta precisione con bassa latenza.

I dispositivi inoltre incorporano più di 1,9 milioni celle logiche di sistema combinate con più di 130Mb di UltraRAM, fino a 34Mb di RAM a blocchi, 28Mb di RAM distribuita e 32Mb dei nuovi blocchi di Accelerator RAM, che possono essere letti direttamente da qualsiasi unità — il tutto a supporto delle gerarchie di memoria personalizzate.

Sistema di I/O e interconnessione via Network-on-chip sono pressoché identici a quelli del Versal Prime.

Ogni singolo modulo computazionale dell’AI Engine Array è costruito attorno a un processore scalare ARM Risc a 32 bit e due processori vettoriali (per integer e floating point). Essendo in architettura VLIW, ogni modulo può eseguire fino a 6 operazioni contemporaneamente, producendo prestazioni fino a 8 volte superiori rispetto alle migliori GPU disponibili, con consumi dimezzati e superficie di silicio impiegata da 3 a 8 volte più piccola di quella necessaria per implementare la stessa funzione via Programmable Logic.

L’ambiente di sviluppo

Una piattaforma basata su tre diversi paradigmi di calcolo (processori scalari, processori vettoriali, logica programmabile) potrebbe costituire un incubo dal punto di vista della programmazione e gestione. Ecco perché nell’offerta di Xilinx assume grande rilevanza il nuovo ambiente di sviluppo software unificato di Versal, che supporta i flussi di inserimento dei dati di progetto da parte di qualsiasi sviluppatore ed è dotato di uno stack software completo, che include le librerie hardware e software, i driver, il middleware e gli ambienti applicativi. È su questo elemento, del quale erano stati resi noti finora pochi dettagli, e che è stato al centro di numerose sessioni al Developer Forum, che Xilinx conta per rendere facile e conveniente l’inserimento delle piattaforma di accelerazione Versal presso una clientela alla ricerca di soluzioni ad alte performance ma facili da gestire e personalizzare.

Valuta la qualità di questo articolo

Z
Renzo Zonin
email Seguimi su

Articoli correlati