Quadric Chimera GPNPU IP combine NPU, DSP et CPU en temps réel en un seul cœur programmable

Quadric Chimera GPNPU IP combine NPU, DSP et CPU en temps réel en un seul cœur programmable

Une puce typique pour l’inférence AI ou ML comprendrait un NPU, un DSP, un processeur en temps réel, plus de la mémoire, un processeur d’application, un FAI et quelques autres blocs IP. Quadric Chimera GPNPU (unité de processeur neuronal à usage général) IP combine le NPU, le DSP et le processeur en temps réel en un seul cœur programmable.

Selon Quadric, le principal avantage d’une telle conception est de simplifier la conception matérielle du système sur puce (SoC) et la programmation logicielle ultérieure une fois la puce disponible grâce à une architecture unifiée pour l’inférence d’apprentissage automatique ainsi que le pré-et le post-traitement. Étant donné que le noyau est programmable, il devrait également être évolutif.

Chimère quadrique GPNPU

Trois cœurs Chimera GPNPU « série QB » sont disponibles :

  • Chimera QB1 – Apprentissage automatique 1 TOPS, capacité DSP 64 GOPS
  • Chimère QB4 – 4 TOPS ML, 256 GOPS DSP
  • Chimère QB16 – 16 TOPS ML, 1 TOPS DSP

Quadric indique que les cœurs Chimera peuvent être utilisés avec n’importe quel processus de fabrication (moderne) et peuvent atteindre un fonctionnement jusqu’à 1 GHz en utilisant des processus de 16 nm ou 7 nm. Deux cœurs Chimaera ou plus peuvent être jumelés pour des applications nécessitant plus de performances.

Schéma fonctionnel de Chimera GPNPU
Schéma fonctionnel de Chimera GPNPU

On dit que l’architecture Chimera GPNPU offre des performances d’inférence ML similaires à l’efficacité des moteurs de déchargement CNN dédiés, mais avec une programmabilité complète et la possibilité d’exécuter n’importe quel opérateur ML, ce qui peut être critique si les scientifiques des données trouvent de meilleurs modèles nécessitant de nouveaux opérateurs qui ne peuvent pas fonctionner. sur les accélérateurs à fonction fixe existants.

L’architecture de Quadric combine les graphes de réseau neuronal et le code C++ dans un seul flux de code logiciel et une seule chaîne d’outils est utilisée pour les calculs scalaires, vectoriels et matriciels. La bande passante mémoire est également optimisée par une seule pile de compilation unifiée qui contribue également à réduire la consommation d’énergie. Des opérateurs personnalisés peuvent être ajoutés par un développeur de logiciels en écrivant un noyau C++ à l’aide de l’API Chimera Compute Library (CCL), puis en compilant ce noyau à l’aide du SDK Chimera. La tâche des ingénieurs logiciels devrait être encore simplifiée puisqu’ils ne travaillent qu’avec un seul cœur et n’ont pas besoin de gérer un système hétérogène multicœur.

Présentation du SDK Quadric

Cependant, cela peut prendre un certain temps avant que la solution n’entre dans les puces réelles. Alors que l’architecture Chimera a déjà été testée sur silicium, Quadric recherche des clients dont les équipes de conception de puces peuvent commencer une évaluation IP cet automne ou cet hiver, donc je suppose qu’il faudra peut-être un an ou plus avant que les SoC commerciaux basés sur l’architecture Quadic Chimera ne deviennent disponible. Des détails supplémentaires peuvent être trouvés sur la page des produits et le communiqué de presse.

Merci à TLS pour le conseil.