Comprendre les TOPs ou TeraOPS d'une Intelligence Artificielle (IA)

Ceci est un guide des TOPs (TeraOPS) de l'Intelligence Artificielle (IA) et des métriques de performance NPU.

Comprendre les TOPs ou TeraOPS d'une Intelligence Artificielle (IA)

Dans le paysage technologique en évolution rapide d'aujourd'hui, où l'intelligence artificielle (IA) remodèle les industries et stimule l'innovation, la compréhension des subtilités des mesures de performance d'IA est primordiale.   Auparavant, de nombreux modèles d'IA devaient fonctionner dans le cloud. Au fur et à mesure que nous nous dirigeons vers un avenir défini par le traitement génératif de l'IA sur des appareils, nous devons être en mesure d'évaluer les performances, la précision et l'efficacité avec lesquelles les plates-formes de calcul peuvent exécuter des modèles d'IA. Aujourd'hui, l'une des principales façons de mesurer les performances d'un processeur est le Tera (milliards) d'Opérations par seconde (TOPS).

Le (Tera "billion" d' opérations par seconde ) TeraOPS, ou TOPS est une mesure des performances maximales potentielles de l'IA en matière d'inférence, en fonction de l'architecture et de la fréquence requises du processeur, comme l'unité de traitement neuronal (NPU). Il mesure les performances globales d'un superordinateur ou d'un circuit haut de gamme contenant plusieurs processeurs ou SOC (Système sur Puce). Nous reviendrons sur tout ceci plus tard, mais posons nous d'abord une vraie question :

Qu'est-ce que la NPU d'une IA ?

Avant de plonger dans les détails de TOPS, examinons l'importance de la NPU.

En des termes clairs, une NPU est une puce d'accélération de réseaux de neurones. C'est un accélérateur d'IA ou accélérateur d'intelligence artificielle, d'où son appellation anglaise : Neural Processing Unit, (NPU). C'est une catégorie de microprocesseur ou de systèmes de calculs conçu pour accélérer un réseau de neurones artificiels, accélérer des algorithmes de vision industrielle et d'apprentissage automatique pour la robotique, l'internet des objets et autres taches de calcul intensif ou de contrôle de capteurs. Il s'agit souvent de conceptions multicœurs et se concentrant généralement sur l'arithmétique de faible précision, des nouvelles architectures de flux de données ou de la capacité de calcul en mémoire. 

Pour le traitement de l'IA sur l'appareil, la NPU joue un rôle essentiel dans l'amélioration de l'efficacité et la création d'expériences applicatives innovantes pour les utilisateurs individuels et les entreprises. L'évaluation des performances de ces processeurs spécialisés nécessite une compréhension approfondie des paramètres qui sous-tendent leurs capacités.

L'évolution du NPU a transformé notre approche de l'informatique. Traditionnellement, l'unité centrale était responsable de l'exécution des algorithmes d'intelligence artificielle. Avec la montée en flèche des exigences en matière de performances de traitement, les NPU dédiées sont apparues comme une solution spécialisée pour gérer les logiciels et les applications exploitant l'IA. Ces processeurs sont conçus pour traiter efficacement les calculs mathématiques complexes requis pour les tâches d'IA, offrant une efficacité, des performances et des économies d'énergie inégalées.

Que signifie les TOPS d'une IA ?

Au cœur de la mesure des performances des NPU se trouve les TOPS, une mesure qui illustre la puissance de calcul de ces unités. 

TOPS quantifie les capacités de traitement d'une NPU en mesurant le nombre d'opérations (additions, multiplications, etc.) en billions exécutées en une seconde.

Cette mesure standardisée indique clairement les performances d'une NPU et constitue un critère essentiel pour comparer les performances de l'IA entre différents processeurs et architectures. Le TOPS étant la pierre angulaire de la mesure des performances des NPU, il est essentiel d'explorer les paramètres qui composent l'équation TOPS et la manière dont ils peuvent dicter les performances. Cela permet de mieux comprendre les capacités d'une NPU. 

Une opération de multiplication-accumulation (MAC) exécute les formules mathématiques au cœur des charges de travail de l'IA. La multiplication d'une matrice consiste en une série de deux opérations fondamentales : la multiplication et l'addition à un accumulateur. Une unité MAC peut, par exemple, effectuer une opération par cycle d'horloge, ce qui signifie qu'elle exécute deux opérations par cycle d'horloge. Une NPU donnée possède un nombre défini d'unités MAC qui peuvent fonctionner à des niveaux de précision variables, en fonction de l'architecture de la NPU.

La fréquence détermine la vitesse d'horloge (ou cycles par seconde) à laquelle une NPU et ses unités MAC (ainsi qu'un CPU ou un GPU) fonctionnent, ce qui influe directement sur les performances globales. Une fréquence plus élevée permet d'effectuer davantage d'opérations par unité de temps, ce qui se traduit par des vitesses de traitement plus élevées. Cependant, l'augmentation de la fréquence entraîne également une augmentation de la consommation d'énergie et de la production de chaleur, ce qui a un impact sur la durée de vie de la batterie et sur l'expérience de l'utilisateur. La valeur TOPS indiquée pour les processeurs correspond généralement à la fréquence de fonctionnement maximale.

La précision fait référence à la granularité des calculs, une plus grande précision étant généralement associée à une plus grande exactitude du modèle au détriment de l'intensité des calculs. Les modèles d'IA à haute précision les plus courants sont à virgule flottante 32 bits et 16 bits, tandis que les modèles plus rapides, à faible précision et à faible consommation d'énergie utilisent généralement une précision de 8 bits et de 4 bits pour les entiers. La norme industrielle actuelle pour mesurer l'inférence de l'IA en TOPS est la précision INT8.

Pour calculer TOPS, il faut commencer par OPS, qui est égal à deux fois le nombre d'unités MAC multiplié par leur fréquence de fonctionnement. Le TOPS est le nombre d'OPS divisé par un trillion, ce qui le rend plus simple à répertorier et à comparer.

TOPS = 2 × nombre d'unités MAC × Fréquence / 1 trillion.

TOPS et les performances réelles

Bien que TOPS fournisse des informations précieuses sur les capacités des NPU, nous devons encore combler le fossé entre les mesures théoriques et les applications réelles.

En effet, un indice TOPS élevé ne garantit pas à lui seul des performances optimales en matière d'IA ; c'est la combinaison de plusieurs facteurs qui définissent véritablement les prouesses d'une NPU.

Cela signifie qu'il faut tenir compte d'aspects tels que la bande passante de la mémoire, l'optimisation du logiciel et l'intégration du système lors de l'évaluation des performances de la NPU. Les benchmarks peuvent nous aider à aller au-delà des chiffres et à comprendre les performances des NPU dans des scénarios réels, où la latence, le débit et l'efficacité énergétique sont plus importants que jamais.

Le benchmark Procyon AI utilise des charges de travail réelles pour aider à traduire la mesure TOPS théorique en réactivité et en capacités de traitement qu'un utilisateur peut attendre dans des applications réelles qui utilisent l'inférence IA. Il exécute six modèles à des précisions multiples, ce qui donne un aperçu détaillé des performances des différentes NPU. Des modèles similaires sont de plus en plus courants dans les applications de productivité, de médias, de création et autres. Des performances plus rapides dans Procyon AI et dans d'autres tests de référence se traduisent par des inférences plus rapides et de meilleures expériences pour l'utilisateur.

À cette fin, l'analyse des performances dans le monde réel fournit des informations précieuses sur les capacités et les limites d'une NPU. Les mesures de performances doivent être examinées sous l'angle de la praticité et du pragmatisme.

L'avenir des mesures de performance NPU

Alors que la technologie continue de progresser à un rythme rapide - et que les exigences de la transformation numérique continuent de façonner diverses industries - le paysage des mesures de performance NPU est prêt à évoluer. Alors que les tendances émergentes redéfinissent la façon dont nous conceptualisons et évaluons les performances des NPU et de l'informatique en général, le TOPS est un excellent indicateur de performance, et il n'y a aucune raison de penser qu'il va disparaître de sitôt.

Au fur et à mesure que les nouvelles technologies de l'IA gagneront du terrain dans les années à venir et redéfiniront d'innombrables industries, le besoin de mesures de performance robustes qui capturent leurs caractéristiques uniques se fera de plus en plus sentir. L'adaptabilité, l'évolutivité et la pertinence des applications réelles définiront l'avenir des mesures de performance des NPU.

Évaluer la performance des NPU en fonction de vos besoins

Naviguer dans le monde en évolution rapide des mesures de performance NPU peut sembler décourageant au début, mais comprendre les subtilités des TOPS est vital pour les industries comme pour les individus, car la transformation numérique - en particulier dans l'espace de l'IA - se poursuit à ce rythme.

En fin de compte, le choix du bon système sur puce (SoC) dépend de vous, de votre client ou des charges de travail et des priorités de votre organisation - et votre décision pourrait très bien dépendre du NPU du SoC.

Que vous donniez la priorité à la puissance de calcul brute, à l'efficacité énergétique ou à la précision des modèles, les plateformes Snapdragon X Series sont équipées du NPU le plus rapide au monde pour les ordinateurs portables, avec jusqu'à 45 TOPS, afin de suralimenter votre PC et d'offrir des expériences d'IA réelles dans votre flux de travail.