Infographie: Êtes-vous accro au sexe?
3 septembre 2020
Neuvième étape: procédez avec prudence
3 septembre 2020

NVIDIA

Aujourd'hui, NVIDIA a annoncé sa nouvelle architecture Ampere, aux côtés du nouvel A100 sur lequel il fonctionne. C'est une amélioration significative par rapport à Turing, une architecture déjà axée sur l'IA qui alimente les centres de données sur le raytracing haut de gamme et optimisé par le ML dans l'espace graphique grand public.

Si vous voulez un tour d'horizon complet de tous les détails très techniques, vous pouvez lire NVIDIA présentation détaillée de l'architecture. Nous allons décomposer les éléments les plus importants.

La nouvelle matrice est absolument massive

De la porte, ils vont tout faire avec cette nouvelle puce. La matrice Tesla V100 de dernière génération mesurait 815 mm sur le nœud de processus 14 nm déjà mature de TSMC, avec 21,1 milliards de transistors. Déjà assez gros, mais le A100 fait honte avec 826 mm sur le 7 nm de TSMC, un processus beaucoup plus dense et un énorme 54,2 milliards de transistors. Impressionnant pour ce nouveau nœud.

Ce nouveau GPU comprend 19,5 téraflops de performances FP32, 6 912 cœurs CUDA, 40 Go de mémoire et 1,6 To / s de bande passante mémoire. Dans une charge de travail assez spécifique (INT8 clairsemée), l'A100 craque en fait 1 PetaFLOPS de puissance de calcul brute. Bien sûr, c'est sur INT8, mais quand même, la carte est très puissante.

Ensuite, tout comme le V100, ils ont pris huit de ces GPU et créé un mini supercalculateur qu'ils vendent 200 000 $. Vous les verrez probablement bientôt arriver chez des fournisseurs de cloud comme AWS et Google Cloud Platform.

Cependant, contrairement au V100, il ne s'agit pas d'un GPU massif – il s'agit en fait de 8 GPU distincts qui peuvent être virtualisés et loués seuls pour différentes tâches, avec un débit mémoire 7 fois plus élevé au démarrage.

En ce qui concerne l'utilisation de tous ces transistors, la nouvelle puce fonctionne beaucoup plus rapidement que le V100. Pour l'entraînement et l'inférence IA, A100 offre une accélération 6x pour FP32, 3x pour FP16 et une accélération 7x en inférence lors de l'utilisation de tous ces GPU ensemble.

NVIDIA

Notez que le V100 marqué dans le deuxième graphique est le serveur 8 GPU V100, pas un seul V100.

NVIDIA promet également une accélération jusqu'à 2x dans de nombreuses charges de travail HPC:

NVIDIA

En ce qui concerne les nombres TFLOP bruts, les performances de double précision A100 FP64 sont de 20 TFLOP, contre 8 pour le V100 FP64. Dans l'ensemble, ces accélérations constituent une réelle amélioration générationnelle par rapport à Turing et sont une excellente nouvelle pour l'IA et l'espace d'apprentissage automatique.

TensorFloat-32: un nouveau format de nombre optimisé pour les cœurs Tensor

Avec Ampère, NVIDIA utilise un nouveau format numérique conçu pour remplacer FP32 dans certaines charges de travail. Essentiellement, FP32 utilise 8 bits pour la plage du nombre (quelle que soit sa taille) et 23 bits pour la précision.

L’affirmation de NVIDIA est que ces 23 bits de précision ne sont pas entièrement nécessaires pour de nombreuses charges de travail d’IA, et que vous pouvez obtenir des résultats similaires et des performances bien meilleures avec seulement 10 d’entre eux. Ce nouveau format s'appelle Tensor Float 32, et les cœurs Tensor de l'A100 sont optimisés pour le gérer. C'est, en plus de la réduction des matrices et de l'augmentation du nombre de cœurs, comment ils obtiennent l'accélération massive 6x dans la formation à l'IA.

NVIDIA

Ils prétendent que "Les utilisateurs n'ont pas à modifier le code, car TF32 ne fonctionne qu'à l'intérieur du GPU A100. TF32 fonctionne sur les entrées FP32 et produit des résultats dans FP32. Les opérations non tensorielles continuent d’utiliser FP32 ». Cela signifie qu'il devrait remplacer les charges de travail qui n'ont pas besoin de précision supplémentaire.

En comparant les performances FP sur le V100 aux performances TF sur l'A100, vous verrez d'où viennent ces accélérations massives. TF32 est jusqu'à dix fois plus rapide. Bien sûr, cela est également dû en grande partie au fait que les autres améliorations d’Ampère sont deux fois plus rapides en général, et ne constituent pas une comparaison directe.

NVIDIA

Ils ont également introduit un nouveau concept appelé clarté structurée à grain fin, qui contribue aux performances de calcul des réseaux de neurones profonds. Fondamentalement, certains poids sont moins importants que d'autres et le calcul de la matrice peut être compressé pour améliorer le débit. Bien que jeter des données ne semble pas être une bonne idée, ils affirment que cela n'a pas d'impact sur la précision du réseau formé pour l'inférence, et accélère simplement le.

NVIDIA

Pour les calculs Sparse INT8, la performance maximale d'un seul A100 est de 1250 TFLOPS, un nombre incroyablement élevé. Bien sûr, vous aurez du mal à trouver une véritable charge de travail avec seulement INT8, mais les accélérations sont des accélérations.

//]]>