Bull innove en installant prochainement au CCRT (Centre de Calcul Recherche et Technologie) le premier grand supercalculateur hybride européen. Ce système HPC permettra aux chercheurs utilisateurs de ce centre de calcul de profiter à la fois de la puissance de traitement des prochains processeurs Intel® Xeon® et des accélérateurs graphiques NVidia de dernière génération. Cette architecture conçue par Bull développe une puissance globale d’environ 300 téraflops tout en étant à la fois très compacte et économe en énergie grâce à une nouvelle technologie de refroidissement des serveurs développée par Bull.
Un nouveau supercalculateur pour la recherche française
GENCI (Grands Equipements Nationaux de Calcul Intensif), la nouvelle société civile en charge du développement du calcul intensif, s’est associée au CEA pour commander à Bull un nouveau système HPC destiné à être installé au CCRT (Centre de Calcul Recherche et Technologie). Avec ce nouveau supercalculateur, Bull introduit plusieurs innovations qui pourront bénéficier à l’ensemble de ses clients HPC. Le système s’appuie sur une architecture hybride qui associe la puissance de calcul de processeurs standard généralistes à celle d’accélérateurs graphiques. Ces accélérateurs sont basés sur la même technologie que celle des cartes graphiques largement diffusées sur les PC et les stations de jeux vidéo. Par ailleurs, le refroidissement de la machine utilise une nouvelle technologie d’armoires intégrant un échangeur air/eau beaucoup plus efficace que les solutions actuelles.
La puissance de calcul du supercalculateur provient donc de deux types de serveurs. Les premiers utilisent des processeurs généralistes et possèdent chacun 8 cœurs de calcul. Le processeur sera de la nouvelle génération Intel® Xeon® qui apporte de nombreuses innovations – aussi bien sur l’architecture avec des débits mémoires plus que doublés au regard de ceux des processeurs concurrents, que sur le cœur de calcul avec de nouvelles instructions. La configuration comprendra 1068 serveurs de ce type représentant 8 544 cœurs de calcul développant 103 téraflops. Les seconds sont constitués de 4 cartes graphiques basées sur la dernière architecture de NVidia, qui offre 240 cœurs de calcul par carte. L’ensemble des 48 serveurs GPU*s représente donc 46 080 cœurs avec une puissance de 192 téraflops en calcul 32 bits. Les applications peuvent bien sûr utiliser l’ensemble de ces ressources simultanément pour réduire leur temps d’exécution.
Le supercalculateur est un cluster basé sur une technologie de réseau d’interconnexion InfiniBand DDR (Dual Data Rate). Ce réseau permet à l’ensemble des serveurs standard d’échanger les données et à ceux qui sont reliés aux accélérateurs graphiques d’assurer la communication entre les GPUs. Ce réseau permet également d’accéder à l’espace de stockage qui sera partagé avec le précédent supercalculateur du CCRT livrée par Bull en 2007. Globalement environ un pétaoctets de données seront à la disposition des utilisateurs et le nouveau système hybride aura un débit de plus de 20 Go/s vers ce stockage.
L’environnement logiciel est basé sur des composants Open Source que Bull intègre et optimise dans son environnement NovaScale Master for HPC. Bull offre dans cet environnement les outils nécessaires à l’exploitation des accélérateurs GPUs.
Figure 1 : Schéma de l'architecture du système hybride
Pourquoi un supercalculateur hybride ?
Les utilisateurs sont toujours à la recherche d’un maximum de puissance de calcul pour leurs simulations. Une première voie est de se tourner vers les processeurs standard généralistes qui répondent à cette demande avec la technologie des multicœurs permettant d’augmenter le nombre d’unités de traitement. Les coeurs ont une architecture généraliste qui leur permet de réaliser un large ensemble d’instructions et offre une grande flexibilité dans le contrôle de l’exécution de ces instructions.
Une seconde possibilité est d’exploiter des composants spécialisés disposant de cœurs de calcul plus simples et dont le contrôle est plus limité. Ces simplifications permettent d’obtenir plus de cœurs pour un même budget de transistors ou de puissance électrique. C’est le cas des GPUs, initialement conçus pour le traitement graphique, qui tirent leur performance de la mise en œuvre de centaines d’unités de calcul élémentaires capables d’effectuer simultanément un même type d’opérations sur des données différentes. On appelle ce type de contrôle le parallélisme sur les données. Grâce aux progrès de la microélectronique et à une demande de jeux de plus en plus complexes, les GPUs sont aujourd’hui arrivés à un niveau où la puissance de leurs cœurs et leur plus grand degré de ‘programmabilité’ les rendent utilisables pour le calcul scientifique.
Les capacités du cœur des GPUs et l’architecture de leur contrôle font néanmoins qu’il est plus difficile pour une application de tirer pleinement parti de leur efficacité. Comme le contrôle est conçu pour qu’un ensemble de cœurs exécute à un instant donné une même instruction sur plusieurs données différentes, les GPUs se prêtent particulièrement aux applications de type « data parallel » où il est nécessaire de faire le même traitement sur un large ensemble de données. Parmi ces applications, on peut citer :
- le traitement de données sismiques (les « pétroliers » ont été parmi les premiers à s’intéresser à cette technologie),
- le traitement de données médicales (tomographie…),
- la comparaison de séquences génomiques,
- le traitement du signal,
- la simulation numérique en chimie (dynamique moléculaire dans le cas où le calcul des forces ne nécessite pas de calcul en 64 bits).
Dans le cadre de l’architecture hybride conçue par Bull, une application peut à la fois mettre en œuvre les ressources de calcul des processeurs Intel® Xeon® et des GPUs. Ainsi une application qui possède une partie mettant en œuvre le parallélisme de données et une partie nécessitant des traitements moins réguliers pourra pleinement exploiter la richesse de ce système. Pour les applications relevant d’un seul de ces modèles, il sera préférable de n’utiliser qu’une partie de la machine ce qui est facilité par l’environnement de gestion de tâches offert par NovaScale Master.

Figure 2 : Serveur GPU* comportant 4 cartes de un téraflops
Autre avantage d’une architecture hybride : les GPUs sont également très intéressants pour maîtriser la consommation électrique d’un grand système de calcul. Ainsi un serveur GPU développant une puissance de 4 téraflops en calcul 32 bits, consomme 700W. A titre de comparaison un serveur standard d’une puissance crête de 0,1 téraflops consomme 350W. Ce facteur 20 s’explique par la simplicité du cœur de calcul et de l’architecture qui, notamment, emploie moins de mémoire avec des capacités d’accès beaucoup plus limitées. Pour les applications capables d’exploiter pleinement la puissance de cette architecture, les GPUs apportent une grande efficacité énergétique.
L’intelligence énergétique : les avantages du refroidissement par eau
La seconde innovation majeure de ce système provient de son mode de refroidissement grâce à des armoires comportant un échangeur air/eau. Cette technologie répond à un besoin découlant de l’évolution des clusters de calcul. D’une part, les serveurs utilisent pour augmenter leur performance des signaux de plus en plus rapides, qui ne peuvent être routés sur les cartes électroniques que sur de faibles distances. Ils donc sont de plus en plus compacts et par voie de conséquence leur densité thermique s’accroît. D’autre part, les réseaux d’interconnexion augmentent aussi leurs débits de communication grâce à des fréquences de communication sur les liaisons plus élevées. Il est donc plus intéressant pour maîtriser la qualité des communications et le coût du réseau, d’avoir les distances les plus faibles possibles entre les serveurs. Cela conduit à des clusters constitués d’armoires (ou racks) remplies au maximum de serveurs, qu’il est souhaitable d’installer sur une surface des plus réduites. On se retrouve donc avec, dans un faible volume, une dissipation très importante de chaleur qu’il faut savoir évacuer. Les techniques classiques sont limitées car on ne peut pas indéfiniment augmenter la vitesse et les volumes d’air qui devraient circuler dans la salle.

Figure 3 : Armoire avec une porte froide
Face à ce problème, Bull a conçu une solution à la fois très performante et très flexible. Il s’agit d’une porte comportant un échangeur air/eau, capable d’évacuer jusqu’à 40 KW, qui se fixe sur un rack standard. Grâce à cette porte, il n’est pas nécessaire de modifier le mode de refroidissement des serveurs, qui utilisent un flux d’air en provenance de la salle pour dissiper la chaleur produite par les processeurs et les mémoires. Mais au lieu de rejeter cet air chaud dans la salle, la porte froide permet de le ramener à la température de la salle. Une régulation des débits d’air et d’eau dans l’échangeur de la porte autorise une adaptation parfaite du mécanisme à la chaleur dissipée par les serveurs présents dans le rack. Il n’est donc plus nécessaire de disposer d’un important dispositif d’air conditionné pour maîtriser la température dans la salle du cluster.
Ce mécanisme d’échangeur air/eau intégré dans la porte du rack permet également d’améliorer l’efficacité énergétique de l’infrastructure du centre de calcul. En effet, le fait de refroidir l’air chaud au plus près de sa production élimine les re-circulations de cet air chaud, coûteuses en énergie. Globalement une solution basée sur le nouveau rack de Bull permet d’économiser de l’électricité pour le refroidissement d’un cluster. Cet avantage s’ajoute à l’économie sur l’infrastructure d’air conditionné de la salle. Le coût total de possession d’un cluster est donc amélioré à la fois au moment de l’acquisition (les armoires froides étant plus économiques que les meubles de climatisation) et durant sa phase d’exploitation (diminution de la facture électrique).
Enfin, cette nouvelle technologie remplit parfaitement son objectif de permettre des clusters plus denses. Ainsi la partie calcul de la machine hybride du CCRT ne prend que 55 m2 pour une puissance d’environ 300 téraflops.
Concilier maîtrise des systèmes pétaflopiques et responsabilité environnementale
Le nouveau cluster hybride qui sera installé au CCRT est un atout unique pour les chercheurs français. Il développe une puissance inégalée en Europe et permettra à ses utilisateurs de tester l’intégration de la puissance de traitement des GPUs avec les capacités de calcul d’un cluster classique. Grâce à ce supercalculateur, on peut s’attendre, tant pour la recherche que pour l’industrie, à des percées intéressantes dans de nombreux domaines tels que l’énergie, la biologie ou la dynamique moléculaire.
En installant ce supercalculateur hybride, Bull a fait un pas important vers la maîtrise de configurations pétaflopiques avec notamment l’introduction d’une nouvelle technologie de refroidissement qui sera importante dans cette optique. Cette machine démontre aussi sa capacité à délivrer des solutions HPC d’une grande efficacité énergétique et d’un coût de possession sans cesse amélioré.
* GPU : Graphics Processing Unit
|