Sommaire
Edito
Tribune
Invités du mois
Temps fort
Succès
Paroles d'experts
Solutions
Enquête lecteurs
En bref
Agenda
Version PDF
 

Abonnez-vous à
Bull Direct :

Votre email

Archives
Septembre 2006
Invités du mois
 
L’Europe de retour sur la scène des supercalculateurs
Entretien avec Jean Gonnord,
Chef du projet simulation numérique et informatique au CEA/DAM.
Pour rattraper son retard en matière de supercalculateurs, l’Europe doit impérativement mener une politique plus volontariste, centrée sur une synergie défense, industrie et recherche.

La Recherche. Un coup d’oeil au Top 500 suffit pour s’en convaincre, la France et l’Europe accusent un retard considérable en matière de supercalculateurs par rapport aux États-Unis ou au Japon. Comment l’expliquez-vous ?
Jean Gonnord. Ce retard très alarmant est la conséquence de l’échec des derniers "plans calculs", au début des années 1990. L’industrie européenne de l’informatique de grande puissance s’est alors effondrée et seules quelques entreprises ont survécu. C’est le cas par exemple de Meiko, en Grande-Bretagne, qui, après sa faillite, fut rachetée par la firme italienne Finmeccanica. Rebaptisée Quadrics, cette compagnie produit aujourd’hui la "Rolls Royce" des réseaux. En France, et après une longue traversée du désert, Bull réapparaît sur le devant de la scène avec la machine TERA-10. Du fait de cette quasi-inexistence de tissu industriel, et en l’absence de toute stratégie, les pays européens appliquent en matière de calcul intensif une politique dite de "centre de coûts" [1] : l’informatique n’est plus qu’un simple outil au service de certaines disciplines. Chacune investit sur ses fonds de recherche. L’objectif est donc d’obtenir les machines au moindre coût. Cela a des effets pervers : les utilisateurs s’autocensurent et s’en remettent aux constructeurs américains ou japonais pour définir ce que sera l’informatique de demain. Ce qui aggrave encore le retard de l’Europe.

À l’opposé, la politique informatique des États- Unis et du Japon, que vous qualifiez "d’opportunité stratégique" [1], implique un soutien massif aux industriels du secteur…
Les Américains briguent une chose : la suprématie mondiale dans ce domaine qu’ils considèrent comme stratégique. Et ils s’en donnent les moyens, notamment en profitant au mieux des synergies entre la défense, l’industrie et la recherche. Concrètement, la politique informatique est décidée au niveau du président lui-même, qui s’appuie sur les conclusions d’un rapport commis chaque année par le PITAC (President’s Information Technology Advisory Committee). Elle est ensuite mise en œuvre par le Département de l’énergie (DoE*), le Département de la défense (DoD) et les grandes agences de programme : la National Science Fondation (NSF) et la Defense Advanced Research Project Agency (DARPA). Ces dernières financent les laboratoires, tant civils que militaires, les universités et les grands centres de calcul afin qu’ils s’équipent en très grosses machines. Mais, point important, les appels d’offres ne sont accessibles qu’aux seuls industriels américains ! Les Japonais ont une politique sensiblement identique. Mais leur objectif applicatif principal est la sécurité civile.

Pouvez-vous nous donner une idée des budgets américains ?
Ils sont considérables. Pour le seul programme ASCI (Advanced Scientific Computing Initiative), le DoE investit depuis 1995 quelque 100 millions de dollars par an dans ses trois grands laboratoires militaires (Lawrence Livermore, Los Alamos et Sandia) pour une machine dont l’objectif est uniquement de fournir de la puissance et 120 millions de dollars tous les trois ans pour en développer une autre à la limite des capacités technologiques ! Et ce n’est pas tout, l’ASCI finance également un programme de recherche et développement (R&D) "Path Forward" s’adressant aux constructeurs américains afin qu’ils se focalisent sur le calcul haute performance (50 millions de dollars par an), et un autre de soutien aux universités (Alliance) pour les recherches en amont (8 millions de dollars par an). Et cet exemple n’est que la partie émergée de l’iceberg. Historiquement, le grand pourvoyeur de fonds pour la recherche et le développement (R&D) dans le domaine de l’industrie informatique américaine a toujours été la National Security Agency (NSA) et cela n’a bien entendu pas changé depuis le 11-Septembre…

Il y a deux ans, la Chine a créé la surprise en alignant une machine à la 13ème place du Top 500 des supercalculateurs…
L’irruption de ce pays dans le domaine des supercalculateurs est quelque chose de fabuleux. La politique suivie est proche de celle des États-Unis, mais l’objectif affiché du gouvernement chinois est plus modeste, du moins pour l’instant : l’indépendance et donc la maîtrise de l’ensemble de la chaîne technologique, de la fabrication du processeur jusqu’à l’intégration finale de systèmes. C’est dans cette perspective que le ministère de la Science et de la Technologie a lancé dès 1986 un ambitieux programme de R&D avec des objectifs à la fois civils et militaires, planifiés par périodes de cinq ans. Neuf grands centres de calcul ont été créés. Depuis deux ans, la puissance de calcul installée dépasse celle de la France ! Et leur vitesse de progression est impressionnante. Si les premiers gros supercalculateurs chinois ont été achetés aux États-Unis, la seconde génération a été développée et intégrée en Chine avec des processeurs américains. La prochaine sera vraisemblablement 100 % chinoise. Deux projets ont en effet été lancés pour la fabrication de microprocesseurs : l’un, "Godson", pour le calcul scientifique, l’autre, "ArkII", pour le grand public. Récemment, les Chinois ont d’ailleurs annoncé qu’ils entraient dans la course au pétaflop*… Comme aux États-Unis, le modèle de développement est fondé sur une synergie défense - industrie - recherche. L’Europe et la France feraient bien de s’en inspirer. Seules une politique d’opportunité stratégique et la mise en place d’un grand programme de R&D européen permettront de combler notre retard.

C’est justement ce que vous avez fait avec le projet TERA. Quand et comment ce projet a-t-il germé ?
En 1996, après que le Président de la République eut signé le traité interdisant tout essai nucléaire, le CEA a mis en place, au sein de sa Direction des applications militaires, le programme Simulation. L’objectif ? Garantir la sûreté et la fiabilité des armes de dissuasion. Ce programme comprend deux volets. L’un est centré sur l’expérimentation (avec l’appareil de radiographie éclair AIRIX et le Laser Mégajoule, en construction à Bordeaux), l’autre sur la simulation numérique. Il s’agit de reproduire, par le calcul, les différentes étapes du fonctionnement d’une arme. Une centaine d’ingénieurs informaticiens et numériciens travaillent sur ce simulateur depuis près de dix ans. Ils écrivent des logiciels c’est-à-dire des millions de lignes de code développées à partir de "modèles" établis par autant de physiciens et validées in fine grâce aux expériences passées. Ce travail colossal se poursuit encore aujourd’hui et des modèles de plus en plus sophistiqués sont introduits dans le simulateur. Pour faire "tourner" ce simulateur en un temps raisonnable (quelques semaines au maximum), il nous fallait un ordinateur autrement plus puissant que celui dont nous disposions à l’époque. La puissance nécessaire en 2010, lorsque la construction du simulateur s’achèvera, a été évaluée à 100 téraflops soutenus*, soit cent mille milliards d’opérations utiles par seconde ! Or notre Cray T90 ne nous offrait à l’époque que 20 gigaflops* (vingt milliards d’opérations par secondes) ! Notons au passage que ce préfixe "tera" (pour 1012), qui signifie "monstre" en grec, a donné son nom au projet.

Cela posait-il un problème particulier aux constructeurs ?
Cette puissance de 100 téraflops soutenus en 2010 était bien au-dessus de ce qu’ils pouvaient offrir en vertu de la loi de Moore. En gros, cette loi prédit que la puissance des ordinateurs double tous les dix-huit mois à un coût constant. Ce qui nous donnait tout au plus, en extrapolant la puissance des très puissants ordinateurs Cray dont nous disposions, 2 à 5 téraflops soutenus en 2010. Autant dire que ce gain de puissance, qui impliquait un changement fondamental des architectures de machine, nécessitait des sauts scientifiques et technologiques considérables… Seule la mise en parallèle d’un grand nombre de processeurs permettait de résoudre ce problème. Mais pour des raisons de coût, ces processeurs devaient être les moins chers possibles, donc ceux du marché de masse. Nous avons très vite pris conscience de la nécessité de pousser les constructeurs au-delà de leurs limites. Mais encore fallait-il être capable de discuter d’égal à égal avec eux pour pouvoir influer sur leurs choix. En 1997, nous avons donc constitué, sur le site du CEA/DAM-Ile-de-France, à Bruyères-le-Châtel, une équipe d’experts de très haut niveau. Une cinquantaine d’ingénieurs pouvaient ainsi interagir avec les constructeurs afin de les aider à définir une architecture répondant à nos besoins. Un calendrier fut établi : il s’agissait d’atteindre 1 téraflop soutenu en 2001 (opération TERA-1), 10 téraflops soutenus en 2005 (TERA-10) et les 100 téraflops soutenus en 2009. Tout cela avec un budget contraint. Aujourd’hui, nous prévoyons de porter cette capacité jusqu’à 10 pétaflops soutenus en 2017.

Concrètement, vous avez lancé un appel d’offres en 1999 pour une machine de 1 téraflop soutenu. Le cahier des charges était extrêmement complexe, avec plus de 250 critères et pénalités associées ! Quelle a été la réponse des constructeurs ?
La plupart jugeaient cela infaisable… Deux ont répondu du mieux qu’ils pouvaient : IBM et Compaq (en fait, Digital qui venait d’être racheté par Compaq). Ce dernier l’a emporté. Mais, compte tenu de l’évolution très rapide des technologies, la machine qu’ils nous ont livrée fin 2001 n’était pas exactement celle que nous avions commandée ! Elle nous a cependant permis de répondre à nos objectifs et d’atteindre 1,37 téraflop soutenu. Un très beau succès…

Quelles conclusions avez-vous tirées de cette première expérience ?
Tout d’abord, qu’il était effectivement possible de dépasser la loi de Moore, au corps défendant des constructeurs et ce, pour le bénéfice de tous les partenaires. La communauté scientifique a elle aussi été gagnante. Cette machine n’aurait sans doute pas existé sans nous ou, du moins, pas si tôt. De notre côté, elle nous a permis, non seulement d’assurer nos besoins sur près de cinq années et de tester le simulateur en cours de développement, mais aussi de tirer quelques leçons pour préparer TERA-10.

Lesquelles, par exemple ?
Lorsque nous avons commandé TERA-1, la puissance était notre principale obsession. Mais une fois l’objectif atteint, on s’est rendu compte que la gestion des données était au moins aussi importante. Je ne donnerai que quelques chiffres : chaque jour, cette machine produit plus de 3 térabytes de données, c’est-à-dire de l’ordre d’un pétabyte par an. Or aucune machine n’est à l’abri d’une panne. Comme on ne peut pas se permettre de perdre les résultats d’un calcul qui a duré plusieurs semaines sur des milliers de processeurs, il faut faire des sauvegardes très régulières. Malheureusement, ces opérations sont gourmandes en temps de calcul. On estime que sur une heure, la machine ne doit pas passer plus de cinq minutes à sauvegarder et à vider sa mémoire, ce qui dimensionne le système d’entrées-sorties. Mais cela s’est révélé beaucoup plus complexe que prévu. Nous avions sous-estimé les capacités d’entrées-sorties de la machine. En outre, du fait de l’architecture, les données doivent être écrites en parallèle, en gardant la possibilité de les recharger, et pas forcément sur les mêmes processeurs. Tout cela posait des problèmes de synchronisation lorsque la machine a fonctionné à pleine charge. Il a fallu plusieurs mois à nos équipes et à celles du constructeur pour contourner ce type de problèmes…

Les choses n’auraient-elles pas été plus simples si vous n’aviez pas commandé une machine sur papier ?
Bien évidemment. En informatique, deux ans valent une éternité. En 1999, les constructeurs ont répondu à notre appel d’offres avec des technologies qui n’existaient que sur le papier. Il leur fallait donc du temps pour les développer et les mettre en œuvre . La leçon était claire : le délai entre la commande et la livraison doit être réduit au minimum. Surtout, il faut imposer avant la signature des démonstrations technologiques prouvant l’existence des éléments essentiels de la machine.

Dès le début de l’opération TERA-1, vous avez offert du temps de calcul et vos compétences aux chercheurs et aux industriels. Quelles étaient vos motivations ?
Leur permettre d’accéder à des moyens dont ils ne disposaient pas et, ce faisant, asseoir la crédibilité de notre démarche. La simulation numérique est généralement validée par une ou plusieurs expériences. Mais avec l’arrêt des essais nucléaires, nous nous trouvions dans une situation inédite : il n’y aurait plus d’expérience globale possible. Dès lors, comment assurer la crédibilité de notre démarche vis-à-vis du monde extérieur sans pour autant divulguer, pour des raisons évidentes de sécurité, le détail de nos méthodes ? C’est pour démontrer que nous maîtrisions la technologie et que nous disposions, dans ce domaine, des meilleures équipes et des moyens informatiques les plus puissants, que nous avons démarré une politique d’ouverture. L’idée était simple : tout grand challenge résolu avec notre aide, quel que soit le domaine, renforcerait la crédibilité de nos équipes et de nos méthodes. C’est ainsi que nous avons fait participer nos experts et offert notre puissance de calcul pour le séquençage de génomes ou pour le calcul du déploiement du prion [2].

Cette politique d’ouverture s’est traduite par la création du Complexe de calcul scientifique du CEA. Avec sa machine de 60 téraflops, c’est le plus grand centre de calcul d’Europe. Comment fonctionne-t-il ?
En créant ce complexe, le CEA a voulu profiter au maximum de la synergie de ses programmes défense - industrie - recherche et des retombées du programme simulation numérique. Près de 150 ingénieurs et chercheurs du CEA/DAM y travaillent actuellement. Ce complexe est en fait composé du Centre de calcul défense, avec la machine Tera, du Centre de calcul recherche et technologie (CCRT), qui lui, est ouvert à tous, et enfin, d’un centre d’expérimentation dans lequel nos experts travaillent avec des universitaires et des industriels. La gouvernance de l’ensemble est assurée d’une part par la Défense (pour TERA), d’autre part, en ce qui concerne le CCRT, par un comité où chaque partenaire dispose de parts proportionnelles à son investissement. À ce jour, le CEA y a un peu plus de la moitié des parts. L’autre moitié appartient à de grands industriels (EDF, Snecma…) ou des laboratoires comme l’ONERA par exemple. Avec l’arrivée de TERA-10, la puissance globale du complexe a atteint les 70 téraflops (60 pour la Défense, 8 pour le CCRT et 2 pour l’Expérimentation) fin 2005. Elle dépassera les 100 téraflops début 2007 quand la nouvelle machine du CCRT de 40 téraflops sera livrée.

Il y a presque deux ans, une technopole – Ter@tec – a également vu le jour sur le site de DAM-Île-de-France à Bruyères-le- Châtel…
Le complexe de calcul scientifique du CEA est en effet le noyau d’une opération plus vaste : Ter@tec. L’objectif de cette technopole est de fédérer, autour du complexe de calcul scientifique, l’ensemble des acteurs de la simulation numérique : chercheurs, industriels, utilisateurs ou fournisseurs de technologies. Et aussi de partager avec la communauté scientifique et l’industrie les retombées du programme Défense et, par là, de porter l’Europe au plus haut niveau en matière de calcul haute performance.

Cette collaboration a-t-elle déjà porté ses fruits ?
Bien sûr. Deux laboratoires associés ont été créés avec l’université de Versailles. L’École Centrale de Paris et de grands industriels (Bull, Dassault, EDF, HP, Snecma) participent avec nous à la promotion de la simulation ou à la définition des machines de la prochaine génération. FAME est l’un des premiers projets issu de cette synergie défense - industrie - recherche. Réunissant Bull, le CEA et l’université de Versailles, ce projet, soutenu par le ministère de l’Industrie, a permis de développer un serveur performant dédié au calcul scientifique. Il est commercialisé par Bull depuis 2003 sous le nom de NovaScale. Fort de ce succès, un second projet (TeraNova) a été mené en 2003-2004, cette fois-ci sans l’aide de l’État, avec l’université de Versailles et les sociétés Bull, Dassault et Quadrics. L’objectif était alors de réaliser une machine téraflopique. Les retombées industrielles de ces opérations sont évidentes. Grâce à elles, Bull a pu développer un produit commercial extrêmement général pouvant être utilisé à la fois pour le marché de la gestion et celui du scientifique, mais surtout, des compétences qui le mettaient au niveau des plus grands industriels. Cela lui a permis de répondre à l’appel d’offres TERA-10.

Justement, venons-en au joyau du programme : la machine TERA-10. Quelles étaient les contraintes ?
Là encore, notre objectif principal – 10 téraflops soutenus – était très au-delà des prévisions de la loi de Moore. Comme pour TERA-1, l’architecture générale de la machine devait être de type "cluster de SMP" [système à mémoire partagée]. Mais nous avions trois contraintes supplémentaires. Tout d’abord, nous voulions une puissance soutenue très élevée à un coût global – y compris en ce qui concerne la puissance dissipée et l’encombrement au sol – minimal. Cela a impliqué d’utiliser les premiers processeurs "double cœur" disponibles sur le marché. Ce qui nous a placé une fois de plus en limite de la technologie. Ensuite, nous souhaitions disposer de gros serveurs SMP et ce, pour des raisons techniques (existence de codes à faible degré de parallélisme et développement de nouveaux modèles multi-échelles). Un pari difficile pour les constructeurs ! Enfin, nous voulions des capacités d’entrées-sorties quinze à trente fois plus importantes avec bien entendu les logiciels capables de traiter de tels volumes avec une fiabilité maximum. C’est sur la base de ces directives que la maîtrise d’œuvre a rédigé un cahier des charges très complet, avec 278 critères dont 53 correspondaient à des mesures sur des benchmarks (repères) définis par nos experts. L’appel à candidature a été lancé en janvier 2004. Huit constructeurs ont manifesté leur intérêt. L’appel d’offres sur performances a suivi en mars.

TERA-10 est la machine européenne la plus puissante. Qui plus est, pour la première fois de l’histoire du calcul haute performance, elle a été fabriquée en Europe. Est-ce pour cette raison que vous avez choisi Bull ?
Bien sûr que non ! Je vous rappelle que cette machine est l’un des éléments essentiels d’un programme devant, in fine, garantir les armes de dissuasion françaises. Comment peut-on imaginer que le CEA/DAM, à qui incombe cette responsabilité, puisse faire un choix compromettant son programme pour de simples raisons économiques ou de prestige ?
Cinq grands constructeurs ont répondu à l’appel d’offres : Bull, Dell, IBM, HP et Linux Networks. Bull a fait la meilleure proposition. Il a été capable de nous proposer une machine homogène avec des noeuds à 16 processeurs double cœur, mais aussi une performance soutenue sur notre benchmark Tera d’au moins 12,5 téraflops. La machine de Bull avait aussi, et de très loin, le meilleur système d’entrées-sorties et la consommation électrique la plus raisonnable. Enfin, ce constructeur a proposé une solution essentiellement "open source" préservant pour l’avenir la liberté de choix du CEA. Nous sommes évidemment très fiers qu’une entreprise française ait gagné ce challenge. Cela souligne la qualité de notre démarche d’ouverture via Ter@tec et les bénéfices que l’économie française peut retirer d’une synergie défense, industrie, recherche… La victoire de Bull marque le grand retour de l’Europe dans le domaine du calcul haute performance et nous ne pouvons que nous en satisfaire.

Cette "success story" montre-t-elle la voie à suivre pour que la France revienne dans la course ?
Les conclusions du rapport d’Emmanuel Sartorius et de Michel Héon remis au ministre de la Recherche voici quelques mois [3], sont très claires : la mise en œuvre d’une vraie politique en matière d’informatique de grande puissance s’impose et nos méthodes – regroupement des moyens et synergie entre défense, industrie et recherche – leur semblent les plus appropriées… Les temps et les mentalités changent ! Depuis le début de l’année 2005, on note d’ailleurs quelques changements. Ainsi, l’Agence nationale pour la recherche a inclus une ligne "calcul intensif" dans son programme et lancé un appel à projets en juillet dernier. Près de cinquante projets ont été soumis en septembre dernier qui sont en cours d’évaluation. Autre signe : le pôle de compétitivité "System@tic", dont Ter@tec est l’une des pièces maîtresses, vient de lancer, avec le soutien du ministère de l’Industrie, un projet de développement d’ordinateur de nouvelle génération. Certes, ces efforts sont sans commune mesure avec ceux entrepris aux États-Unis. Mais c’est un bon début.

Assiste-t-on à un mouvement identique au niveau européen ?
Oui. Après une année d’efforts et de persuasion, l’informatique de grande puissance va réapparaître dans les lignes budgétaires du 7e PCRD* (2007-2013) [4], qui devrait inclure un volet industriel. Le projet phare de cette opération consisterait, s’il est accepté, à mettre en place trois ou quatre grands centres de calcul en Europe dont la vocation serait non pas de fournir du calcul à un thème donné, mais d’être en permanence dans le trio de tête du Top500. Cela permettrait sans doute la résolution de grands challenges numériques dans la majorité des disciplines scientifiques et entraîner d’importants sauts technologiques. Le complexe de calcul scientifique du CEA/DAM-Île-de-France est naturellement candidat pour recevoir et animer une telle structure. Mais une chose est claire : tous ces projets n’auront de sens que s’ils s’appuient, comme aux États-Unis, au Japon et maintenant en Chine, sur un solide tissu industriel local et sur une réelle volonté des pays et de l’Union Européenne. ■

Propos recueillis par Fabienne Lemarchand

[1] Enquête sur les frontières de la simulation numérique, Académie des Technologies, Rapport du groupe de travail "Simulation", mai 2005 www.irisa.fr/orap/ Publications/AcaTecrapport_ Simulation.pdf

[2] V. Croixmarie et al., J. of structural biology, 150(3), 284, 2005

[3] E. Sartorius et M. Héon, "La Politique française dans le domaine du calcul scientifique", mars 2005. www.recherche.gouv.fr /rapport/calcul/2005- 017.pdf

[4] http://europa .eu.int/comm /research /future/index_en.cfm

*Le DoE (Département de l’énergie) pilote la dissuasion nucléaire aux États-Unis.
*Un pétaflop : un million de milliards d’opérations par seconde (1015 opérations/s).
*La puissance réelle de l’ordinateur est exprimée en téraflops soutenus. Elle correspond au produit de la puissance théorique par le rendement, c’est-à-dire le nombre d’opérations qu’un code de calcul est capable d’utiliser. Sur une machine parallèle, ces rendements sont de l’ordre de 20 % à 25 %.

*Un gigaflop : un milliard d’opérations par seconde (109 opérations/s).

*PCRD : Programme Cadre européen pour des actions de recherche, de développement technologique et de démonstration.

Source: adapté du numéro spécial de la Recherche "Le calcul haute performance", paru en janvier 2006 avec La Recherche n° 393.

Contact  |  Site map  |  Legal  |  Privacy