Sommaire
Edito
Programme 7i
Tribune
Invités du mois
Temps fort
Succès
Paroles d'experts
Solutions
Quizz
En bref
Agenda
Version PDF
 

Abonnez-vous à
Bull Direct :

Votre email

Archives
n°19  |  Octobre   2007
Parole d'expert

NovaScale Intensive : des serveurs ouverts de classe ‘mainframe’, hautement disponibles et facilement maintenables
Par Laurent Cargemel, responsable R&D des serveurs NovaScale

Les serveurs Bull NovaScale Intensive représentent la 3ème génération de serveurs basés sur processeurs Intel Itanium conçue par Bull. Serveurs modulaires, de classe ‘mainframe’, ce sont des serveurs haut de gamme 64-bit SMP, dotés de puissantes fonctions de partitionnement. Multi environnements, ils fonctionnent sous Linux®, Windows® et GCOS. Ils sont également au cœur de l’offre DataScale™ que Bull vient d’introduire avec son partenaire Oracle.
 

Destinés au support de grandes bases de données, aux applications décisionnelles et au calcul haute performance, ces serveurs s’appuient sur l’architecte EPIC (Explicit Parallelism’ Instruction Computing) et embarquent jusqu’à 32 processeurs 64-bit Intel Itanium double cœur. Ils intègrent tous le même logiciel d’administration et de management : NovaScale Master.
Les impératifs de fiabilité, de disponibilité et de maintenabilité ont été pris en compte dès la conception de l’architecture des serveurs NovaScale et jusqu’aux conditions de mise en opération chez les clients1 .

La fiabilité des serveurs NovaScale est notamment due à la qualité de leur conception, au choix des composants et à leur fabrication.

Conception et architecture de ‘classe mainframe’
La conception et la validation des serveurs NovaScale Intensive ont été entièrement réalisées par les équipes R&D de Bull en France. La conception s’appuie essentiellement sur deux piliers :

  • leur expérience solide dans la conception de ‘mainframes’ ;
  • un partenariat étroit avec les équipes R&D d’Intel, de Microsoft et d’autres partenaires.

Basés sur l’utilisation de modèles mathématiques et des données MTBF2 des fournisseurs de composants, des modèles de prévision de fiabilité du système ont été systématiquement réalisés.

Lors de la conception de NovaScale, la température opérationnelle qui a été définie pour l’infrastructure du FSS3 est inférieure aux maximales autorisées par les spécifications techniques. Ce choix permet à Bull de garantir une durée de vie accrue des composants et donc des serveurs NovaScale. Pour obtenir ce résultat, un mécanisme de refroidissement dynamique sophistiqué a été élaboré et des ventilateurs à rendement élevé ont été conçus.
L'architecture système de ces serveurs NovaScale, ainsi que l'utilisation de la redondance au niveau des composants, permet de configurer un serveur sans un seul point de défaillance (ou SPOF, Single Point Of Failure4) .

Respect des normes et application des procédures qualité
Au-delà de leur conformité aux normes en vigueur, les serveurs NovaScale bénéficient de la certification ISO 9001 décernée à Bull pour l’application et la gestion de vie de ses produits. Dans le même esprit, son entité industrielle et logistique, soucieuse d’apporter sa contribution à la protection de l’environnement et au développement durable, est certifiée QSE : ISO 9001 (Qualité), OHSAS 18001 (Sécurité) et ISO 14001 (Environnement).

La valeur ajoutée industrielle
Les serveurs NovaScale Intensive sont entièrement fabriqués à Angers, au cœur du site industriel de Bull en France. Là aussi, les processus de fabrication sont des éléments clés pour la fiabilité de ces serveurs. À chaque étape, des essais rigoureux sont réalisés pour vérifier la qualité opérationnelle de chacun des composants.

Ainsi, pour chaque commande client, ces serveurs sont assemblés, puis montés dans des armoires hautes ou basses. Le câblage de l’ensemble de la configuration est réalisé : serveur(s), mais aussi éléments de stockage, de sauvegarde et de réseau. De même, le système d’exploitation est pré chargé et l’ensemble des composants commandés (cartes PCI, mémoires, disques, processeurs, partitionnement) est testé fonctionnellement.

Le processus de fabrication inclut également de multiples séquences de tests répartis sur plusieurs jours, permettant de faire varier des paramètres tels que la température et la tension, pour valider le bon fonctionnement des serveurs face à des contraintes maximales auxquels ils pourraient être soumis. La dernière étape est un test de résistance réalisé sur le serveur NovaScale, en configuration finalisée, juste avant la livraison.

Ces cycles de tests exigeants garantissent la qualité et la robustesse des serveurs livrés à nos clients pour leur ‘Data Center’, prêts à être mis en service.

Une fois le serveur opérationnel chez le client, le responsable de production ou l’administrateur du serveur dispose de toutes les fonctions requises pour en assurer son administration et sa disponibilité.

Les fonctions offertes

administration

Assurer la surveillance de son serveur
La surveillance des serveurs NovaScale est gérée par NovaScale Master, la plate-forme d’administration sécurisée, conçue par Bull, qui peut opérer avec les solutions de supervision existantes, telles qu’OpenMaster.
NovaScale Master s’appuie sur un environnement spécifique : le PAM (Platform Administration Management) qui a été conçu en s’inspirant directement de la gestion des ‘mainframes’. Il supervise le fonctionnement des serveurs NovaScale Intensive et permet d’identifier et/ou de prévenir les pannes. C’est véritablement l'interface synthétisant les caractéristiques de fiabilité, de disponibilité et de maintenabilité des serveurs NovaScale.

Détecter une panne
La détection des pannes dans l’architecture des serveurs NovaScale Intensive est illustrée par le dialogue permanent entre la carte PMB (Platform Maintenance Board) d’un module et la station d’administration (PAP). Ce dialogue fonctionne suivant deux modes : mode ‘out-of-band’ (l’O/S n’est pas activé) et mode ‘in-band’ (l’O/S est activé).
La carte PMB, conçue et fabriquée par Bull, est une carte amovible constituant un sous-ensemble du module des serveurs NovaScale Intensive. C’est véritablement la pierre angulaire de l’administration et de la maintenance du serveur, car elle est en charge de la mise sous tension des autres composants, de leur initialisation, du maintien de leur état et de la remontée d'événements liés à l'apparition de fautes, de pannes et de changements d'états.

Localiser précisément une panne et la signaler immédiatement
Grâce à l’affichage synthétique de l’état de présence et de l’état fonctionnel de tous les composants du serveur via l’interface graphique du PAM, la localisation d’une panne est rapide et précise. L’administrateur autorisé a accès à toutes ces informations via NovaScale Master, depuis un simple navigateur Internet.
Lorsqu'un incident se produit, pendant une séquence de mise sous tension / mise hors tension / mise hors tension forcée / réinitialisation du domaine ou activité opérationnelle ordinaire, un message s'affiche dans le panneau d'état du domaine et une trace est enregistrée dans les journaux de mise sous / hors tension du domaine. Le logiciel PAM a la capacité de signaler alors l’incident aux utilisateurs connectés et non connectés via :

  • l'interface Web PAM (Volet d'état et/ou fichiers d'historique utilisateur) ;
  • l’envoi de courrier électronique (message e-mail) ou de message téléphonique (SMS) pour les utilisateurs habilités ;
  • l'émission d'appels automatiques au centre de support Bull (selon les termes du contrat de maintenance souscrit) pour analyser l'incident et mettre en oeuvre les mesures de maintenance correctives ou préventives.

Corriger une panne automatiquement et dynamiquement
Un nombre important de pannes est pris en compte dynamiquement, sans incidence sur la disponibilité des serveurs, grâce :

  • aux mécanismes de type ECC (détection et correction d'erreurs) appliqués sur la mémoire, mais aussi sur tous les chemins de transferts de données, dans tout le module incluant les chips FSS. Ces transferts sont réalisés en utilisant des protocoles sophistiqués qui incluent de puissants mécanismes de reprise ;
  • à l’architecture de contrôle automatique avancée (Technologie Intel® Advanced MCA Machine Check Architecture) et à l’intégrité des caches (Technologie Intel® Cache Safe) au niveau des processeurs ;
  • aux tests complets de mise sous tension ;
  • au contrôle automatique des alimentations et des ventilations ;
  • aux disques systèmes protégés par mécanisme RAID.

L'accès à distance à tous les dispositifs de disponibilité, en particulier au logiciel PAM, est possible. Le meilleur expert, indépendamment de l’endroit où il se trouve, peut être mobilisé pour résoudre les questions les plus complexes.

Optimise en minimisant les conséquences d’une panne et l'indisponibilité du serveur
Un certain nombre de composants matériels peuvent être remplacés sans impact sur le fonctionnement du serveur. C’est le cas par exemple des boîtes d’alimentation, des ventilateurs (dits ‘hot-swap’), des cartes PCI, des disques internes (dits ‘hot-plug’).
Dans le cas où, suite à un incident, le fonctionnement de tous les éléments du serveur ne peut être immédiatement assuré, les serveurs NovaScale fournissent la possibilité d’une reprise en mode ‘configuration dégradée’. Par exemple, des cartes ou des processeurs suspectés d’être défaillants peuvent être temporairement exclus de la configuration jusqu'à ce qu'ils soient remplacés. Le PAM permet de procéder aisément aux exclusions sans qu’aucune intervention physique sur le matériel de la plate-forme ne soit nécessaire. Le serveur ou la partition impactée est immédiatement relancé(e).

De plus, grâce aux fonctions de partitionnement physique des serveurs NovaScale Intensive, chaque partition est physiquement indépendante et isolée des autres partitions. Une partition peut être mise hors tension sans aucun impact sur les autres partitions actives. Ainsi en cas d’incident ou d’opération de maintenance sur une partition, la majorité des composants matériels de cette partition peut être physiquement remplacée sans aucun impact sur les autres partitions. Le partitionnement physique des serveurs NovaScale Intensive est utilisé notamment dans les grands centres informatiques pour assurer la disponibilité maximale des activités de production en les isolant dans une partition dédiée, tout en menant en parallèle d’autres opérations dans une autre partition comme le passage de tests ou des développements5.

Prendre du recul, analyser les divers ‘logs’ et ‘reporting’, comprendre et décider des évolutions éventuelles
Une fois un problème identifié par un changement d’état, provoqué soit par le résultat d’une requête périodique, soit par la réception d’une alerte, l’administrateur du système cherchera des informations complémentaires pour comprendre ce qui est arrivé. Il voudra connaître les causes probables, l’historique, le contexte de l’incident, etc. Les deux fonctionnalités utiles pour ces besoins sont les informations d’inventaires (type de machine, capacité disque, type d’OS, nombre de processus, etc.) et les rapports d’activité ou ‘reporting’ (historique des statuts, graphes numériques, etc.).

Ces deux fonctionnalités sont fournies par NovaScale Master. Les informations d’inventaire permettent de comprendre le contexte d’un problème. Les informations de ‘reporting’ permettent de quantifier dans le temps le problème (Depuis quand ? Combien de fois ? Survenu progressivement ou brutalement ? ). Le ‘reporting’ peut être utilisé aussi de façon préventive pour surveiller la charge et les performances du système et ainsi pouvoir devancer les futurs problèmes. Lorsque le problème est analysé et compris, il ne reste plus qu’à agir sur le système, au mieux pour résoudre le problème ou au pire pour mettre en place un contournement.

La fiabilité, la disponibilité et la maintenabilité des serveurs NovaScale sont par ailleurs renforcées par d’autres solutions d’infrastructure :

  • des solutions logicielles de haute disponibilité telles ARF (Application Roll-over Facility) pour Linux ou MSCS (Microsoft Clustering System) pour Windows ;
  • des solutions d’équilibrage de charges telles que DDFA (Dynamic Domains for Applications) pour Linux ou NLBC (Network Load Balancing Clusters) pour Windows ;
  • des solutions de stockage sécurisées avec reprise après sinistre, telles que Bull StoreWay FDA ;
  • des Plans de Reprise Automatique (PRA), avec définition précise des délais d’interventions, de réparation et engagement de disponibilité ;
  • un support personnalisé via le HA Center Bull, qui assure la télésurveillance 24h/24 et 7j/7 des systèmes et mène des actions proactives de maintenance au travers d’accès distants IP sécurisés.

La robustesse et la facilité d’administration des serveurs NovaScale ont fait leurs preuves, y compris lors de mises en œuvre les plus exigeantes. Un exemple : pour son supercalculateur TERA-10 – cluster de plus de 600 serveurs NovaScale Intensive – le CEA avait des exigences très élevées en termes de continuité de service et de facilité d’administration. Dans un tel cluster, le taux réel de disponibilité dépend largement de la capacité à administrer l’ensemble de la structure. La surveillance de TERA-10 est ainsi basée sur NovaScale Master qui gère à partir d’un seul point central l’ensemble des serveurs NovaScale, le réseau et le stockage.

1 Les caractéristiques décrites dans ce document sont disponibles sur les serveurs NovaScale Intensive Séries 5000, 7000 et 9000

2 MTBF : Mean Time Between Failure – temps estimé de fonctionnement sans panne

3 FSS: FAME Scalability Switch : chip sophistiqué conçu par Bull (60 millions de transistors), qui assure à chaque processeur l'accès aux entrées sorties, ainsi qu'une vision cohérente de la mémoire globale pouvant atteindre jusqu’à 512 Go. La température maintenue est de 73°C, versus une température de100°C qui aurait été technologiquement acceptable.

4 Un composant, s’il tombe en panne, est considéré comme un SPOF s’il empêche le serveur de fonctionner tant qu’il n’est pas réparé. Cette optimisation est effective au sein d’un même module (composants : QBB, processeur, mémoire, I/box, FSS, PMB, carte PCI, disque interne, alimentation et ventilateur ou de plusieurs modules reliés entre eux.

5 Le partitionnement permet également d’héberger sur un même serveur plusieurs systèmes d’exploitation, ou plusieurs occurrences d’un système d’exploitation, par exemple Windows, Linux ou GCOS.


 

ENVOYER A UN AMI POUR EN SAVOIR PLUS
Contact  |  Site map  |  Legal  |  Privacy