n°11
Mai
2010
Evolution du système de batch du Centre de Calcul IN2P3 (CC)
Grille d'évaluation par thèmes

Courant 2009, le CC a décidé de faire évoluer son système de batch, et, plus précisément, a envisagé l’arrêt des développements de son produit historique, BQS (Batch Queueing System), pour le remplacer par une solution existant par ailleurs.

Petit rappel : les premiers balbutiements de BQS remontent aux années 1992-1993 lorsque le CC est passé de l’environnement VM (mainframe centralisé) à l’environnement Unix (informatique distribuée). Yves Fouilhé [1] fut initialement « porteur » de ce logiciel, suivi, plus tard par Bernard Chambon [2] et Julien Devemy [3]. BQS a subi de profondes évolutions au cours des années, telles le stockage en base de données, le multithreading, la fonctionnalité de jobs parallèles, le fairshare à deux niveaux. BQS a ainsi pu absorber une forte monté en charge (x10 entre 2004 et 2009) tout en fournissant un service de grande qualité : actuellement plus de 10,000 cœurs de calcul et un flux quotidien d’environ 100,000 jobs.

Mais l’environnement de travail s’ouvrant vers l’extérieur, il convenait de s’orienter vers une solution adoptée par ailleurs.

C’est dans ce contexte qu’une étude a été lancée courant 2009, visant à trouver, parmi les produits existants, la meilleure solution, si possible adoptée dans la communauté HEP, et prenant en compte les différentes contraintes du CC. S’appuyant sur l’expérience acquise pendant plus de 15 ans avec BQS, l’étude a commencé par le recensement des caractéristiques principales d’un système de batch. Ces éléments ont permis de construire une grille de plus de 60 critères regroupés sous 15 thèmes majeurs (cf. : Schéma). Un système de pondération et de notes par critère et par thème a ensuite permis d’obtenir une note d’appréciation globale.

Se référant à cette grille d’évaluation et à différentes sources de données, auxquelles s’est ajoutée une enquête sur les retours d’expérience d’administrateurs de systèmes de batch, l’étude s’est poursuivie par l’inventaire des solutions existantes, tant commerciales qu’en open-source.

Parmi les différents systèmes considérés (LSF, PBS-Pro, SGE, Torque/Maui, Slurm, Condor, OAR, LoadLeveler…), deux solutions se sont démarquées, entre autre sur les critères de scalabilité, non négligeables eu égard au projet d’extension de la salle machine : LSF (Load Share Facilities de Platform Computing) et SGE (Sun Grid Engine). Afin de ne retenir qu’une seule de ces deux solutions, chacun de ces produits a été « pris en main » durant quelques jours. Il a été reconnu que ces logiciels sont assez comparables, offrant tous deux des fonctionnalités très riches, mais au regard des critères de la grille, le choix se porte actuellement sur SGE.

La mise en place du nouveau système de batch est maintenant imminente. L’opération, complexe, va solliciter au cours de cette année 2010, tous les services du CC, plus spécifiquement, l’exploitation et le support aux utilisateurs, mais également la collaboration des utilisateurs.

Exemple concret de l’adaptation permanente qu’exigent les métiers de l’informatique, ce travail est un véritable challenge pour toutes les personnes directement impliquées.

Bernard Chambon

[1] Yves Fouilhé : Développeur de BQS jusqu’à son départ à la retraite en 2008.

[2] Bernard Chambon : Développeur sur BQS depuis 2002.

[3] Julien Devemy : Développeur sur BQS parallèle.

Interview

Ikuo UEDA

Cloud Computing

StratusLab
Rechercher
     

Responsables éditoriaux : Dominique Boutigny et Cristinel Diaconu
Comité de rédaction : Virginie Dutruel, Sébastien Grégoire, Eric Legay, Gaëlle Shifrin et Tiffany Thome

logo CCIN2P3
© CCIN2P3