Avec les lettres N°11 et N°16, cet article complète la trilogie d’une histoire qui se passe au Centre de Calcul : une aventure nommée « Système de BATCH », dont les deux héros sont BQS et Grid Engine !
Avec le choix de Grid Engine comme nouveau système de batch en mars 2010, un nouveau chantier s’est ouvert durant presque 2 ans au Centre de Calcul. Il s’est déroulé en 3 phases successives :
- Phase 1 : Exploration du produit et formation des personnels : avril 2010 – septembre 2010
- Phase 2 : Tests, configuration avancée et déploiement en pré-production : septembre 2010 – avril 2011
- Phase 3 : Mise en production et migration de BQS vers Grid Engine : avril 2011 – décembre 2011
Ainsi 2011 restera l’année du remplacement de BQS par Grid Engine avec la migration des derniers worker-nodes lors de l’opération de maintenance du 5 décembre 2011, date qui représente donc l’arrêt définitif du système de batch « historique » : BQS.
C’est l’occasion de rappeler que BQS a accompagné la vie du centre de calcul pendant presque 20 ans, puisque les premiers développements remontent aux années 1992-1993. Le logiciel a évidement subi de profondes évolutions, tant d’un point de vue de ses fonctionnalités que d’un point de vue de son implémentation informatique. Grâce à ces évolutions, il a ainsi largement donné satisfaction, pendant les nombreuses années, en particulier sur les aspects robustesse, scalabilité et adaptation aux besoins de l’opération et ce dans un contexte de forte montée en charge (nombre de jobs multiplié par 10 entre 2005 et 2010).
BQS, c’était environ 100.000 lignes de code C/C++/Java, et pour autant il était peu exigeant : le service était déployé sur deux machines, l’une pour la base de données MySQL, l’autre pour la fonction master BQS. Mais BQS c’était aussi des hommes et j’en profite, une dernière fois, pour rappeler que le logiciel fut initialement porté par Yves Fouilhé, rejoint quelques années plus tard par Bernard Chambon puis Julien Devemy. Enfin je voudrais aussi souligner le rôle très important de Suzanne Poulat, au service exploitation, qui grâce à son grand sens du service, a eu un rôle déterminant dans le bon fonctionnement du logiciel.
La barre est donc haute pour son successeur. Ce dernier ne manque d’ailleurs pas de qualités fonctionnelles, mais comme un jeune athlète, il a besoin d’entrainement et d’être entouré d’une bonne équipe. Sur ce dernier point, les personnes en charge de son opération au quotidien veillent avec grand soin sur ce jeune poulain.
Il faut dire que le Centre de Calcul offre un environnement riche mais contraignant. Ainsi Grid Engine dispose d’une configuration complexe pour répondre à de très nombreux besoins. La gestion des tokens AFS, la régulation des flux de jobs, la gestion d’une grande variétés de jobs (séquentiels, multicores, parallèles et interactifs), la haute disponibilité des informations des jobs, sont quelques uns des services que le logiciel doit apporter, et ce dans un environnement où les flux de jobs sont importants, puisque nous traitons classiquement plus de 13.000 jobs simultanés et 120.000 jobs quotidiennement - (voir fig. 1).
Fig. 1 Vue instantanée des 14000 jobs en exécution distribués sur 1257 worker-nodes, avec la répartition par utilisateur, projet, queue d’exécution, worker-node et complex de régulation.
Cette vue montre par exemples que 2585 jobs sont en exécution dans le projet P_atlas_T1prod (vert), que 3 jobs parallèles s’exécutent dans la queue pa_long et utilisent 322 slots (bleu), que 1983 jobs déclarent le complex de régulation ’hpss’ pour accéder au service de stockage HPSS (rouge).
Les premiers retours d’expériences, très positifs, confirment les nombreuses possibilités fonctionnelles de Grid Engine, même si l’exploitation quotidienne ne dispose pas encore de tous les outils nécessaires à nos besoins spécifiques.
Le changement du système de batch peut aussi traduire une nouvelle approche dans le fonctionnement du Centre de Calcul puisque le passage de BQS à Grid Engine signe l’arrêt d’un important développement interne au profit d’un produit commercial.
Ce mode de fonctionnement offre de nouvelles opportunités, comme accroître notre veille technologique et monter en compétences sur l’intégration de solutions logicielles. Cette nouvelle approche est tout à fait intéressante, tant pour les membres de l’équipe en charge du système de batch, que pour le Centre de Calcul.
Après avoir souhaité bonne retraite à BQS, nous souhaitons donc bon vent à Grid Engine !
Bernard CHAMBON