n°28
Juillet
2014
Le Higgs boson machine learning challenge

Le Higgs boson machine learning challenge (HiggsML) est en cours, et s’achèvera le 15 septembre 2014.

Pour la première fois, l’expérience ATLAS au CERN a rendu publique une partie des données de simulation utilisées par les physiciens pour optimiser une analyse, en l’occurrence l’analyse qui a mis en évidence la désintégration du boson de Higgs en paires tau+tau- annoncée en novembre 2013.

Le challenge est organisé par une équipe interdisciplinaire de physiciens d’ATLAS et d’informaticiens du LAL (Université Paris Sud et CNRS/IN2P3), du LRI (Université Paris Sud et CNRS), d’Inria, de Royal University University College et de ChaLearn. Il est hébergé par la société Kaggle.

Le but est d’explorer le potentiel des méthodes avancées d’apprentissage automatique pour améliorer la signification statistique de l’expérience. Au delà, il vise à promouvoir la collaboration entre physiciens des hautes énergies et informaticiens spécialistes de l’apprentissage automatique.

Le challenge se déroule de mi-mai à septembre 2014. Aucune connaissance de physique des particules n’est nécessaire pour participer. Il est doté de trois prix de plusieurs milliers de dollars ; en outre, les auteurs des méthodes les plus intéressantes pourront être invités au CERN pour discuter de leurs résultats avec des physiciens des hautes énergies.

Les participants sont invités à télécharger sur le site du challenge un échantillon d’entrainement de 250.000 événements (30 variables par événement), où chaque événement est étiqueté « signal » ou « bruit de fond ». Ils mettent au point un algorithme de séparation, basé sur des techniques réseau de neurone, arbres de décision boosté ou autres, dont la qualité est qualifiée par un score, qui est une estimation de la signification statistique de l’analyse. Puis ils téléchargent un échantillon de test de 550.000 événements où les étiquettes ont été masquées, appliquent leur algorithme, et soumettent les solutions sur le site, qui calcule en ligne le score et met à jour un leaderboard. Un forum très actif permet l’échange entre participants et avec les organisateurs.

Au 20 juin, plus de 700 équipes ont commencé à soumettre des solutions, plus de 10 soumissions par équipe en moyenne. Dès la première semaine, les benchmarks créés avec des algorithmes traditionnellement utilisés dans ATLAS étaient largement battus. Le profil des participants est très divers et tout indique que l’objectif de toucher une grande communauté en dehors de la physique des particules est atteint.

Pour en savoir plus : http://higgsml.lal.in2p3.fr

David ROUSSEAU (LAL)