n°28
Juillet
2014
"La communauté de l’apprentissage automatique est affamée de données provenant de projets scientifiques"

Balázs Kégl, chercheur en informatique au Laboratoire de l’Accélérateur Linéaire.

- Balázs, vous êtes l’un des deux chercheurs en informatique qui exercent leur activité au sein de l’IN2P3. Pourriez-vous nous dire quel a été votre parcours pour rejoindre notre communauté ?

J’ai obtenu mon diplôme d’ingénieur en génie électrique, spécialité informatique, en Hongrie en 1994. Dès le début de mes études, j’ai été attiré par l’apprentissage automatique (machine learning), qui est, pour citer Andrew Ng, la science de permettre aux ordinateurs d’agir sans être explicitement programmés. C’était au temps des premiers succès des réseaux de neurones sur des problèmes pratiques, par exemple la reconnaissance d’écriture manuscrite. Les connexions avec l’intelligence humaine et le cerveau m’intriguaient. Il y avait très peu de théorie derrière ces méthodes, et du fait que j’étais entouré de brillants mathématiciens travaillant sur les statistiques et le traitement du signal, j’ai commencé à faire de la recherche principalement en théorie de l’apprentissage. Au cours de mon doctorat et post-doctorat au Canada, ma fibre technologique a peu à peu pris le dessus et j’ai commencé à travailler plus sur le côté algorithmique-méthodologique de l’apprentissage automatique, mais mon bagage mathématique m’a beaucoup aidé dans la formalisation des problèmes et des solutions tout au long de ma carrière.

J’ai été recruté comme professeur adjoint en 2001 par l’Université de Montréal, où j’étais un chercheur « classique » de l’apprentissage automatique, publiant des papiers dans nos deux grandes conférences annuelles (ICML et NIPS), et travaillant soit sur des problèmes propres à la discipline (amélioration et analyse des méthodes) soit sur des problèmes motivés par des applications pratiques en génie logiciel, en traitement de signal musical et en traitement de l’image. Pendant cette période, j’étais régulièrement (mais pas de façon très intensive) à la recherche d’opportunités pour revenir en Europe, principalement pour des raisons familiales. En 2006, un poste de CR1 sur le thème de la fouille de données (data mining) s’est ouvert au LAL, et j’ai postulé et été recruté. J’ai plongé directement dans le grand bain parce que je n’avais pas suivi de formation académique en physique depuis le lycée, mais j’ai apprécié le défi. Je dois admettre que c’était un tournant risqué dans ma carrière, mais je pensais que la flexibilité et la liberté d’un poste CNRS me permettraient de revenir dans un laboratoire d’apprentissage automatique traditionnel au cas où l’expérience n’aurait pas fonctionné.

Je pense qu’à cette époque seul Guy Wormser, alors directeur du LAL, avait une vision claire de la place que pouvait prendre en physique des hautes énergies la recherche en apprentissage automatique et en fouille de données. Il est frappant de constater que cette vision, un chercheur en science des données immergé dans un laboratoire scientifique où les données sont produites et analysées, est de plus en plus courante aujourd’hui.

- Pourriez-vous nous décrire brièvement vos domaines de recherche et votre équipe ? Depuis votre arrivée à l’IN2P3, quelle a été votre interaction avec les physiciens de notre discipline ? Comment décrire l’impact de vos propres recherches sur les méthodes informatiques des expériences de physique des particules ? Inversement, avez-vous tiré un enrichissement scientifique de cette interaction ?

Quand je suis arrivé à LAL, j’ai rejoint l’expérience Pierre Auger et le groupe Auger du LAL. Il n’y avait rien de conscient dans ce choix, mais rétrospectivement j’étais probablement impressionné d’approcher une des plus grandes expériences de physique des particules. Cela s’est avéré une sage décision : Auger était un petit groupe avec des physiciens astucieux et ouverts d’esprit, en particulier Marcel Urban, qui a été assez patient pour m’initier aux bases de la physique des particules et de la physique expérimentale en général, principalement au cours de déjeuners à la cantine. J’ai beaucoup apprécié le défi intellectuel d’apprendre une nouvelle discipline, et du coup la phase d’apprentissage a été assez courte. Je peux dire avec une certaine fierté que dans Auger je peux passer pour un physicien sans problème. Il s’avère également qu’une expérience en phase finale a surtout besoin de chercheurs qui savent comment extraire de la connaissance à partir de données, de sorte que mon expertise dans le domaine s’est révélée assez efficace dans beaucoup de cas où l’analyse des données n’était pas simple.

La mission de mon groupe au LAL (AppStat) s’est décantée assez rapidement : apporter à la physique des techniques d’analyse à l’état de l’art, et aiguillonner la recherche fondamentale en apprentissage automatique et en statistique par de vrais problèmes de physique. J’ai construit rapidement une équipe, grâce à deux projets ANR, MetaModel et Siminole. Pendant ces huit années, j’ai dirigé la thèse de trois étudiants en informatique et (partiellement) de deux étudiants en physique, et encadré quatre postdocs, un ingénieur et un chercheur invité. Je collabore étroitement avec des groupes d’apprentissage automatique et de statistique à Saclay, principalement avec Michèle Sebag et Cécile Germain du LRI et Olivier Cappé et Gersende Fort de Telecom ParisTech. Environ la moitié de mes publications sont en apprentissage automatique « pur » (sans motivation par de la physique) ; il était important de rester en contact avec ma communauté. Fait intéressant, la physique m’a aussi motivé à élargir mon horizon sur le plan méthodologique, puisque certains problèmes n’auraient pas pu être résolus par des techniques que je connaissais auparavant. Un autre bénéfice de travailler avec des physiciens, c’est que j’ai appris à leur contact l’humilité et la rigueur dans la conduite d’expériences sur ordinateur. En apprentissage automatique, c’est la créativité qui prime : nous inventons des méthodes qui doivent améliorer de façon significative les techniques existantes pour être publiées. Habituellement une amélioration est mesurée sur des jeux de données de référence, mais souvent ces expériences sont loin d’être rigoureuses, quelque chose que je peux maintenant voir clairement en raison de mon expérience en physique.

- Comment voyez-vous l’avenir de la fertilisation croisée entre les sciences statistiques et la physique des hautes énergies ?

Ces 2-3 dernières années, j’ai commencé peu à peu à travailler avec d’autres groupes de physique des particules. Avec l’expérience LHCb, nous travaillons sur l’« apprentissage avec budget » (budgeted learning) pour concevoir des triggers. J’ai deux projets sur un thème que j’appelle « apprendre pour découvrir ». Avec le groupe ATLAS, nous travaillons sur des méthodes multivariées pour optimiser la signification statistique d’une découverte. Nous avons récemment lancé le défi de données publiques HiggsML (https://www.kaggle.com/c/higgs-boson), qui a attiré 700 équipes de chercheurs en science des données en un mois ! Il est intéressant de constater combien la communauté de l’apprentissage automatique est affamée de données provenant de projets scientifiques. Le projet scientifique le plus futuriste est celui avec l’équipe Calice (ILC) au LAL et au LLR : nous travaillons sur l’adaptation des techniques d’apprentissage de la représentation profonde (deep representation learning) à la représentation graphique des données du calorimètre, essentiellement en apprenant la physique des particules à des ordinateurs en leur montrant des événements. Ces méthodes ont révolutionné la reconnaissance vocale et la vision par ordinateur au cours des cinq dernières années, et ont le potentiel de réaliser le rêve de 50 ans d’intelligence artificielle.

- Vous avez proposé, puis on vous a demandé de mettre en place un "Center for Data Science" dans le cadre de la Fondation de Coopération Scientifique (FCS) du Campus Paris Saclay, sans doute la plus grosse concentration scientifique jamais réalisée en France. Qu’est ce qu’un "Center for Data Science" ? Comment envisagez-vous de relever ce défi ?

Comme je l’ai déjà dit, ce qui était visionnaire il y a huit ans est devenu un courant majeur aujourd’hui. Les Centres de Données Scientifiques (ou initiatives portant un nom similaire) fleurissent un peu partout dans le monde (New-York, Berkeley, UWashington, Amsterdam, Edimbourg, pour ne citer que les principaux). L’idée est très exactement une généralisation d’AppStat. Aujourd’hui, la communauté de la science des données est dispersée dans différentes disciplines. Nous faisons essentiellement la même recherche en statistique (mathématiques), en apprentissage automatique, en fouille de données, en visualisation de données (informatique), et en traitement de signal (génie électrique). La preuve : nous nous rencontrons régulièrement lors de conférences scientifiques. Le premier objectif du CDS est de former une communauté de chercheurs en science des données à la nouvelle Université Paris-Saclay. Le deuxième grand défi est que les données sont aujourd’hui omniprésentes, et les disciplines qui étaient plutôt pauvres en données dans le passé sont submergées par les données aujourd’hui. Notre objectif est de créer une "agora" où les scientifiques qui détiennent des données (et ont des problèmes d’analyse) peuvent rencontrer des scientifiques qui connaissent (et font de la recherche sur) la méthodologie d’analyse des données. Un troisième et important objectif est d’organiser la construction et la maintenance des outils logiciels qui pourront être utilisés pour l’analyse des données dans plusieurs disciplines. La communauté de la physique a une longue expérience dans ce domaine, paradoxalement beaucoup plus d’expérience que la communauté de l’informatique, et nous sommes impatients d’apprendre et de généraliser cette expérience en forgeant des outils pour une communauté scientifique plus vaste.

Le CDS, pour le moment, est un projet de deux ans. Nos deux outils principaux sont le financement de 10 à 15 projets interdisciplinaires et de 3 à 6 thèses, et l’organisation de journées thématiques et de séances de brainstorming informelles. Nous sommes actuellement dans le processus d’évaluation des propositions à notre premier appel. Nous allons lancer un deuxième appel à projets au niveau doctorat à l’automne prochain, et, s’il nous reste encore de l’argent, nous aurons un deuxième appel à projets au début de 2015. Nous prévoyons d’organiser 8 à 10 journées thématiques au cours des deux prochaines années, autour de thèmes tant méthodologiques que scientifiques. Outre la physique des particules, nous voyons se former de fortes collectivités en sciences de données autour des neurosciences, des sciences de l’environnement et de la terre, de l’économie, de la biologie et de la chimie, et de l’astrophysique et de la cosmologie.

Outre ces objectifs à court terme, nous allons également rapidement commencer à concevoir une stratégie à long terme. Nous avons une forte motivation venant de la base, et, en même temps, la pression de la FCS pour mener à bien ce travail. C’est un moment passionnant : en un sens, nous avons à inventer l’avenir de la science des données pour les données de la science. La tâche est difficile : nous devons trouver une façon d’initier puis d’organiser des projets interdisciplinaires temporaires et à inciter les gens à investir dans la construction d’outils. Saclay est un endroit idéal pour cela en France : nous avons la masse critique (plus de 250 chercheurs sont associés au CDS), le soutien formel de la FCS et d’autres acteurs (laboratoires, écoles, universités, et Labexes), et un paysage institutionnel particulièrement fluide en ce moment, par ailleurs en évolution du fait de la mise en place d’UPSay.

Un défi majeur qui semble passer largement inaperçu de nos tutelles est la "fuite des cerveaux" sans précédent des chercheurs en science des données vers la recherche privée. La plupart des grandes entreprises dites « IT » (technologie de l’information) comme Google, Microsoft, Facebook, Amazon, Baidu, Criteo, etc. mettent sur pied rapidement des laboratoires de recherche à part entière, offrant des salaires et des infrastructures technologiques avec lesquels le secteur public ne peut pas rivaliser, et, en même temps, nous apportent des problèmes scientifiques redoutables et excitants dans les sciences sociales, l’ingénierie et la recherche en intelligence artificielle. Et ceci au moment où les étudiants commencent également à découvrir la science des données et s’inscrivent en masse dans nos classes. Sans une stratégie concertée des instituts nationaux et de l’enseignement supérieur, nous allons être confrontés à une grave pénurie dans la recherche et l’enseignement des sciences de données publiques (open data) dans un proche avenir. Les CDS ne peuvent pas résoudre tous ces problèmes, mais nous pouvons être une part importante de la solution.

Propos recueillis et traduits de l'anglais par le comité de rédaction