COBRA : une stratégie d’agrégation non linéaire

Benjamin Guedj - Université Pierre et Marie Curie (LSTA) & Telecom ParisTech (LTCI)
vendredi 7 février 2014

L’agrégation d’estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l’ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l’outil informatique ; parallèlement, le nombre de méthodes d’estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu’en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d’autres, les méthodes pénalisées (le Lasso et ses variantes), les $k$-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc. Il est dès lors légitime d’étudier des procédures d’agrégation de techniques existantes, afin de tirer le meilleur de chacune d’elles et d’éliminer autant que possible la phase---par essence subjective---de spécification d’un modèle. La littérature est riche de nombreuses méthodes d’agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l’estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées.

Références : http://arxiv.org/abs/1303.2236 et http://cran.r-project.org/web/packages/COBRA/index.html


Agenda

<<

2017

>>

<<

Juin

>>

Aujourd'hui

LuMaMeJeVeSaDi
2930311234
567891011
12131415161718
19202122232425
262728293012

Annonces

ESANN 2016 : European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning


STATLEARN 2016


ICOR 2016