Forêts aléatoires : sélection de variables et bornes de risque.

Robin Genuer (Université Paris Sud et Paris 5)
vendredi 11 mars 2011

Résumé : Dans un premier temps, nous présentons une méthode de sélection de variables basée sur l’algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu’en classification. En plus d’être très performantes en prédiction, les forêts aléatoires calculent un indice d’importance des variables. Basée sur cet indice d’importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Nous illustrons cette procédure sur des données réelles d’IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande dimension. Dans un deuxième temps, nous présentons des résultats théoriques pour une version simple de forêt aléatoire. Dans un contexte de régression avec une seule variable explicative, nous montrons que les arbres aléatoires ainsi que les forêts aléatoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forêts améliorent les performances des arbres, en réduisant la variance d’un facteur trois quarts.


Cet exposé se tiendra en salle C20-13, 20ème étage, Université Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris (métro : Olympiades).


Agenda

<<

2017

>>

<<

Avril

>>

Aujourd'hui

LuMaMeJeVeSaDi
272829303112
3456789
10111213141516
17181920212223
24252627282930

Annonces

ESANN 2016 : European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning


STATLEARN 2016


ICOR 2016