I-4) - Connexité et analyse des données

Catherine Aaron, SAMOS, Jean-Claude Fort, SAMOS et Toulouse 3
samedi 2 janvier 2010

Rappel : En partant du principe que la connexité représente, topologiquement, le pendant non linéaire de la convexité, il est tenté d’établir des méthodes d’analyses des données reposant sur cette notion. Les problèmes liés à l’hétérogénéité en terme de dispersion intra classes d’un tel algorithme nous poussent, dans les travaux a venir a considérer les algorithmes de classification reposant sur l’estimation de la densité du nuage de point : En conséquence l’estimation de densité (noyaux, ondelettes, algorithme EM..) fait aussi partie de nos centres d’intérêt. En travaillant sur le plus petit arbre connexe nous avons construit un algorithme de normalisation et de recherche d’indicateur central dont les propriétés sont actuellement étudiées. Cette partie se fait en relation avec la théorie des graphes. Enfin un travail sur l’analyse de la dimension et la réduction de dimension est lui aussi commencé.

Ce programme de travail a été réalisé et a conduit notamment à la soutenance de thèse de Catherine Aaron en 2005 (actuellement maître de conférences à l’Université Clermont II).

- 2005 AARON C., Connexité et analyse des données non linéaires, Thèse de doctorat, http://tel.archives-ouvertes.fr/tel...

Le travail a porté sur trois points :
- comment obtenir des classes connexes par une classification hiérarchique

Pour cela, C. Aaron a défini et utilisé une nouvelle distance intra classes qui reflète la connexité des classes choisies. Ce travail a fait l’objet de l’article suivant :

  • 2004 AARON C., Clustering under connectivity hypothesis, Student, Vol 5, n°1, p. 43-58.

- classification par attraction des modes de la densité

En partant du cadre de la classification en composantes connexes, C. Aaron a construit un algorithme adaptatif où on calcule simultanément un estimateur de la densité et une classification fondée sur les domaines d’attraction des différents modes trouvés. Les résultats en classification sont plutôt modestes, alors que l’algorithme adaptatif pour l’estimation de densité fonctionne très bien. Son étude a été poursuivie par une étude théorique démontrant sa convergence en toute dimension et son optimalité en dimension 1. La classification obtenue n’est vraiment bonne que lorsque les classes recherchées sont aussi convexes. Ces résultats ont été présentés dans une conférence avec actes et un article est en préparation.

  • 2005 AARON C., Couplage d’un problème de classification et d’estimation de densité, Actes du 37ème Congrès de la SFC Montréal, p. 27-30

- dimension intrinsèque et réduction de dimension

On se place sur une composante connexe des données étudiées. On cherche à déterminer sa dimension, puis à la "déplier" dans un espace euclidien de la dimension "réelle" de la classe qui est généralement beaucoup plus petite que celle de l’espace où se trouvent initialement les données. La méthode utilise trois outils : une normalisation originale des données, la distance géodésique et un dépliage sur une carte de Kohonen (SOM). Ces travaux ont été présentés au congrès WSOM05 et publiés dans l’article qui suit :

  • 2005 AARON C., Graph-based normalization for non-linear data analysis (I), Proceedings of the 5th Workshop on Self Organizing Maps, Paris, France, p.645-652
  • 2005 AARON C., Graph-based normalization for non-linear data analysis (II), Proceedings of the 5th Workshop on Self Organizing Maps, Paris, France, p.203-210
  • 2006 AARON C., Graph-based normalization and whitening for non linear data analysis, Neural Networks, 19, n°. 6-7, p. 864-876

Agenda

<<

2017

>>

<<

Juin

>>

Aujourd'hui

LuMaMeJeVeSaDi
2930311234
567891011
12131415161718
19202122232425
262728293012

Annonces

ESANN 2016 : European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning


STATLEARN 2016


ICOR 2016