I-1) Etude théorique de l’algorithme de Kohonen, vu comme un algorithme de quantification, comparaison avec les autres méthodes, accélération, algorithme batch, étude de l’algorithme à 0 voisin, étude de la distorsion étendue

Marie Cottrell, SAMOS, Jean-Claude Fort, SAMOS, Patrick Letrémy, SAMOS, Joseph Rynkiewicz, SAMOS, Michel Verleysen, ML, Louvain-la-Neuve
samedi 2 janvier 2010

Rappel : Il s’agit de continuer l’étude mathématique de l’algorithme de Kohonen considéré comme un algorithme stochastique particulier qui a pour caractéristique de ne pas pouvoir s’identifier à un algorithme du gradient dans le cas général

Bilan : Sur l’algorithme de Kohonen proprement dit, nous n’avons pas obtenu de résultats vraiment nouveaux, mais nous avons continué à mettre en évidence les propriétés mathématiques « négatives » qui rendent l’étude de l’algorithme originel de Kohonen ardu. Par exemple, cet algorithme organise « en pratique », mais il est possible de trouver un chemin de probabilité strictement positive qui « désorganise » lorsque la dimension est supérieure à 1. On ne connaît pas la forme de la décroissance du paramètre d’adaptation qui assure la convergence vers une situation organisée, même en dimension 1, etc.

Le point sur ces aspects théoriques a été réalisé dans un article

- 2006 FORT J.C., SOM’s mathematics, Neural Networks, 19, n°. 6-7, p. 812-816

Ce travail a également donné lieu à plusieurs communications dans des conférences internationales (WSOM 05, à Paris en 2005, OR7 à La Havane en 2006).

Un aspect a été approfondi par Joseph Rynkiewicz qui a étudié la distorsion étendue. Comme on le sait, l’algorithme de Kohonen a souvent été vu comme une minimisation approximative du critère de variance intra étendue aux voisins (distorsion étendue), au moins pour le cas discret (nombre fini d’observations). Cependant, on sait que ce n’est plus vrai pour le cas asymptotique (nombre infini d’observations). Il donc étudié les propriétés asymptotiques de la distorsion étendue et montré notamment que l’estimateur du minimum de distorsion empirique converge vers le minimum de distorsion étendue théorique quand le nombre d’observations tend vers l’infini.

Il a aussi donné aussi un contre exemple qui montre que l’algorithme de Kohonen n’approxime pas le minimum de distorsion étendue, puisque ce minimum est atteint sur les points de discontinuité de cette fonction. Cela explique l’apparente contradiction entre le comportement empirique et théorique de l’algorithme de Kohonen vis à vis de cette distorsion.

- 2005 RYNKIEWICZ J., Consistance d’un estimateur de minimum de variance étendue, Comptes Rendues de l’Académie des Sciences – Series 1 - Mathematics, 341, p. 133-136

- 2006 RYNKIEWICZ J., Self Organizing Map algorithm and distortion measure, Neural Networks, 19, n°. 6-7, p. 671-678

La rédaction par Marie Cottrell et Jean-Claude Fort de l’ouvrage prévu sur l’algorithme de Kohonen n’a pu être achevée, elle fera l’objet d’une priorité dans le contrat quadriennal à venir.

Un travail alternatif a consisté à étudier l’algorithme « Neural Gas » qui peut être vu comme un algorithme du gradient, et à en proposer une version batch. Ce travail a donné lieu à une collaboration avec Barbara Hammer (Clausthal University, Allemagne), en particulier à l’occasion de son séjour dans notre laboratoire.

- 2006 Cottrell M., Hammer B., Hasenfub A., Villmann T., Batch and median neural gas, Neural Networks, 19, n°. 6-7, p. 762-771.(ACL13)

C’est dans le cadre de ce point de notre projet scientifique du contrat précédent que nous avons accepté d’organiser la conférence WSOM 05, qui s’est tenue à Paris 1 (Sorbonne et Carré des Sciences) en septembre 2005. Cette conférence a été un grand succès en accueillant sensiblement plus de participants (140 inscrits) que les éditions précédentes. Les participants se sont félicités de la qualité scientifique et humaine de cette manifestation, bien organisée grâce à l’aide de Paris 1 (BQR) et du ministère, et aussi au dévouement de tous les membres de l’équipe SAMOS.

Les meilleurs papiers ont été (après un second processus de review peer-to-peer) publiés dans un numéro spécial de la revue Neural Networks (ISI Impact Factor en 2008 = 2).