Représentations des documents textuels pour la classification de sentiments.

Vincent Guigue (LIP6, Université P. et M. Curie)
vendredi 27 janvier 2012

Résumé : La fouille d’opinion s’impose depuis quelques années comme un domaine majeur de la fouille de données. Les utilisateurs du Web sont de plus en plus habitués à donner leur avis sur internet, à laisser des commentaires sur les forums et les sites de vente en ligne. Le domaine d’application autour de ces données présente de grands enjeux économiques et explique la dynamique de recherche actuelle. En effet, plusieurs études ont montré qu’il était possible de prédire les ventes de jeu vidéo ou les entrées d’un film avant même leurs sorties, de plus, les perspectives autour des sondages et de modélisation utilisateur sont vastes. Dans leur étude de référence de 2008, Pang et Lee pointent l’importance d’une tâche en particulier dans la fouille d’opinion : la détection de sentiments, le fait de détecter automatiquement la polarité (positive ou négative) d’un texte. Nous présentons deux approches pour faire face à cette tâche de manière originale dans le cadre des algorithmes d’apprentissage supervisés. Nous partons toujours de données étiquetées (provenant de diverses sources) pour construire des modèles robustes de prédiction de polarité. Nous proposons une première étude sur le choix des descripteurs textuels à utiliser pour discriminer efficacement les documents positifs des documents négatifs. Nous montrons la l’intérêt des représentations complexes en grande dimension et la nécessité d’utiliser des méthodes d’apprentissage robustes pour exploiter correctement ces espaces. Notre formulation repose sur une régularisation adaptative pénalisant les termes fréquents dans les documents. La seconde approche que nous proposons se focalise sur l’apprentissage multi domaines. Il s’agit d’un problème difficile où les données de test n’appartiennent pas au même thème que les données d’apprentissage, cette tâche demande donc une très bonne capacité de généralisation éventuellement combinée avec un apprentissage de fonction de transfert. Nous avons utiliser des réseaux de neurones à convolution où les mots se déplacent dans un espace sémantique continu durant l’apprentissage (à la manière de PLSA). Nous montrons que cet espace permet d’obtenir de très bonnes performances dans le cadre multi domaines


Cet exposé se tiendra en salle C20-13, 20ème étage, Université Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris (métro : Olympiades).


Agenda

<<

2017

>>

<<

Avril

>>

Aujourd'hui

LuMaMeJeVeSaDi
272829303112
3456789
10111213141516
17181920212223
24252627282930

Annonces

ESANN 2016 : European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning


STATLEARN 2016


ICOR 2016