HAL : derniers dépôts du SAMM



mercredi 2 avril 2014

  • Inferring networks from multiple samples with Consensus LASSO
    Networks are very useful tools to decipher complex regulatory relationships between genes in an organism. Most work address this issue in the context of i.i.d., treated vs. control or time-series samples. However, many data sets include expression obtained for the same cell type of an organism, but in several conditions. We introduce a novel method for inferring networks from samples obtained in various but related experimental conditions. This approach is based on a double penalization: a first penalty aims at controlling the global sparsity of the solution whilst a second penalty is used to make condition-specific networks consistent with a consensual network. This ''consensual network'' is introduced to represent the dependency structure between genes, which is shared by all conditions. We show that different ''consensus'' penalty can be used, some integrating prior (e.g., bibliographic) knowledge and others that are adapted along the optimization scheme. In all situations, the proposed double penalty can be expressed in terms of a LASSO problem and hence, solved using standard approaches which address quadratic problems with $L_1$-regularization. This approach is combined with a bootstrap approach and is made available in the R package therese. Our proposal is illustrated on simulated datasets and compared with independent estimations and alternative methods. It is also applied to a real dataset to emphasize the differences in regulatory networks before and after a low-calorie diet.

lundi 31 mars 2014

  • Imputing unknown competitor marketing activity with a Hidden Markov Chain
    We demonstrate on a case study with two competing products at a bank how one can use a Hidden Markov Chain (HMC) to estimate missing information on a competitor's marketing activity. The idea is that given time series with sales volumes for products A and B and marketing expenditures for product A, as well as suitable predictors of sales for products A and B, we can infer at each point in time whether it is likely or not that marketing activities took place for product B. The method is successful in identifying the presence or absence of marketing activity for product B about 84% of the time. We allude to the issue of whether, if one can infer marketing activity about product B from knowledge of marketing activity for product A and of sales volumes of both products, the reverse might be possible and one might be able to impute marketing activity for product A from knowledge of that of product B. This leads to a concept of symmetric imputation of competing marketing activity. The exposition in this paper aims to be accessible and relevant to practitioners.

  • Optimization of the marketing mix in the health care industry
    This paper proposes data mining techniques to model the return on investment from various types of promotional spending to market a drug and then uses the model to draw conclusions on how the pharmaceutical industry might go about allocating marketing expenditures in a more efficient manner, potentially reducing costs to the consumer

  • Reciprocity in social networks - A case study in Tamil Nadu, India
    This case study takes us to Tamil Nadu (India) and discusses a Social Network Analysis (SNA) of a community of weavers in the village of Sankarapandiapuram. Subgroups and influential members are identified, and the analysis is placed in the context of the theory of social capital in economics. The presentation is self-contained and is accessible to readers with an introductory level of statistics.

jeudi 27 février 2014

  • Professional Trajectories of Workers Using Disconnected Self-Organizing Maps
    Using the Panel Study of Income Dynamics (PSID) collected on the period 1984-2003, we study the situations of American workers with respect to employment. The data include all heads of household (men or women) as well as the partners who are on the labor market, working or not. They are extracted from the complete survey by computing a few relevant features which characterize the worker’s situations. To perform this analysis, we suggest to use a Self-Organizing Map (Kohonen algorithm) with specific topology. In this paper we present a new topology for SOM based on a planar graph with disconnected components (called D-SOM) which is especially interesting for clustering. Each component takes the form of a string and corresponds to an organized cluster. From this clustering, we study the dynamics at the individual level, that is the trajectories of the individuals among the classes during the observed period. Then we estimate the transition probability matrices for each studied year and the corresponding stationary distributions. Finally, we try to give an answer to the question: is there a significant change in 1992 (new economic policies after the Reaganomics).

mercredi 26 février 2014

  • Réductibilité et théorie de Floquet pour des systèmes différenciels non linéaires
    On utilise la théorie de Floquet-Lin pour des systèmes différentiels linéaires quasi-périodiques pour établir des résultats d'existence et d'unicité et de dépendance continue des systèmes différentiels non linéaires quasi-périodiques. Et dans un second temps on établit un résultat de réductibilité d'un système différentiel linéaire presque-périodique en un système différentiel linéaire triangulaire supérieur avec conservation du nombre des solutions presque-périodiques indépendantes. Ensuite, on établit un résultat d'existence et d'unicité et de dépendance continue des systèmes différentiels non linéaires presque-périodiques par rapport au terme du contrôle.

lundi 10 février 2014

  • Détection d'anomalies à la volée dans des flux de données de grande dimension
    Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée.

dimanche 9 février 2014

  • Analyse et fouille de données de trajectoires d'objets mobiles
    Dans cette thèse, nous explorons deux problèmes de recherche liés à la gestion et à la fouille de données de trajectoires d'objets mobiles. Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Les appareils de géo-localisation modernes sont capables d'enregistrer et de transmettre leurs coordonnées géographiques à un taux très élevé. Garder l'intégralité des trajectoires capturées grâce à ces terminaux peut s'avérer coûteux tant en espace de stockage qu'en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient alors primordiale afin de réduire la volumétrie des données en supprimant certaines positions (jugées inutiles ou redondantes) tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées " à la volée " et s'adapter au caractère à la fois continu et éphémère des données. Afin de répondre à ces besoins, nous proposons l'algorithme STSS (Spatiotemporal Stream Sampling). STSS bénéficie d'une faible complexité temporelle et garantit une borne supérieure pour les erreurs commises lors de l'échantillonnage. Nous présentons également une étude expérimentale à travers laquelle nous montrons les performances de notre proposition tout en la comparant à d'autres approches proposées dans la littérature. La deuxième problématique étudiée dans le cadre de ce travail est celle de la classification non supervisée (ou clustering) de trajectoires contraintes par un réseau routier. La majorité des travaux traitant du clustering de trajectoires se sont intéressés au cas où ces dernières évoluent librement dans un espace Euclidien. Ces travaux n'ont donc pas pris en considération l'éventuelle présence d'un réseau sous-jacent au mouvement, dont les contraintes jouent un rôle primordial dans l'évaluation de la similarité entre trajectoires. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. Quant à la troisième approche, elle combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments routiers. Nous illustrons nos approches à travers divers cas d'étude afin de démontrer comment elles peuvent servir à caractériser le trafic routier et les dynamiques de mouvement dans le réseau routier. Nous réalisons des études expérimentales afin d'évaluer les performances de nos propositions.

vendredi 7 février 2014

  • Exponential dichotomy of nonautonomous periodic systems in terms of the boundedness of certain periodic Cauchy problems
    We prove that a family of $q$-periodic continuous matrix valued function $\{A(t)\}_{t\in \mathbb{R}}$ has an exponential dichotomy with a projector $P$ if and only if $\int_0^t e^{i\mu s}U(t,s)Pds$ is bounded uniformly with respect to the parameter $\mu$ and the solution of the Cauchy operator Problem \begin{gather*} \dot{Y}(t)=-Y(t)A(t)+ e^{i \mu t}(I-P) ,\quad t\geq s \\ Y(s)=0, \end{gather*} has a limit in $\mathcal{L}(\mathbb{C}^n)$ as $s$ tends to $-\infty$ which is bounded uniformly with respect to the parameter $\mu$. Here, $\{ U(t,s): t, s\in\mathbb{R}\}$ is the evolution family generated by $\{A(t)\}_{t\in \mathbb{R}}$, $\mu$ is a real number and $q$ is a fixed positive number.

  • Exponential Stability and Uniform Boundedness of Solutions for Nonautonomous Periodic Abstract Cauchy Problems. An Evolution Semigroup Approach
    Let $u_{\mu, x, s}(\cdot, 0)$ be the solution of the following well-posed inhomogeneous Cauchy Problem on a complex Banach space $X$ $$\left\{\begin{array}{lc} \dot{u}(t) = A(t)u(t)+e^{i\mu t}x, \quad t>s \\ u(s) = 0. \end{array} \right.$$ Here, $x$ is a vector in $X,$ $\mu$ is a real number, $q$ is a positive real number and $A(\cdot)$ is a $q$-periodic linear operator valued function. Under some natu\-ral assumptions on the evolution family $\mathcal{U}=\{U(t, s): t\ge s\}$ gene\-rated by the family $\{A(t)\},$ we prove that if for each $\mu$, each $s\ge 0$ and every $x$ the solution $u_{\mu, x, s}(\cdot, 0)$ is bounded on ${\bf R}_+$ by a positive constant, depending only on $x,$ then the family $\mathcal{U}$ is uniformly exponentially stable. The approach is based on the theory of evolution semigroups.

  • Universality and time-scale invariance for the shape of planar Lévy processes
    For a broad class of planar Markov processes, viz. Lévy processes satisfying certain conditions (valid \textit{eg} in the case of Brownian motion and Lévy flights), we establish an exact, universal formula describing the shape of the convex hull of sample paths. We show indeed that the average number of edges joining paths' points separated by a time-lapse $\Delta \tau \in \left[\Delta \tau _1, \Delta \tau_2\right]$ is equal to $2\log \left(\Delta \tau_2 / \Delta \tau_1 \right)$, regardless of the specific distribution of the process's increments and regardless of its total duration $T$. The formula also exhibits invariance when the time scale is multiplied by any constant. Apart from its theoretical importance, our result provides new insights regarding the shape of two-dimensional objects modelled by stochastic processes' sample paths (\textit{eg} polymer chains): in particular for a total time (or parameter) duration $T$, the average number of edges on the convex hull ("cut off" to discard edges joining points separated by a time-lapse shorter than some $\Delta \tau < T$) will be given by $2 \log \left(\frac{T}{\Delta \tau}\right)$. Thus it will only grow logarithmically, rather than at some higher pace.

jeudi 6 février 2014

  • Fonctions presque-périodiques et Équations Différentielles
    Cette thèse porte sur les équations d'évolution et s'articule autour de trois parties. Dans la première partie, on se propose de se concentrer sur le critère oscillatoire de certaines équations différentielles. Des résultats classiques sur les fonctions presque-périodiques sont rassemblés dans le premier chapitre. Le deuxième chapitre de cette thèse a pour objectif de prouver l'existence d'une solution presque-périodique de Besicovitch d'une équation différentielle de second ordre sur un espace de Hilbert. L'approche utilisée se base sur un formalisme variationnel. La deuxième partie de cette thèse traite le comportement asymptotique des problèmes de Cauchy dans le cas non autonome. Les semi-groupes et les familles d'évolution étant les outils principaux utilisés dans cette partie, le troisième chapitre introduit des résultats importants de cette théorie, notamment ceux permettant de caractériser la stabilité des semi-groupes et des familles d'évolution périodiques. Dans le quatrième chapitre de cette contribution, on prouve, en utilisant une approche basée sur les semi-groupes, un résultat liant la bornitude de solutions de problèmes de Cauchy périodiques et la stabilité exponentielle uniforme des familles d'évolution issues de ces problèmes. Dans une troisième partie, on focalise l'attention sur quelques résultats sur la dichotomie exponentielle comme une propriété liée au comportement asymptotique des systèmes différentiels. Quelques résultats connus sont, par suite, réunis au cinquième chapitre qui introduit brièvement la notion de dichotomie exponentielle. Dans un dernier chapitre, une caractérisation de la dichotomie exponentielle d'une famille d'évolution en termes de bornitude des solutions de problèmes de Cauchy opératoriels correspondants sera démontrée.

  • Note de lecture : " Régression avec R " (P.-A. Cornillon et E. Matzner-Løber, 2011)
  • J'ai testé pour vous... un MOOC
    Le terme " MOOC " désigne aussi bien des plateformes d'enseignement en ligne dont la particularité est de proposer des cours ouverts que les cours eux-mêmes. Depuis les premiers MOOCs, qui ont vu le jour en 2012, ceux-ci ont connu un développement important et une attention forte des gouvernements et des universités, partout dans le monde. Le but du présent article n'est pas de proposer un diagnostic de ces cours en ligne, ni même un diagnostic des plateformes en général, mais de me focaliser sur un cours de statistique proposé sur un des plus grands MOOCs mondiaux pour montrer ce que les méthodes pédagogiques proposées dans celui-ci ont d'innovantes, d'en expliquer l'intérêt et les éventuelles limites.

lundi 3 février 2014

  • Dimensions fractales de réseaux vectoriels : méthodes d'estimation et robustesse des résultats
    L'analyse fractale des réseaux hydrographiques a donné lieu à de nombreux travaux, (Tarboton et al., 1988 ; Rodriguez-Iturbe et Rinaldo, 1997 ; Hauchard et al., 1999 ; Forriez et al., 2010) alors même que les valeurs du principal indicateur fractal - la dimension fractale - n'ont que rarement alimenté des comparaisons selon leur mode d'obtention ou des discussions sur l'incertitude qui les caractérise. Les réseaux hydrographiques sont un cas particulier, relativement simple, de la grande famille des réseaux de transport qui de Hagget et Chorley (1969) à Strano et al. (2012) ont suscité réflexion théorique et applications en géographie prospective et aménagement (Dupuy, 1991 ; Frankhauser et Genre-Grandpierre, 1998 ; Porta et al., 2006). Nous nous intéressons ici aux réseaux vectoriels, typiquement des réseaux construits comme assemblage déterministe ou aléatoire de segments unitaires (fig. 2) et les réseaux extraits à partir de modèles numériques de terrain de type raster avec une taille de cellule fixée (fig. 4, fig. 7), au-dessous de laquelle il n'existe plus de données informatives. Nous nous focalisons sur les méthodes d'estimation de dimensions fractales qui soient, autant que faire se peut, dans le droit fil des méthodes mathématiques de calcul d'une dimension asymptotique et privilégions une analyse de type monofractal. Partant, d'une part, de la distinction entre fractale mathématique infinie et fractale de la nature, d'autre part, du rappel des différentes dimensions théoriques (asymptotiques) auxquelles se rattachent les dimensions empiriques que nous utilisons, nous mettons ici l'accent sur trois résultats méthodologiques. 1- l'apport des réseaux simulés - dont le mode de construction est connu - pour apprécier la pertinence des divers estimateurs selon les caractéristiques des réseaux (leur ramification, leur degré de hiérarchisation, par exemple) et, au total, pour une mise en garde vis-à-vis de certaines procédures très répandues - lorsqu'elles sont appliquées à de petits réseaux notamment, 2- pour des comparaisons, la détermination, nécessaire à nos yeux, d'un domaine de fractalité enserré dans des limites obtenues selon une procédure non subjective et entre lesquelles est calculée la valeur de l'estimateur fractal (fig. 8 et fig. 11); cette procédure exigeante pouvant conduire à une réduction conséquente de l'intervalle de validité, 3- l'importance de la notion d'instabilité des résultats selon le niveau hiérarchique du réseau (fig. 13, fig. 14, tab. 1), distincte de l'incertitude qui, pour les réseaux aléatoires, a pu être appréciée pour chaque niveau hiérarchique en répétant les mesures un grand nombre de fois (50 et 100 réalisations - réseau de Scheidegger et réseau binaire bruité, respectivement ; tab. 1). Les trois estimateurs de dimension fractale que nous comparons sont, l'un, un estimateur traditionnel en hydrographie (DHS) car fondé sur la topologie du réseau, plus particulièrement sur les indices de Horton-Strahler (Horton, 1945 ; Strahler, 1957) ; les autres, la dimension obtenue par comptage de boîtes (DB) et la dimension de corrélation (DC). Cette dernière exige les temps de calcul les plus longs, mais permet d'obtenir des résultats d'estimation très stables, comme semble le monter le cas d'un réseau de talwegs extrait à partir de MNT à 1m et 2m (tableau 3).

dimanche 2 février 2014

  • Statistical exploratory analysis of agent-based simulations in a social context
    This paper presents a case study for motivating the use of data mining in a social agent-based simulation framework. The data used in this article come from the social simulation platform SocLab. They were generated from a model designed to analyze a real situation related to the management of a river in South West of France. Several standard statistics methods are used to analyze the possible outcomes of the discussion between the actors. Finally, a typology of these outcomes is obtained with self-organizing map.

vendredi 24 janvier 2014

  • A statistical network analysis of the HIV/AIDS epidemics in Cuba
    The Cuban contact-tracing detection system set up in 1986 has made the collection of detailed epidemic data at the individual level possible. In this study, we reconstruct the related network (counting 5389 vertices and 4073 edges) and analyse its structure by means of recent developments in the field of graph theory, shedding light onto a variety of mechanisms underlying the spread of HIV and the role of contact-tracing. In particular, degree distributions, clustering/assortativity coefficients and path lengths are statistically measured. Because of the size of the graph (with a giant component of 2386 nodes and 3168 edges), basic graph representations fail to provide a clear view of the network structure. Clustering based on modularity optimization is implemented to detect community structures and obtain a better visualization and understanding of the social network, in combination with the study of the other covariates. It shows that the graph has a globally low but heterogeneous density, with some clusters of high intra-connectivity, but low inter-connectivity. Though descriptive, the results presented in this article pave the way for properly incorporating heterogeneity and structure in the dynamics of a stochastic SIR epidemic spreading on a social network.

jeudi 23 janvier 2014

  • Utilisation des modèles de co-clustering pour l'analyse exploratoire des données
    Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d'une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l'ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L'approche MODL permet d'obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d'analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d'en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d'analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes. Enfin une application sur des comptes-rendus d'appels de l'opérateur Orange, collectés en Côte d'Ivoire, montre l'intérêt de l'approche et des outils d'analyse exploratoire dans un contexte industriel.

lundi 11 novembre 2013

  • OSCILLATIONS DANS DES ÉQUATIONS DE LIÉNARD ET DES ÉQUATIONS D'ÉVOLUTION SEMI-LINÉAIRES
    Dans ce travail, on étudier, au voisinage d'un point d'équilibre, l'existence et l'unicité et la dépendance régulière des solutions presque-périodique (p.p.), présqu'automorphe (p.a.), asymptotiquement p.p., asymptotiquement p.a., pseudo p.p., pseudo p.a., pseudo p.p. avec poids, pseudo p.a. avec poids de la famille d'équations de Liénard forcée suivantes x''(t) + f(x(t), p). x'(t) + g(x(t), p) = ep(t), (1) où le terme ep est de la même nature que la solution, et p est un paramètre dans un espace de Banach. On utilise le théorème des fonctions implicites au voisinage de l'équilibre. On étudier aussi deux cas particuliers de la famille (1) qui sont x''(t) + f1(x(t)). x'(t) + g1(x(t))= e(t), x''(t) + f2(x(t), q). x'(t) + g2(x(t), q) = e(t). On établit aussi un nouveau résultat sur la dépendance différentielle des solutions S-asymptotiquement presque-périodique du problème de Cauchy x'(t)=A(t) x(t)+f(t, x(t),u(t) ) x(0) = ζ , par rapport à la condition initial et le contrôle u. On applique cet résultat sur une équation parabolique avec coefficients périodique par rapport au temps.

lundi 28 octobre 2013

  • Classification non supervisée d'un graphe de co-expression avec des méta-données pour la détection de micro-ARNs
    Nous présentons dans cet article une méthode de classification non supervisée de sommets d'un graphe qui est utilisée dans un contexte biologique particulier. La problématique est de détecter de manière non supervisée des micro-ARNs probables. Pour ce faire, nous utilisons une approche multi-noyaux permettant d'intégrer des informations sur le graphe de co-expression et des informations supplémentaires sur les sommets de ce graphe. Cette approche est rendue robuste par une technique de bagging de classifications. Les résultats obtenus donnent des groupes de miRNAs potentiels dont certains permettent de discriminer avec une bonne confiance les vrais miRNAs des faux positifs.

jeudi 24 octobre 2013

  • Bayesian Model Averaging of Stochastic Block Models to Estimate the Graphon Function and Motif Frequencies in a W-graph Model
    W-graph refers to a general class of random graph models that can be seen as a random graph limit. It is characterized by both its graphon function and its motif frequencies. The stochastic block model is a special case of W-graph where the graphon function is block-wise constant. In this paper, we propose a variational Bayes approach to estimate the W-graph as an average of stochastic block models with increasing number of blocks. We derive a variational Bayes algorithm and the corresponding variational weights for model averaging. In the same framework, we derive the variational posterior frequency of any motif. A simulation study and an illustration on a social network complete our work.

vendredi 18 octobre 2013

  • Graph-Based Approaches to Clustering Network-Constrained Trajectory Data
    Clustering trajectory data attracted considerable attention in the last few years. Most of prior work assumed that moving objects can move freely in an euclidean space and did not consider the eventual presence of an underlying road network and its influence on evaluating the similarity between trajectories. In this paper, we present an approach to clustering such network-constrained trajectory data. More precisely we aim at discovering groups of road segments that are often travelled by the same trajectories. To achieve this end, we model the interactions between segments w.r.t. their similarity as a weighted graph to which we apply a community detection algorithm to discover meaningful clusters. We showcase our proposition through experimental results obtained on synthetic datasets.

  • Regularization in Relevance Learning Vector Quantization Using l one Norms
    We propose in this contribution a method for l one regularization in prototype based relevance learning vector quantization (LVQ) for sparse relevance profiles. Sparse relevance profiles in hyperspectral data analysis fade down those spectral bands which are not necessary for classification. In particular, we consider the sparsity in the relevance profile enforced by LASSO optimization. The latter one is obtained by a gradient learning scheme using a differentiable parametrized approximation of the $l_{1}$-norm, which has an upper error bound. We extend this regularization idea also to the matrix learning variant of LVQ as the natural generalization of relevance learning.

jeudi 17 octobre 2013

  • Playing with Parameters: Cross-parameterization in Graphs
    When considering a graph problem from a parameterized point of view, the parameter chosen is often the size of an optimal solution of this problem (the "standard"). A natural subject for investigation is what happens when we parameterize such a problem by the size of an optimal solution of a different problem. We provide a framework for doing such analysis. In particular, we investigate seven natural vertex problems, along with their respective parameters: α (the size of a maximum independent set), τ (the size of a minimum vertex cover), ω (the size of a maximum clique), χ (the chromatic number), γ (the size of a minimum dominating set), i (the size of a minimum independent dominating set) and ν (the size of a minimum feedback vertex set). We study the parameterized complexity of each of these problems with respect to the standard parameter of the others.

mercredi 9 octobre 2013

  • Metacognition: towards a new approach to quality of life.
    PURPOSE: Recent studies have demonstrated that various diseases states (e.g., schizophrenia, Alzheimer's disease) and events (e.g., a stroke) alter a person's perception of their physical and mental status. Most often this involves alterations in a person's metacognitive capabilities, and this can question the conceptual model of quality of life (QoL) based on a "perspectivist" approach. METHODS: Using the example of schizophrenia, we applied a philosophical model, developed by Griffin, to deal with this potential threat to the validity of QoL assessment. RESULTS: Patients with schizophrenia are at risk for being impaired in their ability to assess their QoL. We hypothesise that metacognition (i.e., the ability to attribute mental states in terms of beliefs and goals to one's self and others) is a formal condition to assess QoL. This particular skill is important because self-reflection is necessary for making a qualitative judgment. A link between this psychological concept and the philosophical concept of reflexivity may be established. We propose a conceptual approach to QoL that takes into account the patient's reflexivity. This approach is derived from Griffin's theory based on the list of "prudential values" and the satisfaction of the informed desires of the individual. CONCLUSION: The ability of patients to evaluate and value their life should be considered to enrich the concept of QoL. The approach derived from Griffin's theory might constitute a new avenue for QoL research.

vendredi 4 octobre 2013

  • Existence and regularity of solution for a Stochastic Cahn-Hilliard/Allen-Cahn equation with unbounded noise diffusion
    The Cahn-Hilliard/Allen-Cahn equation with noise is a simplified mean field model of stochastic microscopic dynamics associated with adsorption and desorption-spin flip mechanisms in the context of surface processes. For such an equation we consider a multiplicative space-time white noise with diffusion coefficient of sub-linear growth. Using technics from semigroup theory, we prove existence, and path regularity of stochastic solution depending on that of the initial condition. Our results are also valid for the stochastic Cahn-Hilliard equation with unbounded noise diffusion, for which previous results were established only in the framework of a bounded diffusion coefficient. We prove that the path regularity of stochastic solution depends on that of the initial condition, and are identical to those proved for the stochastic Cahn-Hilliard equation and a bounded noise diffusion coefficient. If the initial condition vanishes, they are strictly less than 2-d/2 in space and 1/2-d/8 in time. As expected from the theory of parabolic operators in the sense of Petrovski, the bi-Laplacian operator seems to be dominant in the combined model.

mercredi 25 septembre 2013

  • mu-Limit Sets of Cellular Automata from a Computational Complexity Perspective
    This paper is about μ-limit sets of cellular automata, i.e. sets of configurations made of words which have a positive probability to appear arbitrarily late in the evolution, starting from an initial μ-random confi guration. More precisely, we investigate the computational complexity of these sets and of decision problems concerning them. Our main results are: fi rst, that such a set can have a Σ_3-hard language, second that it can contain only α-complex confi gurations and third that any non-trivial property concerning these sets is at least Π_3-hard. We also prove various complexity upper bounds, study some restriction of these questions to particular classes of cellular automata, and study di fferent types of (non-)convergence of the probability of appearance of a word in the evolution.

lundi 16 septembre 2013

  • Asymptotics for regression models under loss of identifiability
    This paper discusses the asymptotic behavior of regression models under general conditions. First, we give a general inequality for the difference of the sum of square errors (SSE) of the estimated regression model and the SSE of the theoretical best regression function in our model. A set of generalized derivative functions is a key tool in deriving such inequality. Under suitable Donsker condition for this set, we give the asymptotic distribution for the difference of SSE. We show how to get this Donsker property for parametric models even if the parameters characterizing the best regression function are not unique. This result is applied to neural networks regression models with redundant hidden units when loss of identifiability occurs.

lundi 26 août 2013

  • Which dissimilarity is to be used when extracting typologies in sequence analysis? A comparative study
    Originally developed in bioinformatics, sequence analysis is being increasingly used in social sciences for the study of life-course processes. The methodology generally employed consists in computing dissimilarities between the trajectories and, if typologies are sought, in clustering the trajectories according to their similarities or dissemblances. The choice of an appropriate dissimilarity measure is a major issue when dealing with sequence analysis for life sequences. Several dissimilarities are available in the literature, but neither of them succeeds to become indisputable. In this paper, instead of deciding upon one dissimilarity measure, we propose to use an optimal convex combination of different dissimilarities. The optimality is automatically determined by the clustering procedure and is defined with respect to the within-class variance.

mercredi 7 août 2013

  • sexy-rgtk: a package for programming RGtk2 GUI in a user-friendly manner
    There are many di erent ways to program Graphical User Interfaces (GUI) in R. (Lawrence and Verzani, 2012) provides an overview of the available methods, describing ways to program R GUI with RGtk2, qtbase and tcltk. More recently, the package shiny, for building interactive web applications, was also released (the rst version has been published on December, 2012). By automatically indexing all objects and methods available in RGtk2, we developed a method for creating GTK2-based GUI, in a friendlier and more compact manner. Widgets are accessible with simple functions and options, as is more natural for a R language programmer.

  • SOMbrero : Cartes auto-organisatrices stochastiques pour l'intégration de données décrites par des tableaux de dissimilarités
    Dans de nombreuses situations réelles, les individus sont décrits par des jeux de données multiples qui ne sont pas nécessairement de simples tableaux numériques mais peuvent être des données complexes (graphes, variables qualitatives, texte...). Un cas typique est celui des graphes étiquetés dans lequel les individus (les sommets du graphe) sont décrits à la fois par leurs relations les uns aux autres mais aussi par des attributs de natures diverses. Dans (Villa-Vialaneix et al, 2013 ; Olteanu et al , 2013), nous avons proposé d'utiliser des cartes auto-organisatrices (Kohonen, 2011) pour combiner classification et visualisation en projetant les individus étudiés sur une grille de faible dimension. Notre approche permet de traiter des données non numériques par le biais de noyaux ou de dissimilarités, et est basée sur une version stochastique de l'apprentissage de cartes auto-organisées. Les différentes dissimilarités sont combinées et la combinaison est optimisée au cours de l'apprentissage de la carte.

mardi 4 juin 2013

  • Estimation de la fonction graphon d'un W-graphe. Application au réseau de la blogosphere politique française
    Networks have been widely used in many scientific fiels, and in particular in social sciences, in order to represent interactions between objects of interest. Since the earlier work of Moreno in 1934, many random graph models have been proposed to extract knowledge from these structured data sets. For instance, the stochastic block model (SBM) allows the search of groups of vertices sharing homogeneous connection profiles. In this work, we consider the W-graph model which is known to generalize many random graph models but for which very few methods exist to perform inference on real data. First, we recall that the SBM model can be represented as a W-graph with a block-constant graphon function. Using a variational Bayes expectation maximization algorithm, we then approximate the posterior distribution over the model parameters of a SBM model and we show how this variational approximation can be integrated in order to estimate the posterior distribution of W-graph graph function. In this Bayesian framework, we also derive the occurrence probability of a motif. In practice, this allows to test if a motif is over-represented in a given network. All the results presented here are tested on simulated data and the French political blogosphere network.

dimanche 2 juin 2013

  • Problèmes de convergence, optimisation d'algorithmes et analyse stochastique de systèmes de files d'attente avec rappels.
    Pour optimiser la gestion des réseaux de télécommunication, nous considérons le système de file d'attente M^X / G / 1 avec rappels et clients impatients. En utilisant la méthode des variables supplémentaires, nous obtenons les fonctions génératrices partielles de l'état stationnaire conjointe de l'état du serveur et du nombre de clients dans le groupe de rappels. Pour compléter l'analyse du modèle considéré, nous calculons la distribution stationnaire de la chaîne de Markov induite, grâce à laquelle nous présentons la propriété de la décomposition stochastique. Cependant, la fonction génératrice de la distribution stationnaire du nombre de clients dans le groupe de rappels, est obtenue sous une forme explicite, très complexe et ne révèle pas la nature de la distribution en question. Alors, nous étudions le comportement asymptotique de la variable aléatoire représentant le nombre de clients en orbite et dans le système pour des valeurs limites des différents paramètres. Nous complétons notre travail par des exemples numériques.

samedi 25 mai 2013

  • Bayesian non parametric inference of discrete valued networks
    We present a non parametric bayesian inference strategy to automatically infer the number of classes during the clustering process of a discrete valued random network. Our methodology is related to the Dirichlet process mixture models and inference is performed using a Blocked Gibbs sampling procedure. Using simulated data, we show that our approach improves over competitive variational inference clustering methods.

vendredi 26 avril 2013

  • Asymptotic behavior of compositions of under-relaxed nonexpansive operators
    In general there exists no relationship between the fixed point sets of the composition and of the average of a family of nonexpansive operators in Hilbert spaces. In this paper, we establish an asymptotic principle connecting the cycles generated by under-relaxed compositions of nonexpansive operators to the fixed points of the average of these operators. In the special case when the operators are projectors onto closed convex sets, we prove a conjecture by De Pierro which has so far been established only for projections onto affine subspaces.

jeudi 25 avril 2013

  • Weak error in negative Sobolev spaces for the stochastic heat equation
    In this paper, we make another step in the study of weak error of the stochastic heat equation by considering norms as functional.

  • Weak error expansion of the implicit Euler scheme
    In this paper, we extend the Talay Tubaro theorem to the implicit Euler scheme.

  • Multiple kernel self-organizing maps
    In a number of real-life applications, the user is interested in analyzing several sources of information together: a graph combined with the additional information known on its nodes, numerical variables measured on individuals and factors describing these individuals... The combination of all sources of information can help him to understand the dataset in its whole better. The present article focuses on such an issue, by using self-organizing maps. The use a kernel version of the algorithm allows us to combine various types of information and automatically tune the data combination. This approach is illustrated on a simulated example.

Filtre

Agenda

<<

2014

>>

<<

Avril

>>

Aujourd'hui

LuMaMeJeVeSaDi
31123456
78910111213
14151617181920
21222324252627
2829301234

Annonces

MASHS 2014 Modèles et Apprentissage en Sciences Humaines et Sociales


ESANN 2014 : European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning


WSOM 2014 - 10th Workshop on Self-Organizing Maps


ICOR 2014 - 11th INTERNATIONAL CONFERENCE on Operations Research