Séminaire du SAMM

On trouvera ci-dessous les annonces du Séminaire SAMM : Statistique, Analyse et Modélisation Multidisciplinaire qui a lieu (sauf exception) au Centre PMF de l’Université Paris 1, 90, rue de Tolbiac, 75013 Paris, salle C2013, 20ème étage (ascenseurs rouges), les vendredis à 11h30.

Certaines séances sont organisées conjointement avec le CAMS (CNRS / EHESS).

La liste et les résumés des séminaires d’avant 2012 sont disponibles ici.


Aurélien Bellet (Inria Lille) le 22 octobre 2021 à 11h30

Personal data is being collected at an unprecedented scale by businesses and public organizations, driven by the progress of data science and AI. While such data can be turned into useful knowledge about the global population by computing aggregate statistics or training machine learning models, this can also lead to undesirable (sometimes catastrophic) disclosure of sensitive information. We must therefore deal with two conflicting objectives : maximizing the utility of data while (...)

Laetitia Colombani (Toulouse), 15 octobre 2021 à 11h30

Résumé :
Les processus de Hawkes sont des processus stochastiques étudiés depuis les années 70. Ils ont d’abord modélisé l’apparition des séismes et de leurs répliques et sont maintenant utilisés en finance et en neuroscience. Les processus de Hawkes dits linéaires et « auto-excitants » ont été particulièrement étudiés ces dernières décennies et de nombreux résultats asymptotiques sont connus.
Je présenterai ici mon travail sur des processus (non-linéaires) « auto-inhibants » (ou mixtes). Ces derniers (...)

Nicolas Guigui (thèse, Inria) le 1er octobre 2021 à 11h30

L’étude de la forme anatomique et du mouvement est au cœur des préoccupations en cardiologie, où des pathologies telles que l’arythmie ou l’hypertension pulmonaire entraînent des anomalies, telles qu’une contraction plus lente ou le grossissement du myocarde, et dont la caractérisation en forme, et en déformation permet d’évaluer la gravité de la maladie ou l’impact d’un traitement. Cette caractérisation nécessite un cadre mathématique prenant en compte les non-linéarités et les invariances propres aux (...)

Robin Genuer (Univ. Bordeaux) le 8 octobre 2021 11h30

Random forests are a statistical learning method widely used in many areas of scientific research essentially for its ability to learn complex relationships between input and output variables and also its capacity to handle high-dimensional data. However, current random forest approaches are not flexible enough to handle heterogeneous data such as curves, images and shapes. In this talk, we present Fréchet trees and Fréchet random forests, which allow to manage data for which input and output (...)

Fabien Navarro, Univ. Paris 1 le 24 septembre 2021 à 11h30

Graph signal processing focuses on extending the theory and methodologies of standard signal processing to signals defined on the vertices of a graph. Increasingly popular because of the flexibility of the underlying structure, this research area can be applied in many contexts (such as telecommunications networks, social networks, organic chemistry, or neurology). In this talk, we consider the case of signal denoising on graphs. The proposed methodology consists in applying a data-driven (...)

Emmanuelle Clément (Univ. Gustave Eiffel Marne la Vallée) le 11 juin 2021 à 11h30

Titre : Approximation en variation totale d’une EDS dirigée par un processus localement stable
Résumé : On considère une équation différentielle stochastique dirigée par un processus de Lévy et on s’intéresse à l’approximation de cette équation par un schéma de discrétisation. En supposant que le processus qui dirige l’équation est localement stable, nous obtenons un contrôle de la distance de Hellinger en temps petit, et nous déduisons des vitesses de convergence, dépendantes de l’indice d’activité des (...)

Michel Benaïm (Université de Neuchâtel), le 4 juin 11h30

We investigate certain properties of degenerate Feller processes that are killed when exiting a relatively compact set. Our main result provides general conditions ensuring that such a process possesses a (possibly non unique) quasi stationary distribution. Conditions ensuring uniqueness and exponential convergence are discussed. The results are applied to stochastic differential (...)

Kamila Kare (SAMM), ce vendredi 21 mai à 11h30

This paper is about the one-step ahead prediction of the future of observations drawn from an infinite-order autoregressive AR($\infty$) process.It aims to design penalties (completely data driven) ensuring that the selected model verifies the efficiency property but in the non asymptotic framework. We present an oracle inequality with a leading constant equal to one. Moreover, we also show that the excess risk of the selected estimator enjoys the best bias-variance trade-off over the (...)

Patricia Reynaud-Bouret (Nice), le 7 mai à 11h30

Résumé :
Apres un petit résumé des connaissances à avoir sur les réseaux de neurones biologiques, j’expliquerai pourquoi les neurobiologistes s’intéressent autant à la connectivité fonctionnelle, qui peut se voir mathématiquement comme un graphe d’indépendance locale entre neurones ou entre aires cérébrales. En particulier, ils pensent que cela peut contribuer à décoder le code neural. Je montrerai comment on peut reconstruire ce graphe et comment on peut obtenir des garanties mathématiques sur cette (...)

Lorenzo Rosasco, MIT, le 16 avril 2021

We study the learning properties of nonparametric minimum norm interpolating estimators. In particular, we consider estimators defined by so called Matern kernels, and focus on the role of the kernels scale and smoothness. While common ML wisdom suggests estimators defined by large function classes might be prone to overfit the data, here we suggest that they can often be more stable.
Our analysis uses a mix of results from interpolation theory and probability theory. Extensive (...)

Anna Korba, UCL/ENSAE, le 2 avril 2021

We study the Stein Variational Gradient Descent (SVGD) algorithm, which optimises a set of particles to approximate a target probability distribution π∝exp(−V) on ℝ^d. In the population limit, SVGD performs gradient descent in the space of probability distributions on the KL divergence with respect to π, where the gradient is smoothed through a kernel integral operator. In this paper, we provide a novel finite time analysis for the SVGD algorithm.
We provide a descent lemma establishing that (...)

Noé Cunéo (LPSM, Université de Paris), le 26 mars à 11h30

Noé Cuneo (LPSM) : Grandes déviations pour la production d’entropie (likelihood ratio) par la méthode de Ruelle-Lanford.
Résumé. Nous introduirons de façon élémentaire la méthode des fonctions de Ruelle-Lanford et l’appliquerons aux grandes déviations de la production d’entropie (likelihood ratio) pour des mesures invariantes sur des shifts avec alphabet fini. Le principe des grandes déviations (PGD) obtenu joue un rôle important en thermodynamique ainsi que pour le test d’hypothèse. Le PGD est obtenu (...)

Marc Hoffmann (Dauphine) le 19 mars 2021

Inférence statistique pour des diffusions avec interaction de type McKean-Vlasov

Abstract : On considère un système de N particules en interaction dont la dynamique stochastique est conduite par une diffusion de type McKean-Vlasov. A partir de l’observation du système sur un horizon de temps fixe, on étudie l’inférence statistique des paramètres du modèle dans une limite de champ moyen. En particulier, on aborde le problème de l’estimation non-paramétrique (ou du test de présence) du potentiel d’interaction du système. On construit des estimateurs de la dérive et de la solution de l’équation aux dérivées partielles limite. Ceci permet de poser les premiers jalons d’une théorie minimax lorsque les paramètres vivent dans des classes de régularité hölderienne anisotrope. En fonction du temps, on discutera aussi de modèles avec bruit commun utilisés dans les théorie des MFG, de problèmes non-paramétriques bayésiens associés et d’estimation de la distance d’interaction pour des modèles avec interaction modérée.

Frédéric Paccaut, LAMFA, Amiens, le 12 mars

Les g-mesures sont des généralisation des mesures de Markov sur
0,1^Z, où le passé infini tout entier peut être nécessaire pour
prédire le symbole suivant. J’exposerai dans ce séminaire des
conditions assez générales pour avoir existence de telles mesures,
lorsque la fonction de transition g est donnée. Ces résultats sont
notamment valables pour des fonctions g discontinues. Si le temps le
permet, je spécifierai au cas particulier des chaînes à mémoire de
longueur variable où dans (...)

Nicole Mücke, Berlin, le 5 mars 2021 (TU Berlin)

Stochastic gradient descent (SGD) provides a simple and efficient way to solve a broad range of machine learning problems. Here, we focus on distribution regression (DR), involving two stages of sampling : Firstly, we regress from probability measures to real-valued responses. Secondly, we sample bags from these distributions for utilizing them to solve the overall regression problem.
Recently, DR has been tackled by applying kernel regularized least-squares and the learning properties of (...)

Adeline Fermanian, LPSM, le 12 février 2021

Sequential or temporal data arise in many fields of research, such as quantitative finance, medicine or computer vision. We will be concerned with a novel approach for sequential learning, called the signature method, and rooted in rough path theory. Its basic principle is to represent multidimensional paths by a graded feature set of their iterated integrals, called the signature. After a general overview of signatures in machine learning, we will focus on one specific problem. In order to (...)

Xavier Erny (LaMME Evry), le 5 février 2021

Titre : Propagation du chaos conditionnelle pour des sytèmes de neurones en interaction en champ moyen
Résumé : Nous étudions un système stochastique de neurones en interaction dans une normalisation diffusive. Le système est constitué de N neurones, chacun envoie des décharges aléatoirement avec un taux qui dépend de son potentiel de membrane. A chaque instant de décharge, le potentiel du neurone correspondant est réinitialisé à 0 et tous les autres neurones reçoivent une quantité de potentiel (...)

Julien Random-Furling, SAMM, le 29 janvier

Title : Convex hulls of several multidimensional Gaussian random walks
Abstract : This talk will present explicit formulae for the expected volume and the expected number of facets of the convex hull of several multidimensional Gaussian random walks in terms of the Gaussian persistence probabilities. Special cases include previously-known results about the convex hull of a single Gaussian random walk and the d-dimensional Gaussian polytope with or without the (...)

Arnak Dalalyan, ENSAE, le 22 janvier 2021

This paper shows that a single robust estimator of the mean of a multivariate Gaussian distribution can enjoy five desirable properties. First, it is computationally tractable in the sense that it can be computed in a time which is at most polynomial in dimension, sample size and the logarithm of the inverse of the contamination rate. Second, it is equivariant by translations and orthogonal transformations. Third, it has a nearly-minimax-rate-breakdown point approximately equal to 0.28. (...)

Mohammed Bachir (SAMM), le 15 janvier 2021

Cet exposé accessible à un large public et dont des rappels du niveau License/M1 occupera une bonne moitié du temps, portera sur la théorie des espaces vectoriels quasi-normés. Il sera question d’introduire un indice de symétrie de ces espaces vectoriels et de caractériser ensuite ceux d’entre eux qui ne soient pas des espaces de Baire. Le dual de tels espaces sont des cônes convexes mais jamais des espaces vectoriels. En conclusion : d’un point de vue topologique, un espace vectoriel quasi-normé (...)

Claire Lacour, LAMA, le 8 jnvier 2021

Nous considérons un échantillon de données sur le cercle, dont la distribution est un mélange à deux composantes. On suppose que la densité de l’échantillon est g(x)=p f(x+a)+(1-p) f(x+b) où p est le paramètre de mélange, f une densité sur le cercle, et a et b deux angles. L’objectif est d’estimer à la fois la partie paramétrique (p,a,b) et la partie non-paramétrique f. Nous étudierons les problèmes spécifiques d’identifiabilité sur le cercle, qui n’apparaissent pas pour des données réelles usuelles. Ensuite, (...)

Antoine Chambaz, MAP5, le 18 décembre 2020

We address the practical construction of asymptotic confidence intervals (CIs) for smooth, real-valued statistical parameters by targeted learning from iid data in contexts where sample size is so large that it poses computational challenges. We observe some summary measure of all data and select a sub-sample from the complete data set by sampling with unequal inclusion probabilities based on the summary measures. Targeted learning is then carried out from the easier to handle sub-sample. (...)

Alexandre d’Aspremont, ENS/INRIA, le 4 décembre 2020

The Shapley Folkman theorem acts a central limit theorem for convexity : It shows that Minkowski sums of arbitrary bounded sets are increasingly close to their convex hull as the number of terms in the sum increases. This produces a priori bounds on the duality gap of separable optimization problems. We use these results to show that several classical sparsity constrained optimization problems have low duality gaps in meaningful data (...)

Charlotte Dion (LPSM), le 27 novembre

We present a Hawkes jump-diffusion model. After focusing on the properties of the solutions of the process,
we investigate estimations of its coefficients : a drift coefficient, a volatility coefficient and a jump coefficient.
From discrete high frequency observations in a long-time horizon, nonparametric penalised mean-squares estimators are built
from increments of discrete observations. Finally, adaptive strategies are (...)

Hemant Tyagi (INIRA Lille), le 20 novembre 2020

The problem of learning a d-variate function f from its samples in a compact domain of Rd is a classical problem which has been studied extensively in statistics and numerical analysis.
In general, if we only make smoothness assumptions on f , then the number of samples needed for a reliable approximation of f grows exponentially with d. This is the well known curse of dimensionality and a common way to bypass this is to make additional structural assumptions on f. One such class of (...)

Nicolas Fournier, LPSM, le 13 novembre 2020

Le « recuit simulé » est une méthode numérique dont le but est de trouver le minimum global d’une fonction U (ici de R^d dans R), et qui consiste à résoudre
\partial_t f(t,x) = div(\nabla f(t,x)+\beta_t f(t,x)\nabla U(t,x)),
dont les « caractéristiques » sont données par l’équation différentielle stochastique
dX_t = dB_t - \beta_t \nabla U(X_t) dt.
C’est donc une descente de gradient, avec du bruit (pour sortir des minima locaux). Pour que l’influence du bruit disparaisse en temps grand, il faut que \beta_t tende vers l’infini. Mais si on fait tendre \beta_t trop vite vers l’infini, on risque de rester coincé dans un minimum local de U. Je parlerai des travaux de Holley-Kusuoka-Stroock, 88-89, qui ont parfaitement résolu cette question dans le cas où R^d est remplacé par une variété compacte, et de conditions de croissance de U à l’infini pour que leur résultat reste vrai dans R^d

Patrice Bertail, Nanterre, le 6 Novembre 2020

We present some recent exponential inequalities for survey sampling plans possessing the Negative Association (NA) properties. We first recall a few fact about survey sampling. It has been emphasized by Brändén and Jonasson(2012), Scand J. Stat, that many survey sampling plans have the strong Raleigh property implying the NA property. This property allows to obtain (crude) exponential inequalities in a straighforward manner. We will show how these bounds can be improved by using block of blocks technics. For some specific sampling plans, typically conditional Poisson sampling plans (corresponding to Poisson sampling that is i.i.d. Bernoulli sampling conditional to some fixed size and/or margin constraints on the data) it is possible to obtain bounds (with explicit constants) by an approach inspired by the work of Talagrand(1995) : the missing factor in Hoeffding inequality, Ann IHP. We will discuss some applications.

Joint work with Stephan Clemencon (Telecom Paris)+ ongoing works with S. Clemencon, Y. Guyonvarch and N. Noiry (Telecom Paris)

Eduardo Abi Jaber (CES), le 23 octobre 2020

We treat Linear-Quadratic control problems for a class of stochastic Volterra equations of convolution type. These equations are in general neither Markovian nor semimartingales, and include the fractional Brownian motion with Hurst index smaller than 1=2 as a special case. We prove that the value function is of linear quadratic form with a linear optimal feedback control, depending on non-standard infinite dimensional Riccati equations, for which we provide generic existence and uniqueness results. Furthermore, we show that the stochastic Volterra optimization problem can be approximated by conventional finite dimensional Markovian Linear Quadratic problems, which is of crucial importance for numerical implementation.
Joint work with Enzo Miller and Huyên Pham.

Adrien Prodhomme, CMAP Polytechnique et Institut Denis Poisson (Tours), le 16 octobre 2020

Nous nous intéresserons à une classe de processus markoviens de saut dits « densité-dépendants ». Ces processus sont utiles pour décrire l’évolution de tailles de populations (en écologie, chimie, épidémiologie). Ils font intervenir un paramètre d’échelle K>0, qui peut avoir différentes interprétations suivant le contexte (quantité de ressources, volume de réaction, taille totale de la population). Un théorème central limite fonctionnel de Kurtz prédit que sur un intervalle de temps [0,T] fixé, lorsque K est grand un processus densité-dépendant se comporte approximativement comme la solution d’une ODE à laquelle s’ajoutent des fluctuations gaussiennes.
Dans cet exposé, nous décrivons une approche pour quantifier, dans l’asymptotique K>>1, l’échelle de temps T(K) pendant laquelle l’approximation gaussienne du processus densité-dépendant reste valide. Il s’agit de comparer les processus au moyen d’un couplage qui repose sur le théorème de Komlós-Major-Tusnády qui permet d’approcher, trajectoire par trajectoire, les fluctuations du processus de Poisson autour de sa moyenne par un mouvement brownien. Nous nous intéresserons au cas où la trajectoire de l’ODE converge vers un point d’équilibre exponentiellement stable, qui correspond au comportement de nombreux modèles. Dans ce cadre, les fluctuations par rapport à l’ODE sont correctement décrites par le processus gaussien pendant une durée d’ordre exponentielle en la racine carrée de K.
Si le temps le permet, nous décrirons brièvement une application de ce résultat à l’estimation du temps nécessaire pour observer des déviations « modérées » du processus par rapport à l’ODE.

Quentin Cormier, INRIA Sophia Antipolis, le 2 octobre 2020

Long time behavior of a mean-field model of integrate and fire neurons

We consider a model of (biological) neurons in interaction.
Each neuron is characterized by its membrane potential, assumed to be of
``Integrate-And-Fire’’ type : between two successive spikes, the membrane
potential (V_t) solves an ODE. The neuron spikes at rate f(V_t)
(it only depends on the membrane potential of this neuron). At the
spiking time, the membrane potential is reset to a resting value.
At this same time, the discharge is propagated to the other neurons
of the network through a jump in the membrane potential. Altogether the finite
system with N neurons is a Piecewise Deterministic Markov Process.

We are interested here in the asymptotic behavior as the number of neurons goes to
infinity : a typical neuron in the limit system follows a McKean-Vlasov SDE.
We study it (existence/uniqueness and invariant distributions).
Furthermore, we prove that the local stability of a given invariant distribution
can be characterized through the location of the roots of an
explicit holomorphic function.
We finally discuss the existence of periodic solutions through a Hopf bifurction.
An important tool is the Volterra integral equation associated to the process.

Alain Célisse (SAMM, Paris 1), le 25 septembre 2020

In this work, we investigate the construction of early stopping rules in the nonparametric regression context where iterative learning algorithms are used and the optimal iteration number is unknown. More precisely, we study the discrepancy principle, as well as modifications based on smoothed residuals, for kernelized spectral filter learning algorithms including gradient descent.
Our main theoretical bounds are oracle inequalities established for the empirical estimation error (fixed (...)

Youcef Askoura (Université Paris 2 Panthéon-Assas, LEMMA) Le 06 Mars 2020

An infinite dimensional purification principle without saturation

Valentin Schmutz (Doctorant Université Paris 1), 24 janvier 2020

Hydrodynamic limit for interacting multidimensional spiking neurons

Nan Rao, (Université Jiao-tong de Shanghai), le 17 janvier 2020

Cluster analysis on wide-sense stationary ergodic processes and locally asymptotically self-similar processes

Celine Duval (Paris Descartes), Le 29 Novembre 2019

Total variation distance for discretely observed Lévy processes : a Gaussian approximation of the small jumps.

Annie Millet (Université Paris 1 SAMM), le 22 novembre 2019

Equation de Schrödinger non linéaire "focusing" critique et sur-critique avec perturbation stochastique additive et multiplicative.

Étienne Matheron (Université d’Artois), Le 15 novembre 2019

propriétés génériques des opérateurs hypercycliques.

Carl Graham (École Polytechnique) 08 novembre 2019

Régénération pour le processus de Hawkes linéaire

Chris Fowler (Penn State University), Le 25 octobre 2019

Who are the people in my neighborhood ? Race, scale, and the search for contextual effects

Paul Raynaud de Fitte (Université de Rouen Normandie), 18 octobre 2019

Presque périodicité pour des systèmes dynamiques avec aléa

Anna Melnykova (Université de Cergy-Pontoise, Université de Grenoble Alpes), 27 septembre 2019

Parametric inference for multidimensional hypoelliptic diffusion with full observations

Mark Handcock (UCLA), le 28 juin 2019

Some new models for social networks

Philippe Cieutat (Université Paris-Saclay) 14 juin 2019

Systèmes gradients du premier et second ordre

Xavier venel (CES Paris 1), 7 juin 2019

Uniform value in Stochastic games.

Andreas Kerren (Linnaeus University, Sweden), 17 mai 2019

Text Visualization Techniques : Overview and Showcases

Navigation

Mots-clés de la rubrique