S Lection De Variables Pour La Classification Non Supervis E Par M Langes Gaussiens

Download S Lection De Variables Pour La Classification Non Supervis E Par M Langes Gaussiens PDF/ePub or read online books in Mobi eBooks. Click Download or Read Online button to get S Lection De Variables Pour La Classification Non Supervis E Par M Langes Gaussiens book now. This website allows unlimited access to, at the time of writing, more than 1.5 million titles, including hundreds of thousands of titles in various foreign languages.
Sélection de variables pour la classification non supervisée par mélanges gaussiens

We are interested in variable selection for clustering with Gaussian mixture models. This research is motivated by the clustering of genes described by transcriptome datasets in particular. In the two parts, this problem is regarded as a model selection problem in a model-based cluster analysis framework. In the first part, the proposed model, generalizing the one of Raftery and Dean (2006), specifies the variable role for the clustering process. The irrelevant clustering variables can be dependent to a relevant variable subset. Models are compared with a BIC-like criterion. The model identifiability is established and the consistency of the criterion is proved under regularity conditions. In practice, the variable role is obtained through an algorithm embedding two backward stepwise algorithms for variable selection for the clustering and the linear regression. The interest of this procedure is highlighted by a transcriptome dataset application especially. An improvement of the variable role modelling, consisting of partitioning the irrelevant variables according to their dependence or independence with some relevant clustering variables, is suggested to avoid an overpenalization of some models. Finally, the DNA microarray technology generating many missing values, an extension of our variable selection procedure taken into account the existence of missing entries is proposed. It avoids the missing entry imputation usually used in preprocessing. In the second part, specific Gaussian mixtures are considered and a non asymptotic penalized criterion is proposed to select the number of mixture components and the relevant clustering variable subset. A general model selection theorem for maximum likelihood estimation, proposed by Massart (2007), is used to obtain the penalty function form. This theorem requires to control the bracketing entropy of studied Gaussian mixture families. This criterion depending on unknown constants, the "slope heuristics" method is carried out to allow the practical use of this criterion.
Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire

Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte.
Méthodes non supervisées pour l’analyse des données multivariées

Tous les domaines de la science nécessitent d’analyser des données qu’il s’agisse des sciences humaines ou des sciences exactes et naturelles. Ces données peuvent être de nature différente et dans des nombreuses situations elles représentent plusieurs enregistrements du même phénomène physique, elles sont regroupées dans des bases des données multivariées que l’on cherche à interpréter. Leur interprétation requiert la connaissance du domaine d’application qui sert de guide afin d’extraire l’information utile pour la compréhension des phénomènes étudiés. Une etape essentielle dans ce processus est le regroupement des données ayant des caractéristiques similaires dans des classes ; cette étape est appelée classification non supervisée (ou automatique) ou clustering. Concernant ce domaine d’analyse, des questions restent ouvertes comme la dimension intrinsèque et la réduction de dimension des données multivariées, le choix de la mesure de similarité ou la validation du nombre de classes. Ce travail apporte des contributions aux deux questions précédentes : le choix de la mesure de similarité pour la classification non supervisée et la réduction de dimension de données multivariées. Le phénomène de concentration des métriques est étudié et la pertinence de métriques non euclidiennes comme mesure de similarité dans de problèmes de classification est testée. Des indices prenant en compte la distance interclasse sont proposés pour choisir la métrique optimale si les classes sont gaussiennes. Les méthodes de séparation aveugle de sources sont étudiées dans le contexte de la réduction de dimension ; une méthode de SAS basée sur une interprétation géométrique du modèle de mélange linéaire est proposée. Des méthodes de SAS prenant en compte les contraintes des applications sont utilisées pour la réduction de dimension dans deux applications en imagerie multivariée. Celles-ci permettent la mise en évidence de facteurs physiquement interprétables ainsi que la réduction de la complexité des algorithmes de classification utilisés pour l’analyse. Les travaux sont illustrés sur deux applications sur des données réelles