décomposition et analyse principale composante valeur Singulier

1. Introduction

1.1 Définition mathématique du SVD

Soit X une matrice m x n de données à valeurs réelles et rankr. où, sans perte de généralité m ≥N. et donc r ≤ n. Dans le cas de données de puces à ADN, xij est le niveau d'expression de la i ème gène dans la j-ième essai. Les éléments de la i ième ligne de X forment le vecteur de dimension n g i. que nous appelons la réponse de la transcription du gène i e. En variante, les éléments de la j ième colonne de la m X forment un vecteur de dimension j. que nous appelons le profil d'expression du j e essai.

Un résultat important de la SVD de X est que

est la matrice de rang le plus proche de l X. Le terme « proche » signifie que X (l) minimise la somme des carrés de la différence entre les éléments de X et X (l). Σij | xij - x (l) ij | 2.

Une façon de calculer la SVD est d'abord de calculer V T et S par diagonalisation X T X.

puis à calculer U comme suit:

Relation à l'analyse des composantes principales. Il existe une relation directe entre l'APC et SVD dans le cas où les composants principaux sont calculés à partir de la matrice de covariance. Si l'on conditionne la matrice X des données par le centrage de chaque colonne, alors X T X = Σi g i g i T est proportionnel à la matrice de covariance des variables de g i (i.e. .. la matrice de covariance des dosages). Par l'équation 5.3, diagonalisation de X T X donne V T. qui donne également les composants principaux de < g i >. Ainsi, les vecteurs singuliers < v k > sont les mêmes que les principales composantes de la < g i >. Les valeurs propres de X T X sont équivalents à 2. sk qui sont proportionnelles à la variance des composantes principales. La matrice des États-Unis contient alors les scores des composantes principales. qui sont les coordonnées des gènes dans l'espace des composantes principales.

Si, au lieu de chaque rangée de X est centrée, XX T = Σj a j T j est proportionnel à la matrice de covariance des variables d'un j (à savoir la matrice de covariance des gènes). Dans ce cas, les vecteurs singuliers gauche < u k > sont les mêmes que les principales composantes de la < a j >. Le sk 2 sont à nouveau proportionnelle à la variance des composantes principales. La matrice SV T contient de nouveau les scores des composantes principales, qui sont les coordonnées des essais dans l'espace des composantes principales.

Rapport à l'analyse de Fourier. Application de SVD dans l'analyse de données présente des similitudes avec l'analyse de Fourier. Comme cela est le cas avec SVD, l'analyse de Fourier comprend l'expansion des données d'origine dans une base orthogonale:

La connexion avec SVD peut être explicitement illustrée en normalisant le vecteur e i 2 πjk / m> et en le nommant v « k:

qui génère l'équation matricielle X = U « S « V » de T. similaire à l'équation 5.1. Cependant, contrairement à la SVD, même si la < v 'k > constituent une base orthonormée, la < u 'k > ne sont pas en général orthogonales. Néanmoins cela démontre comment le SVD est similaire à une transformation de Fourier, où les vecteurs < v k > sont déterminés de façon très précise à partir des données en utilisant l'équation 5.1, plutôt que d'être donnée au départ que pour la transformée de Fourier. Similaire au filtrage passe-bas dans l'analyse de Fourier, plus tard, nous allons décrire comment l'analyse SVD permet de filtrer en se concentrant sur les vecteurs singuliers qui ont les plus hautes valeurs singulières.

1.2Illustrative applications

2. Analyse SVD des données d'expression génique

Comme nous le mentionnons dans l'introduction, les données d'expression génique sont bien adaptés à l'analyse à l'aide SVD / PCA. Dans cette section, nous fournissons des exemples de méthodes d'analyse comparative SVD-appliquée à l'analyse de l'expression des gènes. Avant d'illustrer des techniques spécifiques, nous allons discuter de façons d'interpréter le SVD dans le contexte des données d'expression génique. Cette interprétation de la nomenclature et d'accompagnement serviront de base à la compréhension des méthodes décrites plus loin.

Dans les systèmes d'applications de la biologie, nous voulons généralement de comprendre les relations entre les gènes. Le signal d'intérêt dans ce cas est le gène réponse transcriptionnelle g i. Par l'équation 5.1, l'équation SVD pour g i est

Figure 5.1. Représentation graphique de SVD d'une matrice X. annotée avec les notations adoptées dans ce chapitre.

2.1Visualization du SVD

Figure 5.2. Visualisation du SVD des données du cycle cellulaire. Parcelles de variance relative (a); et le premier (b), deuxième (c) et troisième (d) eigengenes sont présentés. Les méthodes de visualisation utilisés dans chaque panneau sont décrits dans la section 2.1. Ces données ont inspiré notre choix des modèles sinus et exponentielles pour les données synthétiques de l'article 2.1.

Pour faciliter notre discussion de visualisation, nous utilisons des données de séries chronologiques synthétiques fixées avec 14 dosages de niveau d'expression séquentielle (colonnes X) de 2000 gènes (lignes de X). Utilisation d'un ensemble de données de synthèse nous permet de fournir des illustrations simples qui peuvent servir de base à la compréhension des modèles plus complexes qui se posent dans les données réelles d'expression génique. Les gènes de notre ensemble de données ont un des trois types de réponse de la transcription, inspirés par des motifs observés expérimentalement dans le Cho et al. les données du cycle cellulaire: 1) bruit (1600 gènes); 2) motif sine bruyant (200 gènes); ou 3) modèle exponentiel bruyant (200 gènes). Le bruit de l'ensemble des trois groupes de gènes a été modélisée par échantillonnage d'une distribution normale avec zéro moyenne et l'écart-type de 0,5. Le motif sinusoïdal est de la forme fonctionnelle sin (2πt / 140), et le modèle exponentiel de la forme soit -t / 100. où est échantillonné de façon uniforme sur l'intervalle (1.5,3), b est échantillonné de manière uniforme sur (4,8), t est le temps (en minutes) associé à chaque essai, et les points de temps sont échantillonnées toutes les dix minutes à partir de t = 0. réponse de la transcription de chaque gène a été centré sur d'avoir une moyenne de zéro. La figure 5.3 représente les gènes de type 2) et 3).

Figure 5.3. réponses transcriptionnelles de gènes de l'ensemble de données synthétiques. Superpositions de a) cinq gènes d'onde sinusoïdale bruyants et b) des cinq gènes exponentielles bruyant.

2.1.1Visualization des matrices S. V T et U

Figure 5.4. Visualisation de la SVD de la matrice de données de synthèse. a) spectre en valeurs singulières dans un diagramme de variance relative. Les deux premières valeurs singulières représentent 64% de la variance. Les premiers (b), deuxième (c) et troisième (d) eigengenes sont tracées en fonction du temps (dosages) dans les panneaux restants. Le troisième eigengene n'a pas la structure cyclique évidente de la première et la seconde.

2.1.2 Les diagrammes de dispersion

Visualisation de la structure de données de grande dimension nécessite l'affichage des données dans un, deux, ou sous-espace à trois dimensions. SVD identifie qui capturent la plupart des sous-espaces de la variance dans les données. Même si notre discussion ici est sur la visualisation en sous-espaces obtenus par SVD, les techniques de visualisation illustrées sont générales et peuvent dans la plupart des cas être appliqués pour la visualisation dans d'autres sous-espaces (voir la section 4 pour les techniques qui utilisent d'autres critères pour la sélection des sous-espace).

où rik désigne le coefficient de corrélation de la réponse transcriptionnelle g i avec eigengene v k; δ g i est le g-i centrée moyenne. dont les éléments sont xij - j> i. et δ v k est la moyenne centrée-v k. dont les éléments sont vjk - j> k. La normalisation conduit à -1 ≤ rik ≤ 1. On notera que si chaque gi est pré-traitée pour avoir une moyenne nulle et de norme unité, il en résulte que le diagramme de dispersion de corrélation est équivalent au diagramme de dispersion de projection (gi = δ gi implique vk = δ vk, et | δ gi | -1 = | δ vk | -1 = 1).

Dans le diagramme de dispersion de projection, les gènes ayant une magnitude relativement élevée de coordonnées sur les -axis k contribuent relativement fortement à la variance du k e eigengene dans l'ensemble de données. Le plus un gène est éloigné de l'origine, plus la contribution de ce gène est à la variance expliquée par le sous-espace. Dans le diagramme de dispersion de corrélation, les gènes ayant une magnitude relativement élevée de coordonnées sur l'axe des x k ont ​​des réponses transcriptionnelles qui sont en corrélation relativement élevée avec le k ème eigengene.

2.2 La détection des modèles d'expression faibles

Figure 5.6. la détection à base d'SVD de signaux faibles. a) Un tracé de la première eigengene montre la structure de la faiblesse du signal d'onde sinusoïdale qui contribue à la réponse transcriptionnelle de la moitié des gènes. b) Le deuxième eigengene ressemble à du bruit. c) Un tracé de la variance relative pour les six premières valeurs singulières montre un coude après la première valeur singulière. d) Les gènes de signal et de bruit ne sont pas séparées dans un diagramme de dispersion eigengene de 150 des gènes de signaux, et 150 des gènes de bruit seule.

2.3 Exemples de la littérature

3. Discussion

Dans la section 2.3, nous examinons comment, plutôt que de séparer en groupes bien définis, les gènes du cycle cellulaire ont tendance à être plus continue répartis dans les projections de SVD. Par exemple, lors du traçage des corrélations des gènes avec les deux premiers vecteurs singuliers, les gènes du cycle cellulaire semblent être relativement uniformément répartie sur une bague. Cette structure donne à penser que, plutôt que d'utiliser une méthode de classification qui regroupe les gènes en fonction de leur co-implantation dans le voisinage d'un point (par exemple .. k -des moyens clusters), on doit choisir une méthode de classification approprié pour traiter des distributions en forme d'anneau. cycle cellulaire analyses précédentes illustrent donc le fait qu'une utilisation importante de SVD est d'aider dans le choix des méthodes de classification appropriées par enquête sur la dimensionnalité des données.

4. Pour en savoir plus et ressources

Remerciements

Nous tenons à remercier Raphael Gottardo et Kevin Vixie pour la lecture critique du manuscrit. L'écriture de ce chapitre a été réalisée sous les auspices du ministère de l'Énergie (DOE) sous contrat à l'Université de Californie, et a été soutenu par le laboratoire dirigée Recherche et développement au Laboratoire national de Los Alamos.

Les références

Cattell R.B. Le scree test pour le nombre de facteurs. Multivariée recherche comportementale 1966; 1: 245-76.

Deprettere F. SVD et traitement du signal: algorithmes, analyse et applications. Amsterdam: Elsevier Science Publishers, 1988.

Friedman J.H. Tukey J.W. Un algorithme de poursuite de projection pour l'analyse exploratoire des données. IEEE Transactions on Computers 1974; 23: 881-89.

Jolliffe i.t. Analyse des composants principaux. New York: Springer, 1986.

Articles Liés