6.4. Qu’est-ce qu’une variable latente ?¶

6.4.2. Température ambiante¶

Conceptuellement

Imaginez que la pièce dans laquelle vous vous trouvez dispose de 4 sondes de température qui échantillonnent et enregistrent la température locale toutes les 30 minutes. Voici un exemple de ce à quoi pourraient ressembler les quatre mesures sur 3 jours.

.. /figures/examples/room-temperature/room-temperature-plots.py

Sous forme de tableau, les premières mesures sont:

Date

\( x_1\)

\( x_2\)

\( x_3\)

\( x_4\)

Vendredi 11:00

Vendredi 11:30

Vendredi 12:00

Vendredi 12:30

Vendredi 13:00

Vendredi 13:30

Les fluctuations générales de haut en bas sont dues au changement quotidien de la température de la pièce. Le seul phénomène physique enregistré dans ces quatre mesures n’est que la variation de la température ambiante.

Si nous ajoutions deux thermomètres de plus au milieu de la pièce, nous nous attendrions à ce que ces nouvelles mesures montrent le même schéma que les quatre autres. À cet égard, nous pouvons ajouter autant de thermomètres que nous le souhaitons à la pièce, mais nous n’enregistrerons pas de nouvelles informations indépendantes avec chaque thermomètre. Il n’y a qu’une seule vraie variable qui fait monter et descendre toutes les lectures de température : c’est une variable latente.

Notez que nous n†™avons pas nécessairement besoin de savoir ce qui fait monter et descendre la variable latente (cela pourrait être la quantité de lumière solaire sur le bâtiment; cela pourrait être les paramètres du climatiseur). Tout ce que nous savons, c’est que ces mesures de température reflètent simplement le phénomène sous-jacent qui entraîne les mouvements de hausse et de baisse de la température; elles sont corrélées à la variable latente.

Notez également que la forte pointe enregistrée dans le coin arrière gauche de la pièce pourrait être due à une erreur du capteur de température. Et la partie avant de la pièce a montré un creux, peut-être parce que la porte a été laissée ouverte pendant une période prolongée; mais pas assez longtemps pour affecter les autres lectures de température. Ces deux événements vont à l’encontre de la tendance générale des données, nous nous attendons donc à ce que ces périodes se démarquent d’une manière ou d’une autre, afin de pouvoir les détecter.

Mathématiquement

Si nous voulions résumer les événements qui se déroulent dans la pièce, nous pourrions simplement utiliser la moyenne des températures enregistrées. Appelons cette nouvelle variable moyenne \(t_1\), qui résume les quatre autres mesures de température originales \(x_1, x_2, x_3\) et \(x_4\).

\

et les valeurs appropriées pour chacun des poids sont \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

Mathématiquement, la bonne façon de dire cela est que \(t_1\) est une combinaison linéaire des mesures brutes (\(x_1, x_2, x_3\) et \(x_4\)) données par les poids (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Géométriquement

Nous pouvons visualiser les données de ce système de plusieurs manières, mais nous montrerons simplement une représentation 3D des 3 premières températures: \(x_1, x_2, x_3\).

.. /figures/examples/room-temperature/room-temperature-plots-combine.py

Les 3 tracés montrent le même ensemble de données, juste à partir de points de vue différents. Chaque observation est un point unique, dont l’emplacement est déterminé par les valeurs enregistrées de température, \(x_1, x_2\) et \(x_3\). Nous utiliserons à nouveau cette représentation dans la section suivante.

Notez comment les données apparaissent corrélées: formant une ligne diagonale à travers l’intérieur du cube, avec quelques valeurs aberrantes (décrites ci-dessus) qui n’obéissent pas à cette tendance.

Les principaux points de cette section sont:

  • Les variables latentes capturent, d’une certaine manière, un phénomène sous-jacent dans le système étudié.

  • Après avoir calculé les variables latentes dans un système, nous pouvons utiliser ces moins de variables, au lieu des colonnes \(K\) de données brutes. En effet, les mesures réelles sont corrélées avec la variable latente.

Les exemples donnés jusqu’à présent ont montré ce qu’est une variable latente unique. En pratique, nous obtenons généralement plusieurs variables latentes pour un tableau de données. A ce stade, vous avez probablement plus de questions, telles que combien de variables latentes sont présentes dans une matrice et quelles sont les valeurs choisies dans \(\mathbf {P} \), et comment savons-nous que ces variables latentes sont un bon résumé des données d’origine?

Nous abordons ces questions de manière plus formelle dans la section suivante sur l’analyse en composantes principales.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.