6.4. ¿Qué es una variable latente?¶

6.4.2. Temperatura ambiente¶

Conceptualmente

Imagine que la habitación en la que se encuentra tiene 4 sondas de temperatura que muestrean y registran la temperatura local cada 30 minutos. Aquí hay un ejemplo de cómo podrían verse las cuatro medidas durante 3 días.

 ../figures/examples/room-temperature/room-temperature-plots.py

En forma de tabla, las primeras mediciones son:

Fecha

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

Viernes 11:00

Viernes 11:30

Viernes 12:00

Viernes 12 De:30

Viernes 13:00

Viernes 13:30

El general arriba y abajo de las fluctuaciones son debidas al cambio diario en el room’s la temperatura. El fenómeno físico único que se registra en estas cuatro mediciones es solo la variación de la temperatura ambiente.

Si agregáramos dos termómetros más en el centro de la habitación, esperaríamos que estas nuevas mediciones mostraran el mismo patrón que los otros cuatro. En ese sentido, podemos agregar tantos termómetros como queramos a la habitación, pero no registraremos ninguna información nueva e independiente con cada termómetro. Solo hay una variable verdadera que impulsa todas las lecturas de temperatura hacia arriba y hacia abajo: es una variable latente.

Observe que no necesariamente tenemos que saber qué causa que la variable latente se mueva hacia arriba y hacia abajo (podría ser la cantidad de luz solar en el edificio; podría ser la configuración del aire acondicionado). Todo lo que sabemos es que estas mediciones de temperatura solo reflejan el fenómeno subyacente que impulsa los movimientos de subida y bajada de la temperatura; están correlacionadas con la variable latente.

Observe también que la punta afilada registrada en la esquina posterior izquierda de la habitación podría deberse a un error en el sensor de temperatura. Y la parte delantera de la habitación mostraba un chapuzón, tal vez porque la puerta se dejó abierta durante un período prolongado; pero no lo suficiente como para afectar las otras lecturas de temperatura. Estos dos eventos van en contra de la tendencia general de los datos, por lo que esperamos que estos períodos de tiempo se destaquen de alguna manera, para que podamos detectarlos.

Matemáticamente

Si quisiéramos resumir los eventos que tienen lugar en la sala, podríamos usar el promedio de las temperaturas registradas. Llamemos a esta nueva variable promedio \(t_1\), que resume las otras cuatro mediciones de temperatura originales \(x_1, x_2, x_3\) y \(x_4\).

\

y los valores adecuados para cada uno de los pesos son \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

Matemáticamente, la forma correcta de decir esto es que \(t_1\) es una combinación lineal de las medidas sin procesar (\(x_1, x_2, x_3\) y \(x_4\)) dadas por los pesos (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geométricamente

Podemos visualizar los datos de este sistema de varias maneras, pero simplemente mostraremos una representación en 3D de las primeras 3 temperaturas: \(x_1, x_2, x_3\).

 ../figures/examples/room-temperature/room-temperature-plots-combine.py

Las 3 gráficas muestran el mismo conjunto de datos, solo desde diferentes puntos de vista. Cada observación es un único punto, cuya ubicación está determinada por los valores registrados de temperatura, \(x_1, x_2\) y \(x_3\). Utilizaremos esta representación en la siguiente sección de nuevo.

Observe cómo aparecen los datos correlacionados: formando una línea diagonal a través del interior del cubo, con algunos valores atípicos (descritos anteriormente) que no obedecen a esta tendencia.

Los puntos principales de esta sección son:

  • Las variables latentes capturan, de alguna manera, un fenómeno subyacente en el sistema que se investiga.

  • Después de calcular las variables latentes en un sistema, podemos usar estas menos variables, en lugar de las columnas \(K\) de datos sin procesar. Esto se debe a que las mediciones reales están correlacionadas con la variable latente.

Los ejemplos dados hasta ahora mostraron lo que es una sola variable latente. En la práctica, generalmente obtenemos varias variables latentes para una matriz de datos. En esta etapa, es probable que tenga más preguntas, como «cuántas variables latentes hay en una matriz» y «¿cómo son los valores en \(\mathbf{P}\) elegidos», y » ¿cómo sabemos que estas variables latentes son un buen resumen de los datos originales?»

Abordamos estos problemas de manera más formal en la siguiente sección sobre análisis de componentes principales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.