6.4. Was ist eine latente Variable?¶

6.4.2. Raumtemperaturâ¶

Konzeptionell

Stellen Sie sich vor, der Raum, in dem Sie sich befinden, verfügt über 4 Temperatursonden, die alle 30 Minuten die lokale Temperatur messen und aufzeichnen. Hier ist ein Beispiel, wie die vier Messungen über 3 Tage aussehen könnten.

../figures/examples/room-temperature/room-temperature-plots.py

In Tabellenform sind die ersten Messungen:

Datum

\( x_1\)

\( x_2\)

\( x_3\)

\( x_4\)

Freitag 11:00

Freitag 11:30

Freitag 12:00

Freitag 12:30

Freitag 13:00

Freitag 13:30

Die allgemeinen auf und ab Schwankungen sind aufgrund der täglichen Änderung in der room⠀ ™ s Temperatur. Das einzige physikalische Phänomen, das in diesen vier Messungen aufgezeichnet wird, ist nur die Variation der Raumtemperatur.

Wenn wir zwei weitere Thermometer in der Mitte des Raumes hinzufügen würden, würden wir erwarten, dass diese neuen Messungen das gleiche Muster wie die anderen vier zeigen. In dieser Hinsicht können wir so viele Thermometer hinzufügen, wie wir in den Raum mögen, aber wir won⠀ ™ t einige neue, unabhängige Stück Information mit jedem Thermometer aufnehmen werden. Es gibt nur eine wahre Variable, die alle Temperaturwerte nach oben und unten treibt: Es ist eine latente Variable.

Beachten Sie, dass wir don⠀ ™ t unbedingt wissen müssen, was die latente Variable verursacht nach oben und unten zu bewegen (es könnte die Menge an Sonnenlicht auf dem Gebäude sein; es könnte die air-conditioner⠀ ™ s Einstellungen sein). Alles, was wir wissen, ist, dass diese Temperaturmessungen nur das zugrunde liegende Phänomen widerspiegeln, das die Auf- und Abbewegungen der Temperatur antreibt; Sie korrelieren mit der latenten Variablen.

Beachten Sie auch, dass die scharfe Spitze in der hinteren linken Ecke des Raums auf einen Fehler im Temperatursensor zurückzuführen sein könnte. Und der vordere Teil des Raumes zeigte einen Einbruch, vielleicht weil die Tür für einen längeren Zeitraum offen blieb; aber nicht lange genug, um die anderen Temperaturwerte zu beeinflussen. Diese beiden Ereignisse widersprechen dem allgemeinen Trend der Daten, daher erwarten wir, dass diese Zeiträume in irgendeiner Weise hervorstechen, damit wir sie erkennen können.

Mathematisch

Wenn wir die Ereignisse im Raum zusammenfassen wollten, könnten wir einfach den Durchschnitt der aufgezeichneten Temperaturen verwenden. Let†™ s nennen diese neue, durchschnittliche Variable \(t_1\), die die anderen vier ursprünglichen Temperaturmessungen \ (x_1, x_2, x_3 \) und \ (x_4 \) zusammenfasst.

\

und geeignete Werte für jedes der Gewichte sind \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

Mathematisch ist der richtige Weg, dies zu sagen, dass \(t_1\) eine lineare Kombination der rohen Messungen (\(x_1, x_2, x_3\) und \(x_4\)) ist, die durch die Gewichte (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)) .

Geometrisch

Wir können die Daten aus diesem System auf verschiedene Arten visualisieren, aber wir zeigen einfach eine 3D-Darstellung der ersten 3 Temperaturen: \(x_1, x_2, x_3\).

../figures/examples/room-temperature/room-temperature-plots-combine.py

Die 3 Diagramme zeigen den gleichen Datensatz, nur aus verschiedenen Blickwinkeln. Jede Beobachtung ist ein einzelner Punkt, dessen Position durch die aufgezeichneten Temperaturwerte \ (x_1, x_2 \) und \ (x_3 \) bestimmt wird. Wir werden diese Darstellung im nächsten Abschnitt erneut verwenden.

Beachten Sie, wie korreliert die Daten erscheinen: eine diagonale Linie über das Innere des cube⠀ ™ s bilden, mit ein paar Ausreißer (oben beschrieben), die don⠀ ™ t diesen Trend gehorchen.

Die wichtigsten Punkte aus diesem Abschnitt sind:

  • Latente Variablen erfassen in gewisser Weise ein zugrunde liegendes Phänomen im untersuchten System.

  • Nach der Berechnung der latenten Variablen in einem System können wir diese geringere Anzahl von Variablen anstelle der \ (K \) Spalten von Rohdaten verwenden. Dies liegt daran, dass die tatsächlichen Messungen mit der latenten Variablen korreliert sind.

Die bisher gegebenen Beispiele zeigten, was eine einzelne latente Variable ist. In der Praxis erhalten wir normalerweise mehrere latente Variablen für ein Datenarray. In diesem Stadium haben Sie wahrscheinlich mehr Fragen, wie ⠀œhow viele latente Variablen gibt es in einer matrix” und “how sind die Werte in \(\mathbf{P}\) chosen”, und “how wissen wir, diese latenten Variablen sind eine gute Zusammenfassung der ursprünglichen data”?

Im nächsten Abschnitt zur Hauptkomponentenanalyse werden wir diese Fragen formeller behandeln.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.