6.4. Wat is een latente variabele?¶

6.4.2. Ruimtetemperatuur¶

conceptueel

stel je voor dat de kamer waarin je bent 4 temperatuursondes heeft die elke 30 minuten de lokale temperatuur bemonsteren en registreren. Hier is een voorbeeld van hoe de vier metingen eruit zouden kunnen zien over 3 dagen.

../figures/examples/room-temperature/room-temperature-plots.py

in tabelvorm zijn de eerste metingen:

Datum

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

Vrijdag 11:00

Vrijdag 11:30

Vrijdag 12:00

Vrijdag 12:30

Vrijdag 13:00

Vrijdag 13:30

De algemene omhoog en omlaag schommelingen zijn te wijten aan de dagelijkse veranderingen in de room’s temperatuur. Het enige fysische fenomeen dat in deze vier metingen wordt geregistreerd, is slechts de variatie in kamertemperatuur.

als we nog twee thermometers in het midden van de ruimte zouden toevoegen, zouden we verwachten dat deze nieuwe metingen hetzelfde patroon zouden laten zien als de andere vier. In dat opzicht kunnen we zoveel thermometers aan de kamer toevoegen als we willen, maar we zullen geen nieuw, onafhankelijk stukje informatie opnemen bij elke thermometer. Er is maar één echte variabele die alle temperatuurmetingen op en neer drijft: het is een latente variabele.

merk op dat we niet noodzakelijkerwijs hoeven te weten waarom de latente variabele op en neer beweegt (het kan de hoeveelheid zonlicht op het gebouw zijn; het kan de instellingen van de airconditioner zijn). Alles wat we weten is dat deze Temperatuurmetingen gewoon het onderliggende fenomeen weergeven dat de op-en-neer bewegingen in temperatuur drijft; ze zijn gecorreleerd met de latente variabele.

merk ook op dat de scherpe piek in de linker Achterhoek van de ruimte te wijten kan zijn aan een fout in de temperatuursensor. En het voorste deel van de kamer vertoonde een dip, misschien omdat de deur voor een langere periode open werd gelaten; maar niet lang genoeg om de andere temperatuurmetingen te beïnvloeden. Deze twee gebeurtenissen gaan in tegen de algemene trend van de gegevens, dus we verwachten dat deze perioden op een bepaalde manier opvallen, zodat we ze kunnen detecteren.

wiskundig

als we de gebeurtenissen in de ruimte willen samenvatten, kunnen we gewoon het gemiddelde van de geregistreerde temperaturen gebruiken. Laten we deze nieuwe, gemiddelde variabele \(t_1\) noemen, die de andere vier oorspronkelijke Temperatuurmetingen \(x_1, x_2, x_3\) en \(x_4\) samenvat.

\

en geschikte waarden voor elk van de gewichten zijn \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

wiskundig is de juiste manier om dit te zeggen dat \(t_1\) een lineaire combinatie is van de ruwe metingen (\(x_1, x_2, x_3\) en \(x_4\)) gegeven door de gewichten (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geometrisch

we kunnen de gegevens van dit systeem op verschillende manieren visualiseren, maar we zullen gewoon een 3-D representatie van de eerste 3 temperaturen tonen: \(x_1, x_2, x_3\).

../figures/examples/room-temperature/room-temperature-plots-combine.py

de drie percelen tonen dezelfde reeks gegevens, alleen vanuit verschillende gezichtspunten. Elke waarneming is één punt, waarvan de locatie wordt bepaald door de geregistreerde waarden van temperatuur, \(x_1, x_2\) en \(x_3\). We zullen deze representatie in de volgende sectie opnieuw gebruiken.

merk op hoe gecorreleerd de gegevens lijken: het vormen van een diagonale lijn over het interieur van de kubus, met een paar uitschieters (hierboven beschreven) die deze trend niet volgen.

de belangrijkste punten uit dit deel zijn::

  • latente variabelen vangen, op een bepaalde manier, een onderliggend fenomeen in het systeem dat wordt onderzocht.

  • na het berekenen van de latente variabelen in een systeem, kunnen we deze minder variabelen gebruiken, in plaats van de \(K\) kolommen van ruwe gegevens. Dit komt omdat de werkelijke metingen gecorreleerd zijn met de latente variabele.

uit de tot nu toe gegeven voorbeelden bleek wat een enkele latente variabelen is. In de praktijk verkrijgen we meestal verschillende latente variabelen voor een data array. In dit stadium heb je waarschijnlijk meer vragen, zoals “hoe veel latente variabelen zijn er in een matrix†” en “hoe zijn de waarden in \(\mathbf{P}\) chosen—, en â € œhoe weten we dat deze latente variabelen zijn een goede samenvatting van de oorspronkelijke data—?

in het volgende hoofdstuk over de analyse van hoofdcomponenten worden deze kwesties formeler behandeld.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.