6, 4. Mikä on piilevä muuttuja?

6, 4, 2. Huoneen lämpötila

käsitteellisesti

Kuvittele, että huoneessa, jossa olet, on 4 lämpömittaria, jotka ottavat näytteen ja tallentavat paikallisen lämpötilan 30 minuutin välein. Tässä on esimerkki siitä, miltä neljä mittausta saattaa näyttää 3 päivän aikana.

 ../figures/examples/room-temperature/room-temperature-plots.py

taulukkomuodossa ensimmäiset mittaukset ovat:

päiväys

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

perjantai 11:00

perjantai 11:30

Perjantai 12:00

Perjantai 12:30

Perjantai 13:00

Perjantai 13:30

yleinen ylös-ja alas-vaihtelu johtuu huoneen lämpötilan päivittäisestä muutoksesta. Näissä neljässä mittauksessa havaittu yksittäinen fysikaalinen ilmiö on vain huoneenlämmön vaihtelu.

jos lisäisimme kaksi lämpömittaria lisää keskelle huonetta, odottaisimme näiden uusien mittausten näyttävän samaa kaavaa kuin neljä muuta. Tässä suhteessa voimme lisätä huoneeseen niin monta lämpömittaria kuin haluamme, mutta emme voi tallentaa uutta, riippumatonta tietoa jokaisen lämpömittarin kanssa. On vain yksi todellinen muuttuja, joka ajaa kaikki lämpötilalukemat ylös ja alas: se on latentti muuttuja.

huomaa, että meidän ei välttämättä tarvitse tietää, mikä saa piilevän muuttujan liikkumaan ylös ja alas (se voi johtua auringonvalosta rakennuksessa; se voi olla ilmastoinnin asetukset). Tiedämme vain, että nämä lämpötilamittaukset vain heijastavat taustalla olevaa ilmiötä, joka ajaa lämpötilan ylös-ja alas-liikkeitä; ne korreloivat piilevän muuttujan kanssa.

Huomaa myös huoneen vasempaan takakulmaan kirjattu terävä piikki voi johtua lämpötila-anturin virheestä. Ja huoneen etuosassa näkyi notkahdus, ehkä siksi, että ovi oli jätetty auki pitkäksi aikaa; mutta ei niin kauan, että se olisi vaikuttanut muihin lämpötilalukemiin. Nämä kaksi tapahtumaa ovat tietojen yleisen suuntauksen vastaisia, joten odotamme näiden ajanjaksojen erottuvan jollain tavalla, jotta voimme havaita ne.

matemaattisesti

jos haluaisimme tehdä yhteenvedon huoneessa tapahtuneista tapahtumista, voisimme käyttää tilastoitujen lämpötilojen keskiarvoa. Kutsutaan tätä uutta keskiarvomuuttujaa \(t_1\), joka tiivistää neljä muuta alkuperäistä lämpötilamittausta \(x_1, x_2, x_3\) ja \(x_4\).

\

ja kullekin painolle sopivat arvot ovat \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

matemaattisesti oikea tapa sanoa tämä on, että \(t_1\) on lineaarinen yhdistelmä painojen (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\) antamia raakoja mittoja (\(x_1, x_2, x_3\) ja\(x_4\)).

geometrisesti

voimme visualisoida tämän järjestelmän tiedot usealla tavalla, mutta näytämme vain 3-D-esityksen kolmesta ensimmäisestä lämpötilasta: \(x_1, x_2, x_3\).

 ../figures/examples/room-temperature/room-temperature-plots-combine.py

3 havaintoalaa esittävät saman joukon tietoja, vain eri näkökulmista. Jokainen havainto on yksittäinen piste, jonka sijainti määräytyy kirjattujen lämpötilojen \(x_1, x_2\) ja \(x_3\) perusteella. Käytämme tätä edustusta seuraavassa jaksossa uudelleen.

huomaa, kuinka korreloivat tiedot ovat: muodostavat kubian sisäosan poikki diagonaalisen viivan, jossa on muutamia edellä kuvattuja poikkeamia, jotka eivät noudata tätä suuntausta.

tämän jakson pääkohdat ovat:

  • latentit muuttujat vangitsevat jollain tavalla tutkittavan järjestelmän taustalla olevan ilmiön.

  • systeemin latenttien muuttujien laskemisen jälkeen voidaan käyttää näitä vähemmän muuttujia raakadatan \(K\) sarakkeiden sijaan. Tämä johtuu siitä, että todelliset mittaukset korreloivat latentin muuttujan kanssa.

tähän mennessä annetut esimerkit osoittivat, mikä yksittäinen piilevä muuttuja on. Käytännössä saamme yleensä useita latentteja muuttujia tietoryhmälle. Tässä vaiheessa sinulla on todennäköisesti enemmän kysymyksiä, kuten ”kuinka monta latenttia muuttujaa matriisissa on” ja ”miten ovat arvot \(\mathbf{P}\) chosenissa”, ja ”mistä tiedämme, että nämä latentit muuttujat ovat hyvä yhteenveto alkuperäisestä datasta”?

näitä kysymyksiä käsitellään muodollisemmin seuraavassa pääkomponenttien analysointia käsittelevässä jaksossa.

Vastaa

Sähköpostiosoitettasi ei julkaista.