6.4. Hva er en latent variabel? ¶

6.4.2. Romtemperaturkompatibel

konseptuelt

Tenk deg at rommet du befinner deg i, Har 4 temperaturprober som prøver og registrerer den lokale temperaturen hvert 30. minutt. Her er et eksempel på hvordan de fire målingene kan se ut over 3 dager.

 ../figures/examples/room-temperature/room-temperature-plots.py

i tabellform er de første målingene:

Dato

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

fredag 11:00

fredag 11:30

fredag 12:00

fredag 12:30

fredag 13:00

fredag 13:30

de generelle opp-og ned-svingningene skyldes den daglige endringen i room@emperaturen. Det eneste fysiske fenomenet som registreres i disse fire målingene, er bare variasjonen i romtemperatur.

hvis vi la til to termometre midt i rommet, forventer vi at disse nye målingene viser samme mønster som de andre fire. I den forbindelse kan vi legge til så mange termometre som vi liker til rommet, men vi vantâ € ™ t registrere noe nytt, uavhengig informasjon med hvert termometer. Det er bare en sann variabel som driver alle temperaturavlesningene opp og ned: det er en latent variabel.

Legg Merke til at vi ikke nødvendigvis trenger å vite hva som forårsaker den latente variabelen å bevege seg opp og ned (det kan være mengden sollys på bygningen; det kan være air-conditionerâ € ™ s innstillinger). Alt vi vet er at disse temperaturmålingene bare gjenspeiler det underliggende fenomenet som driver opp-og-ned-bevegelsene i temperatur; de er korrelert med latent variabel.

Legg også merke til at den skarpe spissen som er registrert i bakre venstre hjørne av rommet, kan skyldes en feil i temperatursensoren. Og den fremre delen av rommet viste en dukkert, kanskje fordi døren var åpen i lengre tid; men ikke lenge nok til å påvirke de andre temperaturavlesningene. Disse to hendelsene går mot den generelle trenden av dataene, så vi forventer at disse tidsperiodene skal skille seg ut på en eller annen måte, slik at vi kan oppdage dem.

Matematisk

hvis vi ønsket å oppsummere hendelsene som foregår i rommet, kan vi bare bruke gjennomsnittet av de registrerte temperaturene. Laâ € ™ s kalle denne nye, gjennomsnittlige variabelen \ (t_1\), som oppsummerer de andre fire opprinnelige temperaturmålingene \ (x_1, x_2, x_3\) og \(x_4\).

\

og passende verdier for hver av vektene er \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

Matematisk er Den riktige måten å si dette på at \(t_1\) er en lineær kombinasjon av de raske målingene (\(x_1, x_2, x_3\) og \(x_4\)) gitt av vektene (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geometrisk

vi kan visualisere dataene fra dette systemet på flere måter, men vi vil bare vise en 3-D-representasjon av de første 3 temperaturene: \(x_1, x_2, x_3\).

 ../figures/examples/room-temperature/room-temperature-plots-combine.py

de 3 plottene viser samme sett med data, bare fra forskjellige synspunkter. Hver observasjon er en enkelt prikk, hvis plassering bestemmes av de registrerte temperaturverdiene, \(x_1, x_2\) og \(x_3\). Vi vil bruke denne representasjonen i neste avsnitt igjen.

Legg merke til hvor korrelerte dataene ser ut: danner en diagonal linje over cubeâ € ™ s interiør, med noen uteliggere (beskrevet ovenfor) som ikke adlyder denne trenden.

hovedpoengene fra denne delen er:

  • Latente variabler fanger på en eller annen måte et underliggende fenomen i systemet som undersøkes.

  • etter å ha beregnet de latente variablene i et system, kan vi bruke disse færre antall variabler, i stedet for \(K\) kolonnene av rådata. Dette skyldes at de faktiske målingene er korrelert med latent variabel.

eksemplene gitt så langt viste hva en enkelt latente variabler er. I praksis får vi vanligvis flere latente variabler for en datarekke. På dette stadiet har du sannsynligvis har flere spørsmål, for eksempel “how mange latente variabler er det i et matrix” og “how er verdiene i \(\mathbf{P}\) chosen”, og “how vet vi disse latente variabler er en god oppsummering av den opprinnelige data”?

vi tar opp disse problemene mer formelt i neste avsnitt om hovedkomponentanalyse.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.