6.4. Hvad er en latent variabel?LR

6.4.2. Rumtemperatur kar

konceptuelt

Forestil dig det rum, du er I, har 4 temperaturprober, der prøver og registrerer den lokale temperatur hvert 30.minut. Her er et eksempel på, hvordan de fire målinger kan se ud over 3 dage.

../figures/examples/room-temperature/room-temperature-plots.py

i tabelform er de første få målinger:

Dato

\(H_1\)

\(h_2\)

\(h_3\)

\(h_4\)

fredag 11:00

fredag 11:30

fredag 12:00

fredag 12:30

fredag 13:00

fredag 13:30

de generelle op-og nedfluktuationer skyldes den daglige ændring i rumets temperatur. Det enkelte, fysiske fænomen, der registreres i disse fire målinger, er kun variationen i stuetemperatur.

hvis vi tilføjede yderligere to termometre midt i rummet, ville vi forvente, at disse nye målinger viser det samme mønster som de andre fire. I den henseende kan vi tilføje så mange termometre, som vi gerne til rummet, men vi vandt til at optage noget nyt, uafhængigt stykke information med hvert termometer. Der er kun en ægte variabel, der driver alle temperaturaflæsninger op og ned: det er en latent variabel.

Bemærk, at vi ikke behøver at vide, hvad der får den latente variabel til at bevæge sig op og ned (det kan være mængden af sollys på bygningen; det kan være klimaanlæggets indstillinger). Alt vi ved er, at disse temperaturmålinger kun afspejler det underliggende fænomen, der driver op-og-ned bevægelser i temperatur; de er korreleret med den latente variabel.

Bemærk også, at den skarpe spids, der er optaget i det bageste venstre hjørne af rummet, kan skyldes en fejl i temperatursensoren. Og den forreste del af rummet viste en dukkert, måske fordi døren blev efterladt åben i en længere periode; men ikke længe nok til at påvirke de andre temperaturaflæsninger. Disse to begivenheder strider mod den generelle tendens i dataene, så vi forventer, at disse tidsperioder skiller sig ud på en eller anden måde, så vi kan opdage dem.

matematisk

hvis vi ønskede at opsummere begivenhederne i rummet, kunne vi bare bruge gennemsnittet af de registrerede temperaturer. Lad os kalde denne nye, gennemsnitlige variabel \(t_1\), som opsummerer de andre fire oprindelige temperaturmålinger \(H_1, h_2, h_3\) og \(h_4\).

\

og passende værdier for hver af vægtene er \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

matematisk er den korrekte måde at sige dette på, at \(t_1\) er en lineær kombination af de rå målinger (\(H_1, h_2, h_3\) og \(h_4\)) givet af vægtene (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geometrisk

vi kan visualisere dataene fra dette system på flere måder, men vi viser simpelthen en 3D-repræsentation af de første 3 temperaturer: \(H_1, h_2, h_3\).

../figures/examples/room-temperature/room-temperature-plots-combine.py

de 3 plot viser det samme sæt data, lige fra forskellige synsvinkler. Hver observation er en enkelt prik, hvis placering bestemmes af de registrerede værdier for temperatur, \(H_1, h_2\) og \(h_3\). Vi vil bruge denne repræsentation i næste afsnit igen.

bemærk, hvor korrelerede dataene vises: danner en diagonal linje på tværs af Cube-Karens indre, med et par outliers (beskrevet ovenfor), der ikke overholder denne tendens.

hovedpunkterne fra dette afsnit er:

  • latente variabler fanger på en eller anden måde et underliggende fænomen i det system, der undersøges.

  • efter beregning af de latente variabler i et system kan vi bruge disse færre antal variabler i stedet for \(K\) kolonnerne med rådata. Dette skyldes, at de faktiske målinger er korreleret med den latente variabel.

eksemplerne hidtil viste, hvad en enkelt latent variabel er. I praksis opnår vi normalt flere latente variabler for et datarray. På dette tidspunkt, at du sandsynligvis har flere spørgsmål, såsom “how mange latente variabler, der er i et matrix” og “how er de værdier, der er i \(\mathbf{S}\) chosen”, og “how kender vi disse latente variabler, der er en god oversigt over de oprindelige data”?

vi behandler disse spørgsmål mere formelt i næste afsnit om hovedkomponentanalyse.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.