6.4. Vad är en latent variabel?

6.4.2. Rumstemperaturjabi

konceptuellt

Föreställ dig att rummet du befinner dig i har 4 temperaturprober som samplar och registrerar den lokala temperaturen var 30: e minut. Här är ett exempel på hur de fyra mätningarna kan se ut över 3 dagar.

 ../figures/examples/room-temperature/room-temperature-plots.py

i tabellform är de första mätningarna:

datum

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

fredag 11:00

fredag 11:30

Fredag 12:00

Fredag 12:30

fredag 13:00

fredag 13:30

de allmänna upp-och nedfluktuationerna beror på den dagliga förändringen i rumstemperaturen. Det enda fysiska fenomenet som registreras i dessa fyra mätningar är bara variationen i rumstemperatur.

om vi lägger till ytterligare två termometrar i mitten av rummet, förväntar vi oss att dessa nya mätningar visar samma mönster som de andra fyra. I det avseendet kan vi lägga till så många termometrar som vi vill i rummet, men vi vann inte att spela in några nya, oberoende information med varje termometer. Det finns bara en sann variabel som driver alla temperaturavläsningar upp och ner: det är en latent variabel.

Lägg märke till att vi inte behöver veta vad som orsakar att den latenta variabeln rör sig upp och ner (det kan vara mängden solljus på byggnaden, det kan vara luftkonditioneringsapparatens inställningar). Allt vi vet är att dessa temperaturmätningar bara återspeglar det underliggande fenomenet som driver upp-och-ner-rörelserna i temperaturen; de är korrelerade med den latenta variabeln.

Observera också den skarpa spetsen som registrerats i det bakre vänstra hörnet av rummet kan bero på ett fel i temperatursensorn. Och den främre delen av rummet visade ett dopp, kanske för att dörren lämnades öppen under en längre tid; men inte tillräckligt länge för att påverka de andra temperaturavläsningarna. Dessa två händelser går emot den allmänna trenden för data, så vi förväntar oss att dessa tidsperioder sticker ut på något sätt så att vi kan upptäcka dem.

matematiskt

om vi ville sammanfatta de händelser som äger rum i rummet kan vi bara använda genomsnittet av de inspelade temperaturerna. Låt oss kalla denna nya, genomsnittliga variabel \(t_1\), som sammanfattar de övriga fyra ursprungliga temperaturmätningarna \(x_1, x_2, x_3\) och \(x_4\).

\

och lämpliga värden för var och en av vikterna är \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

matematiskt är det korrekta sättet att säga detta att \(t_1\) är en linjär kombination av de råa mätningarna (\(x_1, x_2, x_3\) och \(x_4\)) som ges av vikterna (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

geometriskt

vi kan visualisera data från detta system på flera sätt, men vi visar helt enkelt en 3-D-representation av de första 3 temperaturerna: \(x_1, x_2, x_3\).

 ../figures/examples/room-temperature/room-temperature-plots-combine.py

de 3 tomterna visar samma uppsättning data, bara från olika synvinklar. Varje observation är en enda punkt, vars placering bestäms av de registrerade värdena för temperatur, \(x_1, x_2\) och \(x_3\). Vi kommer att använda denna representation i nästa avsnitt igen.

notera hur korrelerade data visas: att bilda en diagonal linje över kuben s inre, med några avvikare (beskrivna ovan) som inte följer denna trend.

huvudpunkterna i detta avsnitt är:

  • latenta variabler fångar på något sätt ett underliggande fenomen i systemet som undersöks.

  • efter att ha beräknat de latenta variablerna i ett system kan vi använda dessa färre antal variabler istället för \(K\) kolumnerna med rådata. Detta beror på att de faktiska mätningarna är korrelerade med den latenta variabeln.

de exempel som hittills givits visade vad en enda latent variabel är. I praktiken får vi vanligtvis flera latenta variabler för en data array. I detta skede att du förmodligen har fler frågor, såsom “how många latenta variabler är det i en matrix” och “how är de värden som i \(\mathbf{S}\) chosen” och “how vet vi att dessa latenta variabler är en bra sammanfattning av den ursprungliga data”?

vi behandlar dessa frågor mer formellt i nästa avsnitt om huvudkomponentanalys.

Lämna ett svar

Din e-postadress kommer inte publiceras.