6.4. Co je latentní proměnná?

6.4.2. Pokoj temperature¶

Koncepčně

Představte si, že místnosti ty jsou v má 4 teplotní sondy, které vzorek a zaznamenejte místní teplotu každých 30 minut. Zde je příklad toho, jak by čtyři měření mohla vypadat 3 dny.

 ../figures/examples/room-temperature/room-temperature-plots.py

ve formě tabulky je prvních několik měření:

Datum

\(x 1\)

\(x_2\)

\(x_3\)

\(x_4\)

V Pátek 11:00

V Pátek 11:30

V Pátek 12:00

V Pátek 12:30

V Pátek 13:00

V Pátek 13:30

obecné nahoru a dolů a výkyvy jsou vzhledem k denní změna v room’s teplotou. Jediný fyzikální jev zaznamenaný v těchto čtyřech měřeních je pouze změna pokojové teploty.

Když jsme přidali další dva teploměry uprostřed místnosti, můžeme očekávat, že tyto nové měření ukazují stejný vzor jako ostatní čtyři. V tomto ohledu můžeme do místnosti přidat tolik teploměrů, kolik chceme, ale s každým teploměrem nebudeme zaznamenávat nějaké nové, nezávislé informace. Existuje pouze jedna skutečná proměnná, která řídí všechny hodnoty teploty nahoru a dolů: je to latentní proměnná.

Všimněte si, že nemusíme nutně vědět, co způsobuje pohyb latentní proměnné nahoru a dolů (mohlo by to být množství slunečního světla na budově; mohlo by to být nastavení klimatizace). Víme jen, že tato měření teploty odrážejí základní jev, který řídí pohyby teploty nahoru a dolů; jsou korelovány s latentní proměnnou.

Všimněte si také, že ostrý hrot zaznamenaný v levém zadním rohu místnosti může být způsoben chybou v teplotním čidle. A přední část místnosti ukázala ponoření, možná proto, že dveře zůstaly otevřené po delší dobu; ale ne dost dlouho na to, aby ovlivnily ostatní hodnoty teploty. Tyto dvě události jsou v rozporu s obecným trendem dat, takže očekáváme, že tato časová období nějakým způsobem vyniknou, abychom je mohli detekovat.

Matematicky

Pokud bychom to chtěli shrnout události, které se konají v místnosti můžeme použít průměr ze zaznamenaných teplot. Nazveme tuto novou, průměrnou proměnnou \(t_1\), která shrnuje další čtyři původní měření teploty \(x_1, x_2, x_3\) a \(x_4\).

\

a vhodné hodnoty pro každou z hmotností jsou \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

Matematicky správný způsob, jak říct, je to, že \(t_1\) je lineární kombinací surového měření (\(x_1, x_2, x_3\) a \(x_4\)) dána hmotností (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geometricky

můžeme vizualizovat data z tohoto systému v několika způsoby, ale my jsme jednoduše ukazují, 3-D znázornění první 3 teploty: \(x_1, x_2, x_3\).

../figures/examples/room-temperature/room-temperature-plots-combine.py

3 grafy ukazují stejný soubor dat, jen z různých úhlů pohledu. Každé pozorování je jedna tečka, jejíž umístění je určeno zaznamenanými hodnotami teploty, \(x_1, x_2\) a \(x_3\). Tuto reprezentaci použijeme znovu v další části.

Všimněte si, jak souvisí data se zobrazí: tvoří diagonální linii přes cube’s vnitřní, s několika odlehlých hodnot (popsáno výše), že don’t poslouchat tento trend.

hlavní body z této sekce jsou:

  • Latentní proměnné zachytit, nějakým způsobem, že základní jev v systému, který je vyšetřován.

  • Po výpočtu latentní proměnné v systému, můžeme použít tyto menší počet proměnných, namísto \(K\) sloupce raw data. Je to proto, že skutečná měření jsou korelována s latentní proměnnou.

dosavadní příklady ukázaly, co je to jediná latentní proměnná. V praxi obvykle získáváme několik latentních proměnných pro datové pole. V této fázi budete pravděpodobně mít další otázky, jako “how mnoho latentní proměnné jsou v matrix” a “how jsou hodnoty \(\mathbf{P}\) chosen”, a “how víme, že tyto latentní proměnné jsou dobrý přehled o původní data”?

tyto otázky řešíme formálněji v další části o analýze hlavních komponent.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.