6.4.2. Pokoj temperature¶
Koncepčně
Představte si, že místnosti ty jsou v má 4 teplotní sondy, které vzorek a zaznamenejte místní teplotu každých 30 minut. Zde je příklad toho, jak by čtyři měření mohla vypadat 3 dny.
ve formě tabulky je prvních několik měření:
Datum |
\(x 1\) |
\(x_2\) |
\(x_3\) |
\(x_4\) |
---|---|---|---|---|
V Pátek 11:00 |
||||
V Pátek 11:30 |
||||
V Pátek 12:00 |
||||
V Pátek 12:30 |
||||
V Pátek 13:00 |
||||
V Pátek 13:30 |
obecné nahoru a dolů a výkyvy jsou vzhledem k denní změna v roomâs teplotou. Jediný fyzikální jev zaznamenaný v těchto čtyřech měřeních je pouze změna pokojové teploty.
Když jsme přidali další dva teploměry uprostřed místnosti, můžeme očekávat, že tyto nové měření ukazují stejný vzor jako ostatní čtyři. V tomto ohledu můžeme do místnosti přidat tolik teploměrů, kolik chceme, ale s každým teploměrem nebudeme zaznamenávat nějaké nové, nezávislé informace. Existuje pouze jedna skutečná proměnná, která řídí všechny hodnoty teploty nahoru a dolů: je to latentní proměnná.
Všimněte si, že nemusíme nutně vědět, co způsobuje pohyb latentní proměnné nahoru a dolů (mohlo by to být množství slunečního světla na budově; mohlo by to být nastavení klimatizace). Víme jen, že tato měření teploty odrážejí základní jev, který řídí pohyby teploty nahoru a dolů; jsou korelovány s latentní proměnnou.
Všimněte si také, že ostrý hrot zaznamenaný v levém zadním rohu místnosti může být způsoben chybou v teplotním čidle. A přední část místnosti ukázala ponoření, možná proto, že dveře zůstaly otevřené po delší dobu; ale ne dost dlouho na to, aby ovlivnily ostatní hodnoty teploty. Tyto dvě události jsou v rozporu s obecným trendem dat, takže očekáváme, že tato časová období nějakým způsobem vyniknou, abychom je mohli detekovat.
Matematicky
Pokud bychom to chtěli shrnout události, které se konají v místnosti můžeme použít průměr ze zaznamenaných teplot. Nazveme tuto novou, průměrnou proměnnou \(t_1\), která shrnuje další čtyři původní měření teploty \(x_1, x_2, x_3\) a \(x_4\).
a vhodné hodnoty pro každou z hmotností jsou \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).
Matematicky správný způsob, jak říct, je to, že \(t_1\) je lineární kombinací surového měření (\(x_1, x_2, x_3\) a \(x_4\)) dána hmotností (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).
Geometricky
můžeme vizualizovat data z tohoto systému v několika způsoby, ale my jsme jednoduše ukazují, 3-D znázornění první 3 teploty: \(x_1, x_2, x_3\).
3 grafy ukazují stejný soubor dat, jen z různých úhlů pohledu. Každé pozorování je jedna tečka, jejíž umístění je určeno zaznamenanými hodnotami teploty, \(x_1, x_2\) a \(x_3\). Tuto reprezentaci použijeme znovu v další části.
Všimněte si, jak souvisí data se zobrazí: tvoří diagonální linii přes cubeâs vnitřní, s několika odlehlých hodnot (popsáno výše), že donât poslouchat tento trend.
hlavní body z této sekce jsou:
Latentní proměnné zachytit, nějakým způsobem, že základní jev v systému, který je vyšetřován.
Po výpočtu latentní proměnné v systému, můžeme použít tyto menší počet proměnných, namísto \(K\) sloupce raw data. Je to proto, že skutečná měření jsou korelována s latentní proměnnou.
dosavadní příklady ukázaly, co je to jediná latentní proměnná. V praxi obvykle získáváme několik latentních proměnných pro datové pole. V této fázi budete pravděpodobně mít další otázky, jako âœhow mnoho latentní proměnné jsou v matrixâ a âœhow jsou hodnoty \(\mathbf{P}\) chosenâ, a âœhow víme, že tyto latentní proměnné jsou dobrý přehled o původní dataâ?
tyto otázky řešíme formálněji v další části o analýze hlavních komponent.