6.4. Ce este o variabilă latentă?Inox

6.4.2. Temperatura camerei

conceptual

Imaginați-vă că camera în care vă aflați are 4 sonde de temperatură care prelevează și înregistrează temperatura locală la fiecare 30 de minute. Iată un exemplu despre cum ar putea arăta cele patru măsurători pe parcursul a 3 zile.

 ../figures/examples/room-temperature/room-temperature-plots.py

în formă de tabel, primele măsurători sunt:

Data

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

vineri 11:00

vineri 11:30

vineri 12:00

vineri 12:30

vineri 13:00

vineri 13:30

fluctuațiile generale în sus și în jos se datorează schimbării zilnice a temperaturii camerei. Singurul fenomen fizic înregistrat în aceste patru măsurători este doar variația temperaturii camerei.

dacă am adăuga încă două termometre în mijlocul camerei, ne-am aștepta ca aceste noi măsurători să arate același model ca celelalte patru. În acest sens, putem adăuga cât mai multe termometre ca ne place la camera, dar am câștigat t fi de înregistrare a unor piese noi, independente de informații cu fiecare termometru. Există o singură variabilă adevărată care conduce toate citirile de temperatură în sus și în jos: este o variabilă latentă.

observați că nu trebuie neapărat să știm ce determină variabila latentă să se deplaseze în sus și în jos (ar putea fi cantitatea de lumină solară din clădire; ar putea fi setările de aer condiționat ale modelului). Tot ce știm este că aceste măsurători de temperatură reflectă doar fenomenul de bază care determină mișcările în sus și în jos ale temperaturii; ele sunt corelate cu variabila latentă.

observație de asemenea, vârful ascuțit înregistrat în colțul din stânga-spate al Camerei s-ar putea datora unei erori la senzorul de temperatură. Și partea din față a camerei a arătat o baie, poate pentru că ușa a fost lăsată deschisă pentru o perioadă lungă de timp; dar nu suficient de lungă pentru a afecta celelalte citiri de temperatură. Aceste două evenimente merg împotriva tendinței generale a datelor, așa că ne așteptăm ca aceste perioade de timp să iasă în evidență într-un fel, astfel încât să le putem detecta.

matematic

dacă am dori să rezumăm evenimentele care au loc în cameră, am putea folosi doar media temperaturilor înregistrate. Să se numească această nouă variabilă medie \(T_1\), care rezumă celelalte patru măsurători originale de temperatură \(x_1, x_2, x_3\) și \(x_4\).

\

și valorile potrivite pentru fiecare dintre greutăți sunt \(p_{1,1} = p_{2,1} = p_{3,1} = p_{4,1} = 1/4\).

matematic modul corect de a spune acest lucru este că \(t_1\) este o combinație liniară a măsurătorilor brute (\(x_1, x_2, x_3\) și \(x_4\)) date de ponderile (\(p_{1,1}, p_{2,1}, p_{3,1}, p_{4,1}\)).

Geometric

putem vizualiza datele din acest sistem în mai multe moduri, dar vom arăta pur și simplu o reprezentare 3-D a primelor 3 temperaturi: \(x_1, x_2, x_3\).

 ../figures/examples/room-temperature/room-temperature-plots-combine.py

cele 3 parcele arată același set de date, doar din diferite puncte de vedere. Fiecare observație este un singur punct, a cărui locație este determinată de valorile înregistrate ale temperaturii, \(x_1, x_2\) și \(x_3\). Vom folosi din nou această reprezentare în secțiunea următoare.

notați cât de corelate apar datele: formarea unei linii diagonale în interiorul cubului, cu câteva valori aberante (descrise mai sus) care nu respectă această tendință.

principalele puncte din această secțiune sunt:

  • variabilele latente captează, într-un fel, un fenomen de bază în sistemul investigat.

  • după calcularea variabilelor latente într-un sistem, putem folosi aceste număr mai mic de variabile, în loc de \(K\) coloane de date brute. Acest lucru se datorează faptului că măsurătorile reale sunt corelate cu variabila latentă.

exemplele date până acum au arătat ce este o singură variabilă latentă. În practică, de obicei, obținem mai multe variabile latente pentru o matrice de date. În această etapă, aveți probabil mai multe întrebări, cum ar fi “how multe variabile latente sunt acolo într-un matrix” și “how sunt valorile in \(\mathbf{P}\) chosen”, și “how știm aceste variabile latente sunt un bun rezumat al originală data”?

abordăm aceste probleme mai formal în următoarea secțiune privind analiza componentelor principale.

Lasă un răspuns

Adresa ta de email nu va fi publicată.