Îmbunătățiri ale algoritmului de amestec pentru estimarea strămoșilor individuali / bioinformatică BMC

validare încrucișată
învățarea supravegheată a coeficienților de amestec
estimarea penalizată și parsimonia modelului
exploatarea mai multor procesoare

validare încrucișată

alegerea numărului de populații ancestrale K se poate dovedi dificilă atunci când genetica populației subiacente a unei specii este slab înțeleasă. Structura oferă un mijloc de estimare a celei mai bune valori a lui K prin calcularea dovezilor modelului pentru fiecare K dintr-o serie de opțiuni. Dovezile modelului sunt definite ca

(2)

în cazul în care f reprezintă probabilitatea de date și în cazul în care XV reprezintă o densitate anterioară a parametrilor. Structura aproximează integrala prin metode Monte Carlo. Cadrul nostru de optimizare nu este potrivit pentru evaluarea acestei integrale. Ca alternativă, folosim validarea încrucișată. În validarea încrucișată, ne propunem să identificăm cea mai bună valoare K, judecată prin predicția punctelor de date reținute sistematic. O tactică similară este folosită și de programul de analiză a haplotipului fastPHASE și este inspirat de metoda lui Wold pentru validarea încrucișată a modelelor PCA .

procedura noastră de validare încrucișată v-fold împarte genotipurile care nu lipsesc în v subseturi de dimensiuni aproximativ egale (pliuri). La fiecare dintre iterațiile v, membrii unuia dintre falduri sunt mascați (temporar marcați ca lipsă) pentru a produce o nouă matrice de date analiza matricei de date mascate nu prezintă noi provocări. În calculul matricei log-probability, score și observed information din , ignorăm pur și simplu intrările (i, j) cu valori lipsă. Maximizarea log-probabilității produce cu ușurință noi estimări și pentru datele mascate. Apoi prezicem fiecare valoare mascată n ij cu . Eroarea de predicție este estimată prin medierea pătratelor reziduurilor de devianță pentru modelul binomial ,

(3)

peste toate intrările mascate peste toate faldurile. Minimizarea acestei erori de predicție estimată pe o grilă de valori K sugerează apoi cea mai potrivită K.

învățarea supravegheată a coeficienților de amestec

strategia amestecului de estimare simultană a fracțiilor de strămoși individuali Q și frecvențele alelelor populației F este ideală atunci când nu se știe nimic despre populațiile ancestrale care contribuie. Cu toate acestea, în multe scenarii, aceste populații sunt cunoscute și sunt disponibili mai mulți indivizi de referință din fiecare populație. Aici este interesant să se estimeze strămoșii potențial amestecați ai indivizilor rămași. Numim această analiză supravegheată, deoarece persoanele de referință furnizează eșantioane de formare într-un context de învățare supravegheat. Pentru a efectua analize supravegheate în amestec, an .fișierul Ind maparea persoanelor la populații trebuie să fie furnizate, iar steagul –supravegheat trebuie să fie atașat la linia de comandă.

estimările strămoșilor pot fi estimate mai precis în analiza supravegheată, deoarece există mai puțină incertitudine în frecvențele alelelor. Interpretarea rezultatelor este simplificată, iar timpii de rulare sunt mai scurți datorită numărului redus de parametri de estimat. Atât numărul de iterații până la convergență, cât și complexitatea computațională pe iterație scad. Cu toate acestea, avertizăm că analiza supravegheată este adecvată numai atunci când indivizii de referință pot fi repartizați populațiilor ancestrale cu certitudine și populațiile ancestrale sunt destul de omogene. Pentru analizele exploratorii, analiza nesupravegheată este mai adecvată și, prin urmare, rămâne implicită în amestec.

estimarea penalizată și parsimonia modelului

după cum sa menționat în comparația noastră ulterioară a învățării supravegheate și nesupravegheate, seturile de date culese din populații strâns legate tastate la un număr modest de SNP-uri pot prezenta provocări substanțiale în estimarea strămoșilor. De exemplu, suprasolicitarea tinde să producă estimări ale strămoșilor cu cantități umflate de amestec. Soluția Bayesiană la această problemă este de a impune un informativ înainte de a îndepărta estimările parametrilor de pericol atunci când datele sunt rare. Astfel, structura impune distribuții anterioare Dirichlet asupra parametrilor de strămoși și estimează un hiperparametru XV care controlează puterea distribuțiilor anterioare.

o alternativă adecvată în cadrul nostru de optimizare este efectuarea unei estimări penalizate. În loc să maximizăm probabilitatea de jurnal, maximizăm o funcție obiectivă constând din probabilitatea de jurnal minus o penalizare . Pedeapsa este concepută pentru a descuraja prejudecățile nedorite din matricea de strămoși estimată tocmai menționată. Constanta de tuning a lui XV controlează puterea pedepsei. Deși este tentant să luăm în considerare logaritmul negat al densității anterioare Dirichlet care apare în structură ca o pedeapsă, Dirichlet-ul (XV, …, XV) densitatea este nemărginită mai sus în regimul de parametri < 1-se poate argumenta că setarea cea mai utilă pentru parametrul de parametri-și, prin urmare, este inutilizabilă în cadrul nostru de optimizare. O alternativă mai bună este penalizarea aproximativă a centimetrului 0

ceea ce încurajează nu numai contracția, ci și parsimonia agresivă. În special, penalizarea aproximativă de la 7,0 conduce coeficienții mici de amestec la zero. Parsimonia este de dorit, deoarece duce la estimări ale parametrilor mai ușor interpretabile și probabil mai realiste. Estimarea se realizează prin maximizarea peste argumentele sale. Creșterea numărului de secunde sau a celei de-a doua constante de reglare a numărului de secunde crește gradul de contracție și parsimonie în estimările rezultate și .

determinarea constantelor de reglare a penalizărilor, respectiv a constantelor de reglare a penalizărilor, este netrivială. În mâinile noastre, validarea încrucișată s-a dovedit eficientă pe seturi de date simple simulate. Constantele de tuning de la SEC și SEC sunt opțiuni definite de utilizator, astfel încât utilizatorii pot explora diferite setări în concordanță cu validarea încrucișată sau cu propriile euristici.

exploatarea mai multor procesoare

seturi de date foarte mari (milioane de SNP-uri, mii de indivizi) pot reduce chiar și algoritmii eficienți ai amestecului la un crawl. De la publicarea noastră originală, ne-am reglat algoritmul de bază și i-am îmbunătățit viteza cu un factor de doi. Am implementat, de asemenea, un mod de execuție paralel care permite adaosului să exploateze mai multe procesoare. Această nouă opțiune folosește cadrul OpenMP conceput pentru paralelizarea simplă folosind directivele compilator # pragma. Pentru a efectua analize cu, de exemplu, patru fire, utilizatorul trebuie să adauge doar steagul-j4 la linia de comandă. Prin urmare,

$ date amestec/hapmap3.pat 3-j4

analizează hapmap3 fișier de date.pat folosind 4 fire, presupunând K = 3 populații ancestrale. Analizele setului nostru de date hapmap3 cu K = 3 au fost accelerate cu 392% pe o mașină cu patru procesoare.

îmbunătățiri ale algoritmului de amestec pentru estimarea strămoșilor individuali

validare încrucișată

învățarea supravegheată a coeficienților de amestec

estimarea penalizată și parsimonia modelului

exploatarea mai multor procesoare

Lasă un răspuns Anulează răspunsul