forbedringer af BLANDINGSALGORITMEN til estimering af individuel herkomst

krydsvalidering

valget af antallet af forfædrepopulationer K kan vise sig vanskeligt, når den underliggende populationsgenetik for en art er dårligt forstået. Struktur giver et middel til at estimere den bedste værdi af K ved at beregne modelbeviset for hver K ud fra en række valg. Modelbeviset er defineret som

(2)

hvor f repræsenterer datasandsynligheden, og kr.repræsenterer en tidligere tæthed på parametrene. Struktur tilnærmer integralet Via Monte Carlo-metoder. Vores optimeringsramme er ikke velegnet til at evaluere denne integral. Som et alternativ anvender vi krydsvalidering. I krydsvalidering, vi sigter mod at identificere den bedste K-værdi som bedømt ved forudsigelse af systematisk tilbageholdte datapunkter. En lignende taktik anvendes også af haplotype-analyseprogrammet fastPHASE og er inspireret af volds metode til krydsvalidering af PCA-modeller .

vores v-fold krydsvalideringsprocedure opdeler de ikke-manglende genotyper i v omtrent lige store undergrupper (folder). Ved hver af v-iterationer maskeres medlemmerne af en af folderne (midlertidigt markeret som manglende) for at give en ny datamatrice analyse af den maskerede datamatrice udgør ingen nye udfordringer. Ved beregning af log-Sandsynlighed, score og observeret informationsmatrice på ignorerer vi simpelthen posterne (i, j) med manglende værdier. Maksimering af log-sandsynligheden giver let nye estimater og for de maskerede data. Vi forudsiger derefter hver maskeret værdi n ij ved . Forudsigelsesfejl estimeres ved at gennemsnit kvadraterne af afvigelsesresterne for binomialmodellen ,

(3)

på tværs af alle maskerede poster over alle folder. Minimering af denne estimerede forudsigelsesfejl på et gitter med K-værdier antyder derefter den mest egnede K.

Overvåget indlæring af blandingskoefficienter

blandingens strategi om samtidig at estimere individuelle forfædrefraktioner K og populationsallelfrekvenser F er ideel, når der ikke vides noget om de bidragende forfædrepopulationer. I mange scenarier er disse populationer imidlertid kendt, og flere referenceindivider fra hver population er tilgængelige. Her er det af interesse at estimere de resterende individers potentielt blandede forfædre. Vi betegner denne overvågede analyse, da referenceindivider leverer træningsprøver i en overvåget læringskontekst. At udføre overvåget analyse i blanding, en .ind fil kortlægning individer til populationer skal gives, og flag-overvåget skal være knyttet til kommandolinjen.

Ancestry estimater kan estimeres mere præcist i overvåget analyse, fordi der er mindre usikkerhed i allelfrekvenser. Fortolkning af resultater forenkles, og køretiderne er kortere på grund af det reducerede antal parametre, der skal estimeres. Både antallet af iterationer indtil konvergens og beregningskompleksiteten pr. Imidlertid, vi advarer om, at overvåget analyse kun er egnet, når referenceindivider med sikkerhed kan tildeles forfædrepopulationer, og forfædrepopulationer er ret homogene. For sonderende analyser er ikke-overvåget analyse mere hensigtsmæssig og forbliver derfor standard i blanding.

Straffet estimering og modelparsimoni

som bemærket i Vores senere sammenligning af overvåget og uovervåget læring kan datasæt, der er hentet fra nært beslægtede populationer, der er skrevet med et beskedent antal SNP ‘ er, udgøre betydelige udfordringer i forfædrestimering. For eksempel, overmontering har tendens til at give forfædrestimater med oppustede mængder blanding. Den bayesiske løsning på dette problem er at pålægge en informativ forud for at styre parameterestimater væk fra fare, når data er sparsomme. Dermed, struktur pålægger Dirichlet tidligere fordelinger på herkomstparametre og estimerer en hyperparameter-kur, der styrer styrken af de tidligere fordelinger.

et passende alternativ i vores optimeringsramme er at udføre Straffet estimering. I stedet for at maksimere log-sandsynligheden maksimerer vi en objektiv funktion bestående af log-sandsynligheden minus en straf . Straffen er designet til at modvirke de uønskede forstyrrelser i den estimerede herkomstmatrice , der netop er nævnt. Tuningkonstanten prisT styrer styrken af straffen. Selv om det er fristende at overveje den negerede logaritme af Dirichlet prior density, der vises i struktur som en straf, Dirichlet(Kurt,…,- ) tæthed er ubegrænset ovenfor i parameterregimet – < 1-uden tvivl den mest nyttige indstilling for-parameteren-og er derfor ubrugelig i vores optimeringsramme. Et bedre alternativ er den omtrentlige straf på KR0

hvilket tilskynder ikke kun krympning, men også aggressiv parsimoni. Især kører den omtrentlige straf på kur0 små blandingskoefficienter til nul. Parsimoni er ønskeligt, fordi det fører til lettere fortolkelige og sandsynligvis mere realistiske parameterestimater. Estimering udføres ved at maksimere over dens argumenter. Forøgelse af kursen eller den anden indstillingskonstant øger omfanget af krympning og parsimoni i de resulterende estimater og .

bestemmelse af straffeindstillingskonstanterne, der stemmer med, er ikke-privat. I vores hænder har krydsvalidering vist sig effektiv på enkle simulerede datasæt. Indstillingskonstanterne prisT og Prip er brugerdefinerede indstillinger, så brugerne kan udforske forskellige indstillinger, der er i overensstemmelse med krydsvalidering eller deres egen heuristik.

udnyttelse af flere processorer

meget store datasæt (millioner af SNP ‘ er, tusinder af individer) kan reducere selv blandingens effektive algoritmer til en gennemgang. Siden vores oprindelige publikation har vi indstillet vores kernealgoritme og forbedret dens hastighed med en faktor på to. Vi har også implementeret en parallel eksekveringstilstand, der lader blanding udnytte flere processorer. Denne nye mulighed anvender OpenMP-rammen designet til simpel parallelisering ved hjælp af compiler #pragma-direktiver. For at udføre analyser med for eksempel fire tråde behøver brugeren kun at tilføje flag-j4 til kommandolinjen. Derfor

$ blandingsdata/hapmap3.bed 3-j4

analyserer datafilen hapmap3.seng ved hjælp af 4 tråde, forudsat K = 3 forfædres populationer. Analyser af vores hapmap3 datasæt med K = 3 blev accelereret med 392% på en fire processor maskine.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.