Forbedringer I TILSETNINGSSTOFFALGORITMEN for individuelle forfedre estimering

Kryssvalidering

valget Av antall forfedre populasjoner K kan vise seg vanskelig når den underliggende populasjonsgenetikken Til en art er dårlig forstått. STRUKTUR gir et middel til å estimere Den beste verdien Av K ved å beregne modell bevis for Hver K fra en rekke valg. Modellbevis er definert som

(2)

der f representerer datasannsynligheten og π representerer en tidligere tetthet på parametrene. STRUKTUREN tilnærmer integralet Via Monte Carlo-metoder. Vårt optimaliseringsramme er ikke godt egnet til å evaluere dette integralet. Som et alternativ bruker vi kryssvalidering. I kryssvalidering tar vi sikte på å identifisere den beste k-verdien som vurderes ved prediksjon av systematisk tilbakeholdte datapunkter. En lignende taktikk er også ansatt av haplotype analyseprogram fastPHASE og er inspirert av Wolds metode for kryssvaliderende pca-modeller .

vår v-fold kryssvalideringsprosedyre deler de ikke-manglende genotypene inn i v omtrent like store undergrupper (folder). Ved hver av v-iterasjoner maskeres medlemmene av en av foldene (midlertidig merket som manglende) for å gi en ny datamatrise Analyse av den maskerte datamatrisen utgjør ingen nye utfordringer. Ved beregning av log-sannsynlighet, score og observert informasjonsmatrise av , ignorerer vi bare oppføringene (i, j) med manglende verdier. Maksimering av log-sannsynligheten gir lett nye estimater og for de maskerte dataene. Vi forutsier deretter hver maskerte verdi n ij med . Prediksjonsfeil estimeres ved å gjennomsnittlig kvadratene av avviksrester for den binomiske modellen ,

(3)

på tvers av alle maskerte oppføringer over alle folder. Minimering av denne estimerte prediksjonsfeilen på et rutenett Av k-verdier antyder deretter den mest egnede K.

Overvåket læring av blandingskoeffisienter

BLANDINGENS strategi om samtidig å estimere individuelle forfedrefraksjoner Q Og populasjonsallelfrekvenser F er ideell når ingenting er kjent om de bidragende forfedrefrekvensene. I mange scenarier er disse populasjonene imidlertid kjent, og flere referansepersoner fra hver befolkning er tilgjengelige. Her er det av interesse å estimere de potensielt blandede forfedrene til de gjenværende individer. Vi betegner denne overvåkede analysen, da referansepersonene gir opplæringsprøver i en veiledet læringssammenheng. For å utføre veiledet analyse I BLANDING, en .ind fil kartlegging enkeltpersoner til populasjoner må gis, og flagget — overvåket må være knyttet til kommandolinjen.

Ancestry estimater kan estimeres mer nøyaktig i overvåket analyse fordi det er mindre usikkerhet i allelfrekvenser. Tolkning av resultatene forenkles, og kjøretidene er kortere på grunn av redusert antall parametere å estimere. Både antall iterasjoner til konvergens og beregningskompleksiteten per iterasjon reduseres. Vi advarer imidlertid om at overvåket analyse bare er egnet når referansepersonene kan tilordnes forfedre populasjoner med sikkerhet og forfedre populasjoner er ganske homogene. For utforskende analyser er uovervåket analyse mer hensiktsmessig og forblir derfor standard I BLANDING.

Straffet estimering og modellparsimoni

som nevnt i vår senere sammenligning av overvåket og uovervåket læring, kan datasett hentet fra nært beslektede populasjoner skrevet på et beskjedent antall Snper utgjøre betydelige utfordringer i ancestry estimering. For eksempel har overfitting en tendens til å gi forfedre estimater med oppblåste mengder blanding. Den Bayesianske løsningen på dette problemet er å pålegge en informativ før styre parameter estimater bort fra fare når data er sparsom. STRUKTUR pålegger Dirichlet tidligere fordelinger på opphavsparametere og anslår en hyperparameter α som styrer styrken til de tidligere fordelingene.

et egnet alternativ i vårt optimaliseringsramme er å utføre straffet estimering. I stedet for å maksimere log-sannsynligheten, maksimerer vi en objektiv funksjon bestående av log-sannsynligheten minus en straff . Straffen er utformet for å motvirke uønskede skjevheter i estimert opphav matrise nettopp nevnt. Stemmekonstanten λ kontrollerer styrken på straffen. Mens det er fristende å vurdere den negerte logaritmen Til Dirichlet prior tetthet som vises I STRUKTUR som en straff, Dirichlet (α, …, α) tetthet er ubundet over i parameterregimet α < 1-uten tvil den mest nyttige innstillingen for α-parameteren – og er derfor ubrukelig i vårt optimaliseringsramme. Et bedre alternativ er den omtrentlige ℓ

som oppfordrer ikke bare krymping, men også aggressiv parsimoni. Spesielt driver den omtrentlige ℓ straffen små blandingskoeffisienter til null. Parsimoni er ønskelig fordi det fører til lettere tolkbare og sannsynligvis mer realistiske parameterestimater. Estimering utføres ved å maksimere over sine argumenter. Økende λ eller den andre tuningen konstant γ øker omfanget av krymping og parsimoni i de resulterende estimatene og .

fastsettelse av straffen tuning konstanter λ og γ er trivielt. I våre hender har kryssvalidering vist seg å være effektiv på enkle simulerte datasett. Innstillingskonstantene λ og γ er brukerdefinerte alternativer, slik at brukerne kan utforske forskjellige innstillinger i samsvar med kryssvalidering eller egen heuristikk.

Utnyttelse Av Flere Prosessorer

Svært store datasett (millioner Av Snper, tusenvis av individer) kan redusere SELV TILSETNINGSSTOFFETS effektive algoritmer til en gjennomsøking. Siden vår opprinnelige publisering har vi innstilt vår kjernealgoritme og forbedret hastigheten med en faktor på to. Vi har også implementert en parallell kjøremodus som lar BLANDING utnytte flere prosessorer. Dette nye alternativet benytter OpenMP rammeverk designet for enkel parallellisering ved hjelp av compiler # pragma direktiver. For å utføre analyser med for eksempel fire tråder, trenger brukeren bare å legge til flagg-j4 til kommandolinjen. Derfor

$ blanding Data / hapmap3.seng 3-j4

analyserer datafilen hapmap3.seng ved hjelp av 4 tråder, forutsatt K = 3 forfedre populasjoner. Analyser av vårt hapmap3 datasett Med K = 3 ble akselerert med 392% på en fire prosessormaskin.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.