Förbättringar av BLANDNINGSALGORITMEN för enskilda anor uppskattning / BMC Bioinformatics

Korsvalidering
övervakad inlärning av blandningskoefficienter
straffad uppskattning och modellparsimoni
utnyttja flera processorer

Korsvalidering

valet av antalet anor populationer K kan visa sig svårt när den underliggande populationsgenetiken för en art är dåligt förstådd. Struktur ger ett sätt att uppskatta det bästa värdet av K genom att beräkna modellbeviset för varje K från en rad val. Modellbeviset definieras som

(2)

där f representerar datasannolikheten och den tidigare tätheten på parametrarna motsvarar den. Struktur approximerar integralen via Monte Carlo-metoder. Vårt optimeringsramverk är inte väl lämpat för att utvärdera denna integral. Som ett alternativ använder vi korsvalidering. Vid korsvalidering strävar vi efter att identifiera det bästa K-värdet som bedöms genom förutsägelse av systematiskt kvarhållna datapunkter. En liknande taktik används också av haplotypanalysprogrammet fastPHASE och är inspirerad av Wolds metod för korsvalidering av PCA-modeller .

vår v-faldig korsvalideringsprocedur partitionerar de icke-saknade genotyperna i v ungefär lika stora delmängder (veck). Vid var och en av v-iterationerna maskeras medlemmarna i en av vikarna (tillfälligt markerade som saknade) för att ge en ny datamatris analys av den maskerade datamatrisen utgör inga nya utmaningar. Vid beräkning av log-Sannolikhet, poäng och observerad informationsmatris av ignorerar vi helt enkelt posterna (i, j) med saknade värden. Maximering av log-sannolikheten ger lätt nya uppskattningar och för de maskerade data. Vi förutspår sedan varje maskerat värde n ij med . Prediktionsfel uppskattas genom att medelvärdet av kvadraterna för avvikelsesresterna för binomialmodellen ,

(3)

över alla maskerade poster över alla veck. Minimera detta uppskattade prediktionsfel på ett rutnät med K-värden föreslår sedan den mest lämpliga K.

övervakad inlärning av blandningskoefficienter

blandningens strategi att samtidigt uppskatta enskilda förfäderfraktioner Q och populationsallelfrekvenser F är idealisk när ingenting är känt om de bidragande förfäderpopulationerna. I många scenarier är dessa populationer dock kända och flera referensindivider från varje population finns tillgängliga. Här är det av intresse att uppskatta de potentiellt blandade förfäderna hos de återstående individerna. Vi kallar denna övervakade analys, eftersom referensindividerna tillhandahåller träningsprover i ett övervakat inlärningssammanhang. För att utföra övervakad analys i blandning, en .Ind-filmappning av individer till populationer måste tillhandahållas, och flaggan-övervakad måste bifogas kommandoraden.

Ancestry-uppskattningar kan uppskattas mer exakt i övervakad analys eftersom det finns mindre osäkerhet i allelfrekvenser. Tolkning av resultat förenklas och körtiderna är kortare på grund av det minskade antalet parametrar att uppskatta. Både antalet iterationer fram till konvergens och beräkningskomplexiteten per iteration minskar. Vi varnar dock för att övervakad analys endast är lämplig när referensindividerna kan tilldelas förfäderpopulationer med säkerhet och förfäderpopulationer är ganska homogena. För undersökande analyser är oövervakad analys lämpligare och förblir därför standard i blandning.

straffad uppskattning och modellparsimoni

som noterat i vår senare jämförelse av övervakat och oövervakat lärande, dataset som tagits bort från närbesläktade populationer som skrivits på ett blygsamt antal SNP kan utgöra betydande utmaningar i anoruppskattning. Till exempel, overfitting tenderar att ge anor uppskattningar med uppblåsta mängder av inblandning. Den Bayesianska lösningen på detta problem är att införa en informativ före att styra parameteruppskattningar bort från fara när data är gles. Således, struktur ställer Dirichlet tidigare fördelningar på ancestry parametrar och uppskattar en hyperparameter Bisexuell som styr styrkan hos de tidigare fördelningarna.

ett lämpligt alternativ i vårt optimeringsramverk är att utföra straffad uppskattning. I stället för att maximera log-sannolikheten maximerar vi en objektiv funktion som består av log-sannolikheten minus en straff . Straffet är utformat för att motverka de oönskade förspänningarna i den uppskattade ancestry matrix som just nämnts. Den inställningskonstanten Xiaomi styr straffets styrka. Även om det är frestande att betrakta den negerade logaritmen av Dirichlet tidigare densitet som förekommer i struktur som ett straff, den Dirichlet (Xiaomi,…, 2C) densitet är obegränsad ovan i parameterregimen 1032> 1-utan tvekan den mest användbara inställningen för parametern-och är därför oanvändbar i vårt optimeringsramverk. Ett bättre alternativ är den ungefärliga straffen för 00

vilket uppmuntrar inte bara krympning utan också aggressiv parsimoni. I synnerhet driver den ungefärliga straffen för XXL 0 små blandningskoefficienter till noll. Parsimoni är önskvärt eftersom det leder till lättare tolkbara och förmodligen mer realistiska parameteruppskattningar. Uppskattning utförs genom att maximera över sina argument. Genom att öka den andra avstämningskonstanten eller den andra avstämningskonstanten ökar omfattningen av krympning och parsimoni i de resulterande uppskattningarna och .

bestämning av straffjusteringskonstanterna är inte trivialt. I våra händer har korsvalidering visat sig vara effektiv på enkla simulerade datamängder. Tuningkonstanterna är användardefinierade alternativ, så att användarna kan utforska olika inställningar som överensstämmer med korsvalidering eller egen heuristik.

utnyttja flera processorer

mycket stora datamängder (miljontals SNP, tusentals individer) kan minska även inblandning effektiva algoritmer till en genomsökning. Sedan vår ursprungliga publikation har vi ställt in vår kärnalgoritm och förbättrat hastigheten med en faktor två. Vi har också implementerat ett parallellt exekveringsläge som låter blandning utnyttja flera processorer. Det här nya alternativet använder OpenMP-ramverket som är utformat för enkel parallellisering med hjälp av kompilatorns #pragma-direktiv. För att utföra analyser med exempelvis fyra trådar behöver användaren bara lägga till flag-j4 på kommandoraden. Därför

$ tillsatsdata / hapmap3.bed 3-j4

analyserar datafilen hapmap3.säng med 4 trådar, förutsatt att K = 3 förfäderpopulationer. Analyser av vår hapmap3 dataset med K = 3 accelererades med 392% på en fyra processormaskin.

förbättringar av BLANDNINGSALGORITMEN för enskilda anor uppskattning

Korsvalidering

övervakad inlärning av blandningskoefficienter

straffad uppskattning och modellparsimoni

utnyttja flera processorer

Lämna ett svar Avbryt svar