Příslušenství k PŘÍMĚSÍ algoritmus pro jednotlivé předky odhad

Cross-validace

volba počtu rodové populace K může být obtížné, když základní populační genetika druhů je špatně chápána. Struktura poskytuje prostředek k odhadu nejlepší hodnoty K výpočtem modelových důkazů pro každý K z řady možností. Model důkazů je definována jako

(2)

kde f reprezentuje data a pravděpodobnost π představuje apriorní hustoty parametrů. Struktura přibližuje integrál pomocí metod Monte Carlo. Náš optimalizační rámec není vhodný pro hodnocení tohoto integrálu. Jako alternativu používáme křížovou validaci. V křížové validaci, naším cílem je identifikovat nejlepší hodnotu K podle predikce systematicky zadržovaných datových bodů. Podobnou taktiku používá také haplotypový analytický program fastPHASE a je inspirován Woldovou metodou pro křížovou validaci modelů PCA .

náš postup křížové validace v-fold rozděluje chybějící genotypy na v zhruba stejně velké podmnožiny (záhyby). V každé z iterací v, členy jednoho ze záhybů jsou maskovány (dočasně označena jako chybějící) se získá nová data matrix Analýza maskovaný data matrix nepředstavuje žádné nové výzvy. Při výpočtu log-pravděpodobnosti, skóre a pozorované informační matice jednoduše ignorujeme položky (i, j) s chybějícími hodnotami. Maximalizace log-pravděpodobnosti snadno přináší nové odhady a pro maskovaná data. Pak předpovídáme každou maskovanou hodnotu n ij . Chyba predikce se odhaduje v průměru čtverců deviace zbytky binomického modelu ,

(3)

přes všechny maskované položky přes všechny záhyby. Minimalizace tohoto odhadovaná chyba predikce na mřížku K hodnoty, pak navrhne nejvhodnější. K.

pod Dohledem učení příměsí koeficienty

PŘÍMĚSÍ strategie současně odhadu jednotlivých původ zlomků Q a populaci alela frekvence F je ideální, když nic není známo o které přispívají rodové populace. V mnoha scénářích jsou však tyto populace známy a je k dispozici několik referenčních jedinců z každé populace. Zde je zajímavé odhadnout potenciálně smíšené předky zbývajících jedinců. Tuto kontrolovanou analýzu nazýváme, protože referenční jednotlivci poskytují tréninkové vzorky v kontextu učení pod dohledem. Provádět kontrolovanou analýzu ve směsi, an. musí být poskytnut soubor Ind mapující jednotlivce k populacím a příznak — supervised musí být připojen k příkazovému řádku.

odhady předků lze přesněji odhadnout v kontrolované analýze, protože ve frekvencích alel je menší nejistota. Interpretace výsledků je zjednodušena a doby běhu jsou kratší kvůli sníženému počtu parametrů, které je třeba odhadnout. Jak počet iterací do konvergence, tak výpočetní složitost na iteraci klesají. Upozorňujeme však, že kontrolovaná analýza je vhodná pouze tehdy, když lze referenční jedince s jistotou přiřadit k populacím předků a populace předků jsou poměrně homogenní. Pro průzkumné analýzy je vhodnější analýza bez dozoru, a proto zůstává výchozí ve směsi.

Penalizován odhad a model šetrnosti

Jak je uvedeno v naší pozdější srovnání s učitelem a bez učitele učení, datových souborů vyřazených z úzce souvisí populace zadali na skromné počty Snp může představovat značné problémy v předky odhad. Například, overfitting má tendenci výnos předky odhady s přemrštěné množství příměsí. Bayesovské řešení tohoto problému je uložit informativní před řídit odhady parametrů od nebezpečí, když data jsou řídké. Struktura tedy ukládá Dirichletovy předchozí distribuce na parametry předků a odhaduje hyperparametr α, který řídí sílu předchozích distribucí.

vhodnou alternativou v našem optimalizačním rámci je provedení penalizovaného odhadu. Namísto maximalizace log-likelihood, maximalizujeme objektivní funkci sestávající z log-likelihood minus trest . Trest je navržen tak, aby odradil nežádoucí předsudky v odhadované matici předků právě zmíněné. Ladící konstanta λ řídí sílu trestu. Zatímco je lákavé považovat negovaný logaritmus Dirichletovy předchozí hustoty objevující se ve struktuře za trest, Dirichlet (α, …, α) hustota je neomezená výše v parametrickém režimu α < 1-pravděpodobně nejužitečnější nastavení pro parametr α-a proto je v našem optimalizačním rámci nepoužitelná. Lepší alternativou je přibližná penalta

což podporuje nejen smrštění, ale i agresivní parsimonii. Zejména přibližná penalizace činí malé koeficienty příměsí k nule. Parsimony je žádoucí, protože vede k snadněji interpretovatelným a pravděpodobně realističtějším odhadům parametrů. Odhad se provádí maximalizací nad jeho argumenty. Zvýšení λ nebo druhá ladicí konstanta γ zvyšuje rozsah smrštění a parsimonie ve výsledných odhadech a .

stanovení konstant pokutového ladění λ a γ je netriviální. V našich rukou se křížová validace ukázala jako účinná na jednoduchých simulovaných datových sadách. Ladění konstant λ a γ jsou uživatelem definované možnosti, takže uživatelé mohou prozkoumat různá nastavení v souladu s cross-validace nebo jejich vlastní heuristiky.

Využití Více Procesorů

Velmi velké soubory dat (miliony Snp, tisíce jedinců) může snížit i PŘÍMĚSÍ je efektivní algoritmy na procházení. Od naší původní publikace jsme vyladili náš základní algoritmus a zlepšili jeho rychlost o faktor dva. Implementovali jsme také režim paralelního provádění, který umožňuje ADMIXTURE využívat více procesorů. Tato nová volba využívá OpenMP framework navržený pro jednoduchou paralelizaci pomocí direktiv kompilátoru #pragma. Chcete-li provádět analýzy například se čtyřmi vlákny, musí uživatel do příkazového řádku přidat pouze příznak-j4. Proto

$ admixture Data/hapmap3.bed 3-j4

analyzuje datový soubor hapmap3.lůžko používající 4 vlákna, za předpokladu, že k = 3 populace předků. Analýzy naší datové sady hapmap3 s K = 3 byly zrychleny o 392% na čtyřprocesorovém stroji.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.