Parannukset SEKOITUSALGORITMIIN yksittäisten esivanhempien estimointia / BMC bioinformatiikkaa varten

Ristivalidointi
valvottu oppiminen admixture-kertoimista
penalised estimation and model parsimony
useiden suorittimien hyödyntäminen

Ristivalidointi

esivanhempien populaatioiden k määrän valinta voi osoittautua vaikeaksi, kun lajin taustalla oleva populaatiogenetiikka tunnetaan huonosti. Rakenne tarjoaa keinon arvioida K: n paras arvo laskemalla mallin todisteet jokaiselle K: lle useista valinnoista. Malliesimerkki määritellään seuraavasti

(2)

missä f edustaa datatodennäköisyyttä ja π muuttujien aiempaa tiheyttä. Rakenne approksimoi integraalia Monte Carlon menetelmien avulla. Optimointikehyksemme ei sovellu hyvin tämän integraalin arviointiin. Vaihtoehtona käytämme ristivalvontaa. Ristivalidoinnissa pyrimme tunnistamaan parhaan k-arvon arvioituna systemaattisesti pidätettyjen datapisteiden ennustamisella. Samanlaista taktiikkaa käyttää myös haplotyyppianalyysiohjelma fastPHASE ja se on saanut innoituksensa Woldin menetelmästä PCA-mallien ristivalvomiseen .

V-kertainen ristivalidointimenettelymme jakaa puuttumattomat genotyypit suunnilleen samankokoisiin V-osajoukkoihin (laskostuksiin). Jokaisessa V-iteraatiossa jonkin taitteen jäsenet naamioidaan (merkitään väliaikaisesti puuttuviksi), jolloin saadaan Uusi datamatriisi peitetyn Datamatriisin analyysi ei aiheuta uusia haasteita. Laskettaessa log-todennäköisyys, pisteet ja havaittu informaatiomatriisi , me yksinkertaisesti sivuuttaa merkinnät (i, j) puuttuvat arvot. Log-todennäköisyyden maksimointi tuottaa helposti uusia estimaatteja ja peitetyille tiedoille. Tämän jälkeen ennustamme jokaisen naamioidun arvon n ij mukaan . Ennustevirhe estimoidaan laskemalla binomimallin devianssi-residuaalien neliöiden keskiarvo ,

(3)

kaikissa naamioiduissa merkinnöissä. Tämän arvioidun ennustevirheen minimoiminen k-arvojen ruudukossa viittaa sitten sopivimpaan K: hon.

valvottu oppiminen admixture-kertoimista

ADMIXTURE-strategia arvioida samanaikaisesti yksittäisiä esivanhempien fraktioita Q ja populaation alleelifrekvenssejä F on ihanteellinen, kun esivanhempien populaatioista ei tiedetä mitään. Monissa skenaarioissa nämä populaatiot kuitenkin tunnetaan ja kustakin populaatiosta on saatavilla useita vertailuyksilöitä. Tässä yhteydessä on kiinnostavaa arvioida jäljellä olevien yksilöiden mahdollisesti sekoittuneita esiäitejä. Kutsumme tätä valvottua analyysiä, koska referenssihenkilöt toimittavat koulutusnäytteitä valvotussa oppimisympäristössä. Valvotun analyysin suorittamiseksi ADMIXTURE, an .Ind-tiedostokartoitus yksilöiden populaatioihin on annettava, ja lippu — valvottu on liitettävä komentoriville.

Ancestry estimates voidaan arvioida tarkemmin valvotussa analyysissä, koska alleelien frekvensseissä on vähemmän epävarmuutta. Tulosten tulkinta on yksinkertaistunut, ja ajoajat ovat lyhyempiä, koska arvioitavien parametrien määrä on vähentynyt. Sekä iteraatioiden määrä konvergenssiin asti että laskennallinen monimutkaisuus iteraatiota kohden vähenevät. Varoitamme kuitenkin, että valvottu analyysi sopii vain silloin, kun vertailuyksilöt voidaan varmuudella osoittaa esi-isäpopulaatioihin ja esi-isäpopulaatiot ovat melko homogeenisia. Eksploratiivisten analyysien osalta valvomaton analysointi on tarkoituksenmukaisempaa, ja siksi se on edelleen oletuksena sekoittamisessa.

penalised estimation and model parsimony

kuten myöhemmässä valvotun ja valvomattoman oppimisen vertailussamme todettiin, tietokokonaisuudet, jotka on karsittu läheistä sukua olevista populaatioista, jotka on tyypitetty pienellä määrällä SNP: tä, voivat aiheuttaa merkittäviä haasteita esivanhempien estimoinnissa. Esimerkiksi liikakalastuksella on taipumus tuottaa esivanhempien arvioita, kun sekoitusmäärät ovat paisuneet. Bayesilainen ratkaisu tähän ongelmaan on määrätä informatiivinen ennen ohjata parametrin arvioita pois vaarasta, kun data on harva. Niinpä rakenne määrää Dirichlet ’ n edeltävät jakaumat kantamuuttujille ja arvioi hyperparametrin α, joka säätelee edeltävien jakaumien vahvuutta.

sopiva vaihtoehto optimointikehyksessämme on suorittaa rangaistava estimointi. Log-todennäköisyyden maksimoinnin sijaan maksimoimme objektiivisen funktion , joka koostuu log-todennäköisyydestä vähennettynä rangaistuksella . Rangaistuksella pyritään ehkäisemään ei-toivottuja harhoja juuri mainitussa arvioidussa esi-isien matriisissa . Viritysvakio λ säätelee rangaistuksen voimakkuutta. Vaikka on houkuttelevaa pitää rakenteessa esiintyvää Dirichlet ’n edeltävän tiheyden negoitua logaritmia rangaistuksena, Dirichlet’ n(α, …, α) tiheys on rajaton edellä parametrijärjestelmässä α < 1-luultavasti hyödyllisin asetus α-parametrille-ja on siten käyttökelvoton optimointikehyksessämme. Parempi vaihtoehto on likimääräinen ℓ0 rangaistus

joka kannustaa kutistumisen lisäksi aggressiiviseen parsimoon. Erityisesti likimääräinen ℓ0-rangaistus ajaa pienet sekoituskertoimet nollaan. Parsimonia on suotavaa, koska se johtaa helpommin tulkittaviin ja todennäköisesti realistisempiin parametriarvioihin. Estimointi suoritetaan maksimoimalla sen argumenteilla. Λ: n eli toisen viritysvakion γ korottaminen nostaa kutistumisen ja parsimaisuuden laajuutta tuloksena olevissa arvioissa ja .

rangaistusviritysvakioiden λ Ja γ määritys on nontriviaali. Käsissämme ristiintarkistus on osoittautunut tehokkaaksi yksinkertaisissa simuloiduissa tietokokonaisuuksissa. Viritysvakiot λ ja γ ovat käyttäjän määrittelemiä vaihtoehtoja, joten käyttäjät voivat tutkia erilaisia ristivalvonnan tai Oman heuristiikkansa mukaisia asetuksia.

useiden suorittimien hyödyntäminen

erittäin suurten tietokokonaisuuksien (miljoonat SNP: t, tuhannet yksilöt) hyödyntäminen voi vähentää jopa ADMIXTUREN tehokkaat algoritmit ryömimään. Alkuperäisen julkaisumme jälkeen olemme virittäneet ydinalgoritmiamme ja parantaneet sen nopeutta kahdella. Olemme myös toteuttaneet rinnakkaisen suoritustilan, jonka avulla ADMIXTURE hyödyntää useita prosessoreita. Tämä uusi vaihtoehto käyttää OpenMP-kehystä, joka on suunniteltu yksinkertaiseen parallelizaatioon kääntäjän #pragma direktiivien avulla. Tehdäkseen analyysejä esimerkiksi neljällä langalla käyttäjän tarvitsee vain lisätä lippu-j4 komentoriville. Näin ollen

$ admixture Data / hapmap3.bed 3-j4

analysoi datatiedoston hapmap3.bed käyttäen 4 kierteet, olettaen K = 3 esivanhempien populaatioita. Hapmap3-aineiston analyysit K = 3 nopeutuivat 392% neliprosessorikoneella.

parannukset SEKOITUSALGORITMIIN yksittäisten esivanhempien estimointia varten

Ristivalidointi

valvottu oppiminen admixture-kertoimista

penalised estimation and model parsimony

useiden suorittimien hyödyntäminen

Vastaa Peruuta vastaus