az ADMIXTURE algoritmus továbbfejlesztése az egyéni ősbecsléshez

keresztellenőrzés

a K ősi populációk számának megválasztása nehéznek bizonyulhat, ha egy faj mögöttes populációgenetikája rosszul ismert. A struktúra lehetővé teszi a K legjobb értékének becslését azáltal, hogy kiszámítja az egyes k modell bizonyítékait egy sor választási lehetőségből. A modell bizonyíték meghatározása:

(2)

ahol f az adatok valószínűségét, míg a paraméterek korábbi sűrűségét jelöli. A szerkezet Monte Carlo módszerekkel közelíti meg az integráltat. Optimalizálási keretrendszerünk nem alkalmas ennek az integrálnak az értékelésére. Alternatív megoldásként keresztellenőrzést alkalmazunk. Keresztellenőrzésben, célunk a legjobb K érték azonosítása a szisztematikusan visszatartott adatpontok előrejelzése alapján. Hasonló taktikát alkalmaz a fastPHASE haplotípus-elemző program is, amelyet Wold módszere ihletett a PCA modellek keresztellenőrzésére .

v-szeres keresztellenőrzési eljárásunk a nem hiányzó genotípusokat nagyjából azonos méretű v részhalmazokra (redőkre) osztja fel. Mindegyik v iterációnál az egyik redő tagjai maszkolva vannak (ideiglenesen hiányzóként vannak megjelölve), hogy új adatmátrixot kapjanak a maszkolt adatmátrix elemzése nem jelent új kihívásokat. A log-likelihood, score és observed information matrix (log-likelihood, pontszám és megfigyelt információs mátrix) kiszámításakor egyszerűen figyelmen kívül hagyjuk a hiányzó értékekkel rendelkező bejegyzéseket (i, j). A log-valószínűség maximalizálása könnyen új becsléseket eredményez és a maszkolt adatokra. Ezután minden maszkolt értéket megjósolunk n ij – vel. Az előrejelzési hibát a binomiális modell deviancia-maradványainak négyzetének átlagolásával becsüljük meg ,

(3)

az összes maszkolt bejegyzésnél az összes hajtás felett. Ennek a becsült előrejelzési hibának a minimalizálása egy rácson K értékek akkor javasolja a legmegfelelőbbet K.

a keverési együtthatók felügyelt tanulása

az ADMIXTURE stratégiája az egyes ősfrakciók egyidejű becslésére Q és populáció allél frekvenciák F ideális, ha semmit sem tudunk a hozzájáruló őspopulációkról. Sok esetben azonban ezek a populációk ismertek, és minden populációból több referencia egyén áll rendelkezésre. Itt érdekes megbecsülni a fennmaradó egyének potenciálisan kevert őseit. Ezt a felügyelt elemzést nevezzük, mivel a referencia egyének képzési mintákat szolgáltatnak felügyelt tanulási környezetben. Felügyelt elemzés elvégzése keverékben, an .az individuumok populációkra való leképezését meg kell adni, a –felügyelt jelzőt pedig csatolni kell a parancssorhoz.

az Ősbecslések pontosabban becsülhetők meg a felügyelt elemzésben, mivel kevesebb a bizonytalanság az allélfrekvenciákban. Az eredmények értelmezése egyszerűsödik, a futási idők pedig rövidebbek a becsülni kívánt paraméterek számának csökkenése miatt. Mind az iterációk száma a konvergenciáig, mind az iterációnkénti számítási komplexitás csökken. Felhívjuk azonban a figyelmet arra, hogy a felügyelt elemzés csak akkor megfelelő, ha a referencia-egyedek bizonyossággal hozzárendelhetők az ősi populációkhoz, és az ősi populációk meglehetősen homogének. A feltáró elemzések esetében a felügyelet nélküli elemzés megfelelőbb, ezért továbbra is az alapértelmezett keverék.

büntetett becslés és modell parsimony

amint azt a felügyelt és a felügyelet nélküli tanulás későbbi összehasonlításában megjegyeztük, a közeli rokon populációkból kis számú SNP-vel gépelt adatkészletek jelentős kihívásokat jelenthetnek az ősbecslésben. Például, a túlillesztés hajlamos az ősök becslésére felfújt mennyiségű keverékkel. A Bayes-I megoldás erre a problémára az, hogy a kormányzási paraméterbecslések előtt informatív értéket kell előírni a veszélytől, ha az adatok ritkák. Így a struktúra Dirichlet prior disztribúciókat ír elő az ősparaméterekre, és megbecsül egy hiperparamétert, amely a korábbi eloszlások erősségét szabályozza.

optimalizálási keretrendszerünkben megfelelő alternatíva a büntetett becslés végrehajtása. Ahelyett, hogy maximalizálnánk a log-valószínűséget, maximalizálunk egy objektív függvényt, amely a log-valószínűség mínusz büntetés . A büntetés célja az imént említett becsült ősmátrix nemkívánatos elfogultságainak elriasztása. A hangolási állandó a büntetés erősségét szabályozza. Bár csábító a struktúrában megjelenő Dirichlet prior sűrűség negált logaritmusát büntetésnek tekinteni, a Dirichlet(6, …, 6032> 1 paraméterrendszerben a sűrűség felett nincs korlátozás-ez vitathatatlanul a leghasznosabb beállítás a számtalan paraméter számára -, ezért optimalizálási keretrendszerünkben használhatatlan. Egy jobb alternatíva a hozzávetőleges 60 büntetés

ami nemcsak a zsugorodást, hanem az agresszív parsimonyt is ösztönzi. Különösen a hozzávetőleges 60 büntetés a kis keverési együtthatókat nullára hajtja. A Parsimony azért kívánatos, mert könnyebben értelmezhető és valószínűleg reálisabb paraméterbecslésekhez vezet. A becslést úgy végezzük, hogy maximalizáljuk argumentumai felett. A növekedés a és becslésekben növeli a zsugorodás és a parsimony mértékét.

a büntetési hangolási állandók meghatározása nem triviális. Kezünkben a keresztellenőrzés hatékonynak bizonyult egyszerű szimulált adatkészleteken. A beállító állandók a felhasználó által definiált opciók, így a felhasználók különböző beállításokat fedezhetnek fel, amelyek összhangban vannak a keresztellenőrzéssel vagy a saját heurisztikájukkal.

több processzor kihasználása

nagyon nagy adatkészletek (SNP-k milliói, egyének ezrei) még az ADMIXTURE hatékony algoritmusait is feltérképezhetik. Mivel az eredeti kiadvány, mi hangolt a mag algoritmus és javult a sebesség a két tényező. Azt is végre egy párhuzamos végrehajtási mód, amely lehetővé teszi ADMIXTURE kihasználni több processzor. Ez az új lehetőség az OpenMP keretrendszert alkalmazza, amelyet egyszerű párhuzamosításra terveztek a fordító # pragma Irányelvek használatával. Például négy szálon végzett elemzések elvégzéséhez a felhasználónak csak a-j4 jelzőt kell hozzáadnia a parancssorhoz. Ezért

$ keverési adatok / hapmap3.bed 3-j4

elemzi az adatfájlt hapmap3.Ágy 4 szál felhasználásával, feltételezve, hogy K = 3 ősi populáció. A hapmap3 adatkészlet K = 3-as elemzését 392% – kal gyorsítottuk fel egy négyprocesszoros gépen.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.