Mejoras en el algoritmo de mezcla para la estimación de la ascendencia individual

Validación cruzada

La elección del número de poblaciones ancestrales K puede resultar difícil cuando la genética de población subyacente de una especie no se comprende bien. La ESTRUCTURA proporciona un medio para estimar el mejor valor de K mediante el cálculo de la evidencia del modelo para cada K a partir de una gama de opciones. La evidencia del modelo se define como

(2)

donde f representa la verosimilitud de los datos y π representa una densidad previa en los parámetros. La ESTRUCTURA se aproxima a los métodos integrales de via Monte Carlo. Nuestro marco de optimización no es adecuado para evaluar esta integral. Como alternativa, empleamos validación cruzada. En la validación cruzada, nuestro objetivo es identificar el mejor valor K juzgado por la predicción de puntos de datos retenidos sistemáticamente. Una táctica similar también es empleada por el programa de análisis de haplotipos fastPHASE y está inspirada en el método de Wold para la validación cruzada de modelos de PCA .

Nuestro procedimiento de validación cruzada de pliegues en v divide los genotipos que no faltan en subconjuntos en v aproximadamente del mismo tamaño (pliegues). En cada una de las iteraciones en v, los miembros de uno de los pliegues están enmascarados (marcados temporalmente como faltantes) para producir una nueva matriz de datos El análisis de la matriz de datos enmascarada no plantea nuevos desafíos. Al calcular la matriz de log-verosimilitud, puntuación e información observada de , simplemente ignoramos las entradas (i, j) con valores faltantes. La maximización de la probabilidad logarítmica produce fácilmente nuevas estimaciones y para los datos enmascarados. A continuación, predecimos cada valor enmascarado n ij por . El error de predicción se estima promediando los cuadrados de los residuos de desviación para el modelo binomial,

(3)

en todas las entradas enmascaradas en todos los pliegues. Minimizar este error de predicción estimado en una cuadrícula de valores K sugiere entonces el K más adecuado.

Aprendizaje supervisado de coeficientes de mezcla

La estrategia de mezcla de estimar simultáneamente fracciones de ascendencia individuales Q y frecuencias de alelos de población F es ideal cuando no se sabe nada sobre las poblaciones ancestrales contribuyentes. Sin embargo, en muchos escenarios, estas poblaciones son conocidas y se dispone de varios individuos de referencia de cada población. Aquí es de interés estimar los ancestros potencialmente mezclados de los individuos restantes. Denominamos a este análisis supervisado, ya que los individuos de referencia proporcionan muestras de entrenamiento en un contexto de aprendizaje supervisado. Para realizar análisis supervisados en MEZCLA, an .se debe proporcionar un archivo ind que asigne individuos a poblaciones, y el indicador supervised supervised debe adjuntarse a la línea de comandos.

Las estimaciones de ascendencia se pueden estimar con mayor precisión en el análisis supervisado porque hay menos incertidumbre en las frecuencias de los alelos. La interpretación de los resultados se simplifica y los tiempos de ejecución son más cortos debido a la reducción del número de parámetros a estimar. Tanto el número de iteraciones hasta la convergencia como la complejidad computacional por iteración disminuyen. Sin embargo, advertimos que el análisis supervisado solo es adecuado cuando los individuos de referencia pueden asignarse a poblaciones ancestrales con certeza y las poblaciones ancestrales son bastante homogéneas. Para los análisis exploratorios, el análisis no supervisado es más apropiado y, por lo tanto, sigue siendo el predeterminado en la MEZCLA.

Estimación penalizada y parsimonia de modelos

Como se señaló en nuestra comparación posterior de aprendizaje supervisado y no supervisado, los conjuntos de datos seleccionados de poblaciones estrechamente relacionadas tipificadas en un número modesto de SNP pueden plantear desafíos sustanciales en la estimación de ancestros. Por ejemplo, el sobreajuste tiende a producir estimaciones de ascendencia con cantidades infladas de mezcla. La solución bayesiana a este problema es imponer una información previa para alejar las estimaciones de parámetros del peligro cuando los datos son escasos. Por lo tanto, la ESTRUCTURA impone distribuciones previas de Dirichlet en los parámetros de ascendencia y estima un hiperparámetro α que controla la fuerza de las distribuciones anteriores.

Una alternativa adecuada en nuestro marco de optimización es realizar estimaciones penalizadas. En lugar de maximizar la probabilidad logarítmica, maximizamos una función objetivo que consiste en la probabilidad logarítmica menos una penalización . La penalización está diseñada para desalentar los sesgos indeseables en la matriz de ascendencia estimada que se acaba de mencionar. La constante de afinación λ controla la intensidad de la penalización. Si bien es tentador considerar el logaritmo negado de la densidad previa de Dirichlet que aparece en la ESTRUCTURA como una penalización, el Dirichlet (α, …, α) la densidad no está limitada en el régimen de parámetros α < 1 arguably posiblemente el ajuste más útil para el parámetro α–y, por lo tanto, es inutilizable en nuestro marco de optimización. Una mejor alternativa es la penalidad aproximada de0 0

lo que fomenta no solo la contracción, sino también la parsimonia agresiva. En particular, la penalización aproximada de0 0 conduce a coeficientes de mezcla pequeños a cero. La parsimonia es deseable porque conduce a estimaciones de parámetros más fáciles de interpretar y probablemente más realistas. La estimación se realiza maximizando sobre sus argumentos. El aumento de λ o la segunda constante de sintonización γ eleva el grado de contracción y parsimonia en las estimaciones resultantes y .

La determinación de las constantes de sintonización de penalización λ y γ no es trivial. En nuestras manos, la validación cruzada ha demostrado ser efectiva en conjuntos de datos simulados simples. Las constantes de ajuste λ y γ son opciones definidas por el usuario, por lo que los usuarios pueden explorar diferentes configuraciones consistentes con la validación cruzada o su propia heurística.

Explotar múltiples procesadores

Conjuntos de datos muy grandes (millones de SNPs, miles de personas) puede reducir los algoritmos eficientes de MEZCLA a un rastreo. Desde nuestra publicación original, hemos ajustado nuestro algoritmo central y mejorado su velocidad en un factor de dos. También hemos implementado un modo de ejecución en paralelo que permite que la MEZCLA explote múltiples procesadores. Esta nueva opción emplea el framework OpenMP diseñado para una paralelización simple usando las directivas #pragma del compilador. Para realizar análisis con, por ejemplo, cuatro subprocesos, el usuario solo necesita agregar la bandera-j4 a la línea de comandos. Por lo tanto

Data datos de mezcla/hapmap3.bed 3-j4

analiza el archivo de datos hapmap3.cama con 4 hilos, asumiendo K = 3 poblaciones ancestrales. Los análisis de nuestro conjunto de datos hapmap3 con K = 3 se aceleraron en un 392% en una máquina de cuatro procesadores.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.