Améliorations de l’algorithme de mélange pour l’estimation de l’ascendance individuelle

Validation croisée

Le choix du nombre de populations ancestrales K peut s’avérer difficile lorsque la génétique de population sous-jacente d’une espèce est mal comprise. La STRUCTURE fournit un moyen d’estimer la meilleure valeur de K en calculant la preuve du modèle pour chaque K à partir d’une gamme de choix. La preuve du modèle est définie comme suit :

(2)

où f représente la vraisemblance des données et π représente une densité préalable sur les paramètres. LA STRUCTURE se rapproche de l’intégrale via les méthodes de Monte Carlo. Notre cadre d’optimisation n’est pas bien adapté à l’évaluation de cette intégrale. Comme alternative, nous utilisons la validation croisée. En validation croisée, nous visons à identifier la meilleure valeur K jugée par la prédiction de points de données systématiquement retenus. Une tactique similaire est également utilisée par le programme d’analyse des haplotypes fastPHASE et s’inspire de la méthode de Wold pour la validation croisée des modèles de PCA.

Notre procédure de validation croisée v-fold divise les génotypes non manquants en v sous-ensembles de taille à peu près égale (plis). A chacune des v itérations, les membres de l’un des plis sont masqués (temporairement marqués comme manquants) pour donner une nouvelle matrice de données L’analyse de la matrice de données masquée ne pose pas de nouveaux défis. En calculant la matrice de log-vraisemblance, de score et d’informations observées de , nous ignorons simplement les entrées (i, j) avec des valeurs manquantes. La maximisation de la log-vraisemblance donne facilement de nouvelles estimations et pour les données masquées. Nous prédisons ensuite chaque valeur masquée n ij par . L’erreur de prédiction est estimée en faisant la moyenne des carrés des résidus de déviance pour le modèle binomial ,

(3)

sur toutes les entrées masquées sur tous les plis. La minimisation de cette erreur de prédiction estimée sur une grille de valeurs K suggère alors le K le plus approprié.

Apprentissage supervisé des coefficients d’adjuvant

La stratégie d’ADJUVANT consistant à estimer simultanément les fractions d’ascendance individuelles Q et les fréquences d’allèles de population F est idéale lorsque l’on ne sait rien des populations ancestrales contributives. Dans de nombreux scénarios, cependant, ces populations sont connues et plusieurs individus de référence de chaque population sont disponibles. Ici, il est intéressant d’estimer les ancêtres potentiellement mélangés des individus restants. Nous appelons cette analyse supervisée, car les personnes de référence fournissent des échantillons de formation dans un contexte d’apprentissage supervisé. Pour effectuer une analyse supervisée en MÉLANGE, un.le fichier ind mappant des individus à des populations doit être fourni, et l’indicateursupervisedsupervised doit être attaché à la ligne de commande.

Les estimations d’ascendance peuvent être estimées plus précisément dans une analyse supervisée car il y a moins d’incertitude dans les fréquences des allèles. L’interprétation des résultats est simplifiée et les temps d’exécution sont plus courts en raison du nombre réduit de paramètres à estimer. Le nombre d’itérations jusqu’à la convergence et la complexité de calcul par itération diminuent. Cependant, nous mettons en garde contre le fait que l’analyse supervisée ne convient que lorsque les individus de référence peuvent être attribués avec certitude à des populations ancestrales et que les populations ancestrales sont assez homogènes. Pour les analyses exploratoires, l’analyse non supervisée est plus appropriée et reste donc le MÉLANGE par défaut.

Estimation pénalisée et parcimonie du modèle

Comme nous l’avons noté dans notre comparaison ultérieure de l’apprentissage supervisé et non supervisé, les ensembles de données prélevés sur des populations étroitement apparentées typées à un nombre modeste de SNP peuvent poser des défis importants dans l’estimation de l’ascendance. Par exemple, le surajustement tend à donner des estimations d’ascendance avec des quantités gonflées de mélange. La solution bayésienne à ce problème consiste à imposer une estimation informative des paramètres avant de diriger loin du danger lorsque les données sont rares. Ainsi, la STRUCTURE impose des distributions antérieures de Dirichlet sur les paramètres d’ascendance et estime un hyperparamètre α qui contrôle la force des distributions antérieures.

Une alternative appropriée dans notre cadre d’optimisation consiste à effectuer une estimation pénalisée. Plutôt que de maximiser la log-vraisemblance, nous maximisons une fonction objective constituée de la log-vraisemblance moins une pénalité . La pénalité est conçue pour décourager les biais indésirables dans la matrice d’ascendance estimée qui vient d’être mentionnée. La constante d’accord λ contrôle la force de la pénalité. Bien qu’il soit tentant de considérer le logarithme négé de la densité antérieure de Dirichlet apparaissant dans la STRUCTURE comme une pénalité, le Dirichlet (α, …, α) la densité est illimitée ci-dessus dans le régime de paramètres α < 1 – sans doute le paramètre le plus utile pour le paramètre α – et est donc inutilisable dans notre cadre d’optimisation. Une meilleure alternative est la pénalité approximative de 0 ℓ

ce qui encourage non seulement le rétrécissement mais aussi la parcimonie agressive. En particulier, la pénalité approximative de ℓ0 ramène les petits coefficients de mélange à zéro. La parcimonie est souhaitable car elle conduit à des estimations de paramètres plus facilement interprétables et probablement plus réalistes. L’estimation est effectuée en maximisant sur ses arguments. L’augmentation de λ ou de la seconde constante d’accord γ augmente l’étendue du rétrécissement et de la parcimonie dans les estimations résultantes et .

La détermination des constantes d’accord de pénalité λ et γ est non triviale. Entre nos mains, la validation croisée s’est avérée efficace sur de simples jeux de données simulés. Les constantes de réglage λ et γ sont des options définies par l’utilisateur, de sorte que les utilisateurs peuvent explorer différents paramètres compatibles avec la validation croisée ou leurs propres heuristiques.

L’exploitation de plusieurs processeurs

Des ensembles de données très volumineux (des millions de SNP, des milliers d’individus) peuvent réduire les algorithmes efficaces d’ADJUSTMENT à une analyse. Depuis notre publication originale, nous avons ajusté notre algorithme de base et amélioré sa vitesse d’un facteur deux. Nous avons également implémenté un mode d’exécution parallèle qui permet à ADMIXTURE d’exploiter plusieurs processeurs. Cette nouvelle option utilise le framework OpenMP conçu pour une parallélisation simple à l’aide des directives du compilateur #pragma. Pour effectuer des analyses avec, par exemple, quatre threads, l’utilisateur n’a besoin que d’ajouter l’indicateur -j4 à la ligne de commande. D’où

Data données de mélange/hapmap3.le lit 3-j4

analyse le fichier de données hapmap3.lit en utilisant 4 fils, en supposant K = 3 populations ancestrales. Les analyses de notre jeu de données hapmap3 avec K= 3 ont été accélérées de 392% sur une machine à quatre processeurs.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.