Acessórios para a ADIÇÃO algoritmo para o indivíduo de ascendência estimativa de

validação Cruzada

A escolha do número de ancestrais populações K pode revelar-se difícil quando os fatores de genética de populações de uma espécie é pouco compreendido. STRUCTURE provides a means of estimating the best value of K by computing the model evidence for each K from a range of choices. O modelo de prova é definido como

(2)

em que f representa a probabilidade dos dados e π representa uma densidade prévia nos parâmetros. A estrutura se aproxima da integral através dos métodos de Monte Carlo. Nossa estrutura de otimização não é adequada para avaliar esta integral. Como alternativa, empregamos validação cruzada. Na validação cruzada, pretendemos identificar o melhor valor K, conforme avaliado pela previsão de pontos de dados sistematicamente retidos. Uma tática similar também é empregada pelo Programa de análise de haplotype fastPHASE e é inspirada pelo método de Wold para validar os modelos PCA .

o nosso procedimento de validação cruzada V-fold divide os genótipos não-desaparecidos em subconjuntos de tamanho aproximadamente igual (dobras). Em cada uma das v iterações, os membros de uma das dobras são mascarados (temporariamente marcados como faltando) para produzir uma nova matriz de dados análise da matriz de dados mascarados não coloca novos desafios. Ao computar a log-likelihood, score, and observed information matrix de , nós simplesmente ignoramos as entradas (i, j) com valores em falta. A maximização da probabilidade logarítmica produz rapidamente novas estimativas e para os dados mascarados. Nós então predizemos cada valor Mascarado n ij por . O erro de previsão é estimado calculando a média dos quadrados dos resíduos de desvio para o modelo binomial,

(3)

através de todas as entradas mascaradas em todas as dobras. Minimizando este erro de previsão estimado em uma grade de Valores K, então sugere a mais adequada K.

aprendizagem supervisionada de coeficientes de mistura

estratégia de mistura de estimar simultaneamente fracções de ancestralidade individual Q e as frequências de Alelo da população F é ideal quando nada é conhecido sobre as populações ancestrais que contribuem. Em muitos cenários, no entanto, essas populações são conhecidas e vários indivíduos de referência de cada população estão disponíveis. Aqui é do interesse estimar a ancestralidade potencialmente misturada dos indivíduos restantes. Designamos esta análise supervisionada, pois os indivíduos de referência fornecem amostras de treinamento em um contexto de aprendizagem supervisionada. Para realizar análises supervisionadas em mistura, an .ind file mapping individuals to populations must be provided, and the flag — supervised must be attached to the command line.Estimativas de Ascendência podem ser estimadas com mais precisão na análise supervisionada porque há menos incerteza nas frequências alélicas. A interpretação dos resultados é simplificada, e os tempos de execução são mais curtos devido ao número reduzido de parâmetros a estimar. Tanto o número de iterações até a convergência quanto a complexidade computacional por iteração diminuem. No entanto, advertimos que a análise supervisionada só é adequada quando os indivíduos de referência podem ser atribuídos a populações ancestrais com certeza e as populações ancestrais são bastante homogêneas. Para as análises exploratórias, a análise não supervisionada é mais adequada e, portanto, continua a ser o padrão na mistura.

Penalizado estimativa e o modelo de parcimônia

Como observado em nossa comparação posterior do supervisionada e não supervisionada de aprendizagem, conjuntos de dados selecionados entre intimamente relacionados populações digitados em um número reduzido de SNPs podem representar desafios substanciais em ascendência estimativa. Por exemplo, overfitting tende a produzir estimativas de ancestralidade com quantidades infladas de mistura. A solução Bayesiana para este problema é impor um informativo antes de orientar estimativas de parâmetros longe do perigo quando os dados são escassos. Thus, STRUCTURE imposes Dirichlet prior distributions on ancestry parameters and estimates a hyperparameter α that controls the strength of the prior distributions.

uma alternativa adequada em nossa estrutura de otimização é realizar estimativas penalizadas. Ao invés de maximizar a probabilidade logarítmica, maximizamos uma função objetiva consistindo da probabilidade log-menos uma penalidade . A penalidade é projetada para desencorajar os desvios indesejáveis na matriz de ancestralidade estimada apenas mencionado. A constante de afinação λ controla a força da penalidade. Embora seja tentador considerar o logaritmo negado da densidade anterior de Dirichlet aparecendo na estrutura como uma penalidade, o Dirichlet (α, …, α) a densidade é ilimitada acima no regime de parâmetros α < 1–indiscutivelmente a configuração mais útil para o parâmetro α–e é, portanto, inutilizável em nossa estrutura de otimização. Uma alternativa melhor é a penalização aproximada ℓ

o que encoraja não só o encolhimento, mas também a parsimonia agressiva. Em particular, a penalidade aproximada de ℓ0 conduz a coeficientes de mistura pequenos a zero. A parsimonia é desejável porque leva a estimativas de parâmetros mais facilmente interpretáveis e provavelmente mais realistas. Estimation is performed by maximizing over its arguments. Aumentando λ ou a segunda constante de afinação γ eleva a extensão da retração e parsimonia nas estimativas resultantes e .

a determinação das constantes de afinação da penalidade λ e γ Não é trivial. Em nossas mãos, a validação cruzada provou ser eficaz em conjuntos de dados simples e simulados. As constantes de afinação λ e γ São opções definidas pelo usuário, então os usuários podem explorar diferentes configurações consistentes com a validação cruzada ou suas próprias heurísticas.

exploring Multiple Processors

Very large datasets (millions of SNPs, thousands of individuals) can reduce even ADMIXTURE’s efficient algorithms to a crawl. Desde a nossa publicação original, afinámos o nosso algoritmo principal e melhorámos a sua velocidade por um factor de dois. Nós também implementamos um modo de execução paralelo que permite a mistura explorar múltiplos processadores. Esta nova opção emprega o framework OpenMP projetado para uma simples parallelização usando as diretivas compiler #pragma. Para realizar análises com, por exemplo, quatro threads, o Usuário só precisa adicionar a bandeira-j4 para a linha de comando. Assim,

$ dados de mistura / hapmap3.bed 3-j4

analisa o ficheiro de dados hapmap3.cama usando 4 fios, assumindo K = 3 populações ancestrais. As análises do nosso conjunto de dados hapmap3 com K = 3 foram aceleradas em 392% em uma máquina de quatro processadores.

Deixe uma resposta

O seu endereço de email não será publicado.