個々の祖先推定のための混和アルゴリズムの強化

交差検証

種の基礎となる集団遺伝学が十分に理解されていない場合、祖先集団Kの数の選択は困難であることが判明する可能性がある。 構造は、選択肢の範囲から各Kのモデル証拠を計算することによって、Kの最良の値を推定する手段を提供します。 モデル証拠は次のように定義されます

(2)

ここで、fはデータ尤度を表し、λはパラメータの事前密度を表します。 構造は、モンテカルロ法を介して積分を近似します。 この最適化フレームワークは、この積分を評価するのには適していません。 別の方法として、交差検証を採用します。 交差検証では、体系的に源泉徴収されたデータポイントの予測によって判断される最良のK値を特定することを目指しています。 同様の戦術は、ハプロタイプ解析プログラムfastPHASEによっても採用され、PCAモデルを交差検証するためのWoldの方法に触発されています。

私たちのvフォールド交差検証手順は、欠落していない遺伝子型をvほぼ同じサイズのサブセット(フォールド)に分割します。 Vの各反復で、折り目の1つのメンバーがマスクされ(一時的に欠落しているとマークされます)、新しいデータ行列マスクされたデータ行列の分析は、新たな の対数尤度、スコア、および観測された情報行列を計算する際には、欠損値を持つエントリ(i,j)を無視するだけです。 対数尤度を最大化すると、マスクされたデータの新しい推定値およびが容易に得られます。 次に、各マスクされた値n ijをで予測します。 予測誤差は、二項モデルの逸脱残差の二乗を平均化することによって推定されます,

(3)

すべての折り目の上にすべてのマスクされたエント K値のグリッド上でこの推定予測誤差を最小限に抑えることは、最も適したKを示唆しています。

混和係数の教師あり学習

混和の個々の祖先画分Qと集団対立遺伝子頻度Fを同時に推定する戦略は、寄与する祖先集団について何も知られていない場合に理想的です。 しかし、多くのシナリオでは、これらの集団は既知であり、各集団からのいくつかの参照個体が利用可能である。 ここでは、残りの個体の潜在的に混合された祖先を推定することが興味深い。 参照個人が教師あり学習の文脈で訓練サンプルを提供するので、我々はこの教師あり分析を用語します。 混合物中で教師あり分析を実行するには、an.indファイルは、個人を母集団にマッピングする必要があり、フラグ–supervisedをコマンドラインに添付する必要があります。

対立遺伝子の頻度の不確実性が少ないため、教師あり分析では祖先推定値をより正確に推定することができます。 結果の解釈が簡素化され、推定するパラメータの数が減少するため、実行時間が短縮されます。 収束までの反復回数と反復ごとの計算の複雑さの両方が減少します。 しかし、我々は、参照個体が確実に先祖の集団に割り当てることができ、先祖の集団がかなり均質である場合にのみ、監督分析が適していることに注意し 探索的分析では、教師なし分析がより適切であるため、混和のデフォルトのままです。

罰せられた推定とモデル節約

後の教師付き学習と教師なし学習の比較で述べたように、密接に関連した集団から抽出されたデータセットは、少人数のSnpでタイプされた。 例えば、過剰適合は混合物の膨張量と祖先の推定値をもたらす傾向があります。 この問題に対するベイズ解法は、データが疎であるときにパラメータ推定値を危険から遠ざける前に有益な情報を課すことです。 このように、構造は祖先パラメータにディリクレ事前分布を課し、事前分布の強さを制御するハイパーパラメータαを推定します。

最適化フレームワークにおける適切な代替手段は、罰せられた推定を実行することです。 対数尤度を最大化するのではなく、対数尤度からペナルティを引いた目的関数を最大化します。 ペナルティは、前述の推定された祖先行列の望ましくないバイアスを阻止するように設計されています。 チューニング定数πはペナルティの強さを制御します。 構造に現れるディリクレ前密度の負の対数をペナルティとして考えることは魅力的であるが、ディリクレ(α,…,α)密度は、パラメータ領域α<1において上記では無制限であり、αパラメータの最も有用な設定であると考えられているため、最適化フレームワークでは使用できない。 より良い代替案は、おおよそのπ0ペナルティです

それは収縮だけでなく、積極的な節約を奨励します。 特に、近似σ0ペナルティにより、小さな混和係数がゼロになります。 節減は、より簡単に解釈可能で、おそらくより現実的なパラメータ推定につながるため、望ましい。 推定は、その引数に対してを最大化することによって実行されます。 Σまたは第二の調整定数σを増加させると、結果として得られる推定値およびの収縮および節減の程度が上昇します。

ペナルティチューニング定数λとλの決定は自明ではない。 我々の手の中で交差検証は、単純なシミュレートされたデータセットに有効であることが証明されています。 チューニング定数μとμはユーザー定義のオプションであるため、ユーザーは交差検証や独自のヒューリスティックと一致するさまざまな設定を探索できます。

複数のプロセッサ

非常に大きなデータセット(数百万のSnp、数千人の個人)を悪用すると、混合の効率的なアルゴリズムでさえクロールを減らすことができます。 私たちの元の出版物以来、私たちはコアアルゴリズムを調整し、その速度を二倍に向上させました。 また,混合物が複数のプロセッサを利用できるようにする並列実行モードを実装した。 この新しいオプションは、コンパイラ#pragmaディレクティブを使用した単純な並列化用に設計されたOpenMPフレームワークを採用しています。 たとえば、4つのスレッドを使用して分析を実行するには、コマンドラインに-j4フラグを追加するだけです。 したがって、

$混和データ/hapmap3。bed3-j4

は、データファイルhapmap3を解析します。k=3と仮定すると、4つのスレッドを使用してベッド。 K=3と私たちのhapmap3データセットの分析は、四つのプロセッサマシン上で392%加速されました。

コメントを残す

メールアドレスが公開されることはありません。