論文紹介 Improved protein structure prediction using potentials from deep learning

研究室でやった論文紹介のレポートをそのままコピペしました. 今回ご紹介するのはDeepMind謹製AlphaFoldです. CASPで大勝したので割と界隈では盛り上がってたんですかね? モデルの中身はよくあるネットワークです(タンパク質の構造を作るところはいままでにない手法だと思いますが...). 入力の特徴量も取り立てて目新しいものでは無いんですが, 機械学習のテクニックをいくつか導入して大きな改善が得られていることが面白いと思いました.

導入

タンパク質の構造はその機能を大きく左右するため重要である. 一方で,タンパク質の構造を実験的に決定することはコストが大きい. そこで,近年タンパク質の配列から3次元構造を予測する研究が行われている. この論文では,AlphaFoldというアルゴリズムが提案された. 結果として,CASP13においてフリーモデリングの43個のタンパク質のうち24個でTM-Scoreが0.7を超えた.

手法

f:id:hikarukondo:20200720160952p:plain

AlphaFoldの手法

AlphaFoldの概要を図に示す. 入力はマルチプルアライメントや共変異などの特徴量を用いる. AlphaFoldのDeep ResNetネットワークは距離分布とねじれ角の分布を予測する. 距離分布は,2Åから22Åを64段階に区切った離散的な分布である. 学習時に二次構造予測や溶媒露出度予測などのサブタスクを用いてマルチタスク学習を行うことで精度の改善を行っている. また,入力の特徴量をパッチに分けて入力し,data augumentationを行う.

勾配降下法に用いるポテンシャル関数は 残基間の距離,ネットワークがす予測したのねじれ角の分布,立体的な衝突を防ぐRosetta9のscore2_smooth関数の3つからなる(図赤). ポテンシャル関数は,すべてねじれ角によって表すことができ微分可能であるため, ポテンシャルを勾配降下法を適応することでタンパク質の構造を最適化できる(図青).

結果

f:id:hikarukondo:20200720161225p:plain 図左にCASPのT0955の29番目の残基とそれ以外の距離分布を示す. この分布の中で赤いbinが実際の距離である.また,青のヒストグラムは距離が8Å以上,緑が8Å以下を表している. この分布の中で分散が小さい場合はピーク付近に実際の距離があることが多い. また,図中央はCASPのT0990に対して予測の中央値と実際の残基間の距離をプロットした. 予測される距離と実際の距離に強い相関があった. 図右は横軸に予測された分散と縦軸に予測されたモードからの距離を表したグラフである. 分散が大きくなるほど,誤差が大きくなった. 図は,Deep ResNetの出力のbinの数とTM-Scoreの関係を表している. この図の赤の線は回帰を用いて予測した場合のTM-scoreである. 回帰で予測を行った場合と分類問題として予測を行った場合のTM-scoreの差から,Deep ResNetの出力を距離分布にすることの重要性を表している.

f:id:hikarukondo:20200720161310p:plain

まとめ

ついにbio関係にもDeepMindさんがやってきてしまったかと思いましたね. その分野は発展することはいいことだとは思うんですけど... DeepMind恐るべし