医mportブログ

雑記っき

生命情報処理における機械学習 読んだ感想その1

こんにちは。
今回はお年玉をはたいて購入した書籍について軽く感想や要点をまとめていきたいと思います。
↓こちらの本ですね。


まず第1章は包括的な生命科学に関する説明が書かれてました。医学部では基礎医学の段階で習得するDNA、RNAの転写翻訳、また修飾のためのシスエレメントについてざっと述べてる感じです。
理工学系で生命科学初学、という方はここをじっくり読むといいと思われますが、正直医学部で基礎医学を経ている身ならば読み飛ばしてもかまわないです。



次に、第2章は多重検定と無限次数多重検定法について。
Mann-WhitneyU検定とt検定は独立2郡の差を検定するときに用いること、さらに母集団が正規分布に従わない際はMann-WhitneyU検定を採用するということを強調してます。
あとは統計量の近似が難しい場合はモンテカルロといった具合に、問題が生じたらこの手法、次はこの手法と説明してくれてわかりやすかったです。教養レベルの統計学の知識では知らないことも書いてありました、勉強になりましたね。


次に、GWASでは多数の検定が同時に発生するので帰無仮説に従っていても偽陽性が出現する確率の高まりを問題提起とし、有意水準の補正をBonferroni法,Tarone法を用いて説明してますが厳密な証明をしており割と長々としているので軽く斜め読みでいいと思います笑


殊、ゲノミクス解析の場合染色体上の塩基配列は鎖状はので近い同士にある変異郡は独立でなく従属性が強いため偽陰性率が高まります(ハプロタイプブロックというらしい)、その解決策が羅列されてました、ここでもモンテカルロに準じた多重検定補正が採用されてました。


M個の検定対象があったら2^M-1個の仮説を考えなければならないわけですが、無限次数多重検定法で頻出パターン解析をすれば計算量を効率化できるという記載もありました。補正後の有意水準δに対して変異の各要素の集合パターンの中で最小のP値が下回ったものだけを採用する方法ですね。


一般に遺伝子のゲノム網羅的な発現量の観測における話で、投薬前後で規定回数の発現量観測を行った上で前後間で帰無仮説、特にRNA-seqの場合は過分散発現なので二項分布を採用するようです。やはりここでも多重検定における補正をするのですがあまり厳しい評価の帰無仮説を採用しないほうがいいらしいですね(FWERよかFDR)


GOタームの説明はよくわかりませんでした笑 GO タームの中には色々遺伝子機能に関連した単語があってそれに結びつく遺伝子郡と、着目した検定対象の遺伝子郡と独立かどうかの帰無仮説を調べることによって遺伝子機能の共通性をみつける、、??ほぼスルーしました、


ひとまず、ここまで読んだ感想としては多重検定に対して行われる補正を紹介してもらってるな〜というざっくりとした感想笑 fMRIやPETでも調査するボクセルの多重性から補正せざるを得ないようなのでそのあたりの知識は今後肝に銘じなければなと思いました。


後半は推定問題が主なようです、がんばって読み進めます!