ご挨拶は、そこそこに、SSRのデータ解析の覚書をば(だって、ごちゃごちゃ言っている間に、忘れそうで)。
解析の流れとしては、
個体ベースでのクラスタリング(きれいな図でout put)→適切なK(集団数)の判定→集団の遺伝的距離→集団の系統樹 を示したい。
まいどのごとく、お世話になったHPは、以下の通りです。
★主にSTRUCTURE用のデータセット作成に関して。その他のソフトへの入力データ作成の方法も親切に教えてくれます。
http://noah.ees.hokudai.ac.jp/envmi/lab_higashi/manual/index.html
★遺伝子解析に関するソフト全般を広範囲に紹介。1周してからも一遍見ると、なるほど、と、思う。
https://sites.google.com/site/takayaiwasakieuotaka/software
★特にSSRの解析について。Structure→Structure Harvester→CLUMPP→distructというフローで解析するながれの紹介。CLUMPPはLinaxなのか・・・。Rで、なんとかしたい。
http://blog.goo.ne.jp/kosa_in_goo/e/75619a6a395121e44a80246cf2215eba
★その名の通り、
How to run Structure, Structure Harvester, CLUMPP, and Distruct の流れを簡単に解説
http://populationgeneticsnotes.blogspot.jp/2013/07/how-to-run-structure-structure.html
★Tutorial of the STRUCTURE softwareとなっていて、確かにSTRUCTUREの使い方が一番詳しいです。Kをどうやって判断するのかについても解説が分かりやすい(Evanno et al. 2005. を簡潔に解説)。from Dr. Sung-Chur Sim。
http://pbgworks.org/sites/pbgworks.org/files/Tutorial%20of%20STRUCTURE%20software.pdf
です。
特にSunさんのAn example of steps to identify the best K(スライド27枚目)では、Kのあたりをつける計算(1回目のRun)で、/10K for burnin and 50K for MCMC reps としているところなんかは、計算時間に対するもっともらしい結果を出す計算回数のコストベネフィットが、なんかリアル。Kのあたりをつけてから、もいっかい計算(2回目。RunはRun STRUCTURE w/500K for burnin and 750K for MCMC reps 20 timesを推奨してる)とか、周りにはこんな丁寧な計算してるの見たことないんですけど・・・。最初から多めに計算して、1回で済ましてる感じが。
でも、多少の時間をかけるだけ(パラメーターセットして、あとはお茶を飲むとか追加実験するとか)なんだから、明日、提出・・・とかでなければ(オイ(´Д`))、確認のためにもやったほうがいいなぁ。
ちなみにうちのデータでは、Structure Harvesterで計算したΔKのグラフはこんな感じ
えっと・・。K=2ってこと???希望(オイ(´Д`))はK=4なんですけど・・・。(ちなみにK=1-10,100K for burnin and 100K for MCMC reps、1回だけ)
K=2の個体ベースのグラフをWEB上の structure plot(Structure Plot v2.0 BETA)でちょっと直してみる。 http://omicsspeaks.com/strplot2/
データセットは、
1)structure harvesterの結果ファイルの中から、K2.indfile を探して、エクセルで開く
2)この時、データがずれないように注意(なんか(12)とかって入ってて、ずれてた)
3)列名を”group","gene",P1,P2・・・とかにする。
4)保存形式はcsvで(古いバージョンではtxtだった)。
で、データ作成。アップロード。グラフ作成。
こんな感じ。色は好みで直せます。
下のバー(グループの表示?)の意味がいまいち分からないんだけど・・・。まぁ、いいか。