日曜日, 4月 15

そこからですか?のバイオインフォ:リファレンスファイルの問題

あ、どうも。るまんどです。

webのGalaxyにRNA-seq(1ファイルあたり3.4G)データは無事アップできたんですが、ここからは、ええと何をすれば?

ええと、うちのデータは、control:n=3, treatment:n=3です。非モデル生物です。予算が「RNA-seq解析までするか、解析は自前で行い、DNAもよんでおくか」の選択だったんで、迷わず後者を選んでいます。つまり、ゲノムの生データはある。生です。既報で、近縁種(科が同じ)のTranscriotomeデータはあります。あ、pair-endデータです。インサートは150bpです。ショートリード界(ショートと言わない?でもlongではないよね)では長めです。

ええと、データをUPしたら、次に何をすればいいのかを考えてみます。
0.クオリティーチェック、トリミング
1.リファレンスファイルをどうするか。
 1)Du novoのパイプラインを考える
  1-1 RNA-seqのみ
  1-2  ゲノムの生データでリファレンス作る
 2)近縁種をリファレンスにして、assemble?正確にはmapping?・・・という流れ
 3)なんか、自前のリファレンスと既報のデータをまぜまぜしてイイ(かどうかは、    やってみないとわからない)リファレンスを作るひともいるらしい・・・。
参考HP
http://shortreadbrothers.blogspot.jp/2010/10/de-novo-transcriptome.html


これまで、クオリティーチェックではRを使ったり、いろいろしたんですが・・・。
データのクオリティーについては、そもそも業務委託で出してもらったデータで、最低限のクオリティーをクリアしたデータを納品するように仕様がなっているので、トリミングの必要がないくらいのものです。・・・すくなくとも報告書を見る限りでは。むむむ。

で、るまんどの目下の問題は、リファレンスファイルをどうするかなんですね。
とりあえずの結果を出すなら、 2)が手っ取り早くていいんですが、このリファレンスが使い物になるかどうかが、わからない。

 ん~。リファレンスの良さを比べればいいのか。

リファレンス比較の基準は、長いcontigができたか、N50(50%のところのcontigの長さ)、contigの数(全体のデータ量に対してcontig数が少ない方がよい。つながれたってことだから)、でもってアッセンブリの正確さ(中身)がかなり大事・・・正確さ?

正確さは、コア遺伝子みたいのに対して、それがかなり作れていたら、いいんじゃない?ってことですね。BUSCOとかCEGMAとかいう解析。ん~、解析ソフトがいるのか。Blast2GOでもいいのかな。

あっ、何これ・・・。↓そうそう、ぱっくまんさん!私がさがしていたのは、こういうやつです。

https://pacbiobrothers.blogspot.jp/2017/07/

おおお!すごいよ、この理研の中の人の開発したgVolante!
https://gvolante.riken.jp/

リファレンスファイルの比較に便利すぎるツールです。web上で使うやつ。ちゃっちゃとwebでグラフも出してくれる。いそいで報告書を書くにはちょうどいい!!!(コラコラ(`o´))

ありがたやありがたや。


こんなんで、後2週間で報告書を書かないといけないんですけど、大丈夫でしょうか。

・・・やばいって。


0 件のコメント:

コメントを投稿

けものドラマ見てます。

ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...