研究おぼえがき: そこからですか？のバイオインフォ：リファレンスファイルの問題

あ、どうも。るまんどです。

webのGalaxyにRNA-seq(1ファイルあたり3.4G）データは無事アップできたんですが、ここからは、ええと何をすれば？

ええと、うちのデータは、control:n=3, treatment:n=3です。非モデル生物です。予算が「RNA-seq解析までするか、解析は自前で行い、DNAもよんでおくか」の選択だったんで、迷わず後者を選んでいます。つまり、ゲノムの生データはある。生です。既報で、近縁種（科が同じ）のTranscriotomeデータはあります。あ、pair-endデータです。インサートは150bpです。ショートリード界（ショートと言わない？でもlongではないよね）では長めです。

ええと、データをUPしたら、次に何をすればいいのかを考えてみます。
０．クオリティーチェック、トリミング
１．リファレンスファイルをどうするか。
　１）Du novoのパイプラインを考える
　　１－１　RNA-seqのみ
　　１－２　ゲノムの生データでリファレンス作る
　２）近縁種をリファレンスにして、assemble？正確にはmapping？・・・という流れ
　３）なんか、自前のリファレンスと既報のデータをまぜまぜしてイイ（かどうかは、　　　　やってみないとわからない）リファレンスを作るひともいるらしい・・・。
参考HP
http://shortreadbrothers.blogspot.jp/2010/10/de-novo-transcriptome.html

これまで、クオリティーチェックではRを使ったり、いろいろしたんですが・・・。
データのクオリティーについては、そもそも業務委託で出してもらったデータで、最低限のクオリティーをクリアしたデータを納品するように仕様がなっているので、トリミングの必要がないくらいのものです。・・・すくなくとも報告書を見る限りでは。むむむ。

で、るまんどの目下の問題は、リファレンスファイルをどうするかなんですね。
とりあえずの結果を出すなら、２）が手っ取り早くていいんですが、このリファレンスが使い物になるかどうかが、わからない。

ん～。リファレンスの良さを比べればいいのか。

リファレンス比較の基準は、長いcontigができたか、N50（50％のところのcontigの長さ）、contigの数（全体のデータ量に対してcontig数が少ない方がよい。つながれたってことだから）、でもってアッセンブリの正確さ（中身）がかなり大事・・・正確さ？

正確さは、コア遺伝子みたいのに対して、それがかなり作れていたら、いいんじゃない？ってことですね。BUSCOとかCEGMAとかいう解析。ん～、解析ソフトがいるのか。Blast2GOでもいいのかな。

あっ、何これ・・・。↓そうそう、ぱっくまんさん！私がさがしていたのは、こういうやつです。

https://pacbiobrothers.blogspot.jp/2017/07/

おおお！すごいよ、この理研の中の人の開発したgVolante!
https://gvolante.riken.jp/

リファレンスファイルの比較に便利すぎるツールです。web上で使うやつ。ちゃっちゃとwebでグラフも出してくれる。いそいで報告書を書くにはちょうどいい！！！（コラコラ(`o´)）

ありがたやありがたや。

こんなんで、後2週間で報告書を書かないといけないんですけど、大丈夫でしょうか。

・・・やばいって。

研究おぼえがき

日曜日, 4月 15

そこからですか？のバイオインフォ：リファレンスファイルの問題

0 件のコメント:

コメントを投稿

けものドラマ見てます。

ヘッダーナビゲーション

このブログを検索