土曜日, 4月 28

そこからですか?のバイオインフォ:DDBJとGlaxyの比較

ええと、今日は、次世代シーケンスデータ解析をweb上でやろうとして、DDBJとGlaxyを両方触ってみての雑感を書きます。もしもあなたが、非モデル生物のRNA-seqやDNA-seqの生データを手に入れてしまったら、QCチェック→filtering→QC再チェック→assemble・・・って進むと思いますが、

1) web解析をするならまずはHPにデータをあげなければなりません。DDBJもGlaxyもメールでのユーザー登録をしないと大きなデータは扱えません。DDBJは公のアドレスじゃないとだめですが、Galaxyはgmailでもいけました。 フリーの身にはGalaxyしか使えません。

2)データがUPしやすい、あげかたがわかりやすいのは、galaxyですが、FTPを使うなら、DDBJとGlaxyで差はないです。自分がどのFTPソフトを使うかが重要。3Gとか大きいデータを使うことが多いと思うので、FTPは必須。ただ、DDBJでは使える容量に制限はないようなのですが、Glaxyは200Gと決められているので、RNA-seqの解析とDNAの解析は、容量足りなくていっぺんにはできません(でした)。

3) データの前処理は、galaxyの方が選択肢が多い・・・、言い換えればちゃんと勉強しないと何を使えばいいのか分かりません。他の論文と同じ方法で、変数変えたりやろうとするならGalaxyの方がいいです。DDBJではPreprocessingで適当にやってくれる感じで、ソフトの選択肢はない(数値は変えられます)・・・。FastQCはgalaxyでしか使えない。DDBJでもQCレポートは出してくれますが、簡素なもの。

4)DDBJは分割されたデータをmergeして解析するのが楽です。ぽちぽち選ぶだけだから。Galaxyでは、どうすればいいのか、私にはわかりませんでした・・・(データファイルをまとめてデータセットを作って解析させても、データファイルごとの結果が出てきてしまった)。

5)同じTrinityを使うなら、Galaxyの方がだんぜん早い。

6)RNA-seq処理のソフトの選択肢が多いのはGalaxyです。ただ、頻繁に新しいソフトがアップデートされ、古いのが亡くなっていくので「え?こないだまで使えたアレはいたいどこ??」ということになります。こういうのって、正直、ほんと困る。

7)DNAのassemblerの選択肢はDDBJの方が豊富。しかもPlatanusが使えるのはここだけ。Galaxyでは、もうバクテリアのassembleしかできないようです・・・。CPUが大変だから(←素人発言)?


 私の場合、発現量変動の解析はRでやるつもりなので、こんな感じでしょうか。

はぁ。

0 件のコメント:

コメントを投稿

けものドラマ見てます。

ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...