ええと、今日は、次世代シーケンスデータ解析をweb上でやろうとして、DDBJとGlaxyを両方触ってみての雑感を書きます。もしもあなたが、非モデル生物のRNA-seqやDNA-seqの生データを手に入れてしまったら、QCチェック→filtering→QC再チェック→assemble・・・って進むと思いますが、
1) web解析をするならまずはHPにデータをあげなければなりません。DDBJもGlaxyもメールでのユーザー登録をしないと大きなデータは扱えません。DDBJは公のアドレスじゃないとだめですが、Galaxyはgmailでもいけました。 フリーの身にはGalaxyしか使えません。
2)データがUPしやすい、あげかたがわかりやすいのは、galaxyですが、FTPを使うなら、DDBJとGlaxyで差はないです。自分がどのFTPソフトを使うかが重要。3Gとか大きいデータを使うことが多いと思うので、FTPは必須。ただ、DDBJでは使える容量に制限はないようなのですが、Glaxyは200Gと決められているので、RNA-seqの解析とDNAの解析は、容量足りなくていっぺんにはできません(でした)。
3) データの前処理は、galaxyの方が選択肢が多い・・・、言い換えればちゃんと勉強しないと何を使えばいいのか分かりません。他の論文と同じ方法で、変数変えたりやろうとするならGalaxyの方がいいです。DDBJではPreprocessingで適当にやってくれる感じで、ソフトの選択肢はない(数値は変えられます)・・・。FastQCはgalaxyでしか使えない。DDBJでもQCレポートは出してくれますが、簡素なもの。
4)DDBJは分割されたデータをmergeして解析するのが楽です。ぽちぽち選ぶだけだから。Galaxyでは、どうすればいいのか、私にはわかりませんでした・・・(データファイルをまとめてデータセットを作って解析させても、データファイルごとの結果が出てきてしまった)。
5)同じTrinityを使うなら、Galaxyの方がだんぜん早い。
6)RNA-seq処理のソフトの選択肢が多いのはGalaxyです。ただ、頻繁に新しいソフトがアップデートされ、古いのが亡くなっていくので「え?こないだまで使えたアレはいたいどこ??」ということになります。こういうのって、正直、ほんと困る。
7)DNAのassemblerの選択肢はDDBJの方が豊富。しかもPlatanusが使えるのはここだけ。Galaxyでは、もうバクテリアのassembleしかできないようです・・・。CPUが大変だから(←素人発言)?
私の場合、発現量変動の解析はRでやるつもりなので、こんな感じでしょうか。
はぁ。
土曜日, 4月 28
登録:
コメントの投稿 (Atom)
けものドラマ見てます。
ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...
-
お久しぶりです。 ご挨拶は、そこそこに、SSRのデータ解析の覚書をば(だって、ごちゃごちゃ言っている間に、忘れそうで)。 解析の流れとしては、 個体ベースでのクラスタリング(きれいな図でout put)→適切なK(集団数)の判定→集団の遺伝的距離→集団の系統樹 を示し...
-
最近、自分の話をしすぎた感があるので、解析で直面したRのお話をひとつ・・・。 上のデータは、遺伝子の発現量の値だと思って下さい。cont1-3はコントロール飼育、exp1-3は実験処理をした個体です。データは、コピペコマンド(x<-read....
-
今日の業務実績をご報告。 TCSでハプロタイプネットワークがかけました! やったね! v(^^)v とにもかくにも、原因は、phyファイルやNEXUSファイルが、Tcsの読めるように書けない、ということでした。原因と解決法の覚書は、以下。 ・塩基数が間違っていた→...
0 件のコメント:
コメントを投稿