ええと、今日は、次世代シーケンスデータ解析をweb上でやろうとして、DDBJとGlaxyを両方触ってみての雑感を書きます。もしもあなたが、非モデル生物のRNA-seqやDNA-seqの生データを手に入れてしまったら、QCチェック→filtering→QC再チェック→assemble・・・って進むと思いますが、
1) web解析をするならまずはHPにデータをあげなければなりません。DDBJもGlaxyもメールでのユーザー登録をしないと大きなデータは扱えません。DDBJは公のアドレスじゃないとだめですが、Galaxyはgmailでもいけました。 フリーの身にはGalaxyしか使えません。
2)データがUPしやすい、あげかたがわかりやすいのは、galaxyですが、FTPを使うなら、DDBJとGlaxyで差はないです。自分がどのFTPソフトを使うかが重要。3Gとか大きいデータを使うことが多いと思うので、FTPは必須。ただ、DDBJでは使える容量に制限はないようなのですが、Glaxyは200Gと決められているので、RNA-seqの解析とDNAの解析は、容量足りなくていっぺんにはできません(でした)。
3) データの前処理は、galaxyの方が選択肢が多い・・・、言い換えればちゃんと勉強しないと何を使えばいいのか分かりません。他の論文と同じ方法で、変数変えたりやろうとするならGalaxyの方がいいです。DDBJではPreprocessingで適当にやってくれる感じで、ソフトの選択肢はない(数値は変えられます)・・・。FastQCはgalaxyでしか使えない。DDBJでもQCレポートは出してくれますが、簡素なもの。
4)DDBJは分割されたデータをmergeして解析するのが楽です。ぽちぽち選ぶだけだから。Galaxyでは、どうすればいいのか、私にはわかりませんでした・・・(データファイルをまとめてデータセットを作って解析させても、データファイルごとの結果が出てきてしまった)。
5)同じTrinityを使うなら、Galaxyの方がだんぜん早い。
6)RNA-seq処理のソフトの選択肢が多いのはGalaxyです。ただ、頻繁に新しいソフトがアップデートされ、古いのが亡くなっていくので「え?こないだまで使えたアレはいたいどこ??」ということになります。こういうのって、正直、ほんと困る。
7)DNAのassemblerの選択肢はDDBJの方が豊富。しかもPlatanusが使えるのはここだけ。Galaxyでは、もうバクテリアのassembleしかできないようです・・・。CPUが大変だから(←素人発言)?
私の場合、発現量変動の解析はRでやるつもりなので、こんな感じでしょうか。
はぁ。
土曜日, 4月 28
そこからですか?のバイオインフォ:DDBJとGalaxyにお願い。
あ、どうも。
「こんな感じで研究できました。お金くれてありがとう」という報告書をなんとか書きあげました。計画の6割くらいしかできなかったのを、ものは言いようで書きました。20行くらいに凝縮した「結果報告」ですが、ここ半年の、るまんどの涙と鼻水(風邪と花粉症)と睡眠時間短縮(ふきでもの出ました)のたまものです・・・。
4月に入ってから、DDBJが止まってしまい、解析がrunしない上にデータも受け付けなくなってってゆーか、解析のページにアクセスすらできなくなって、Galaxyもメンテとかでなかなか解析が進まなくなって、もう逃げるしかないのかと思いました。
締め切りが足音をたててそこまでやってきているのに、DDBJとGalaxy両方が使えない状況になるなんて想像もしてなくて、web解析頼みの恐ろしさを痛感しました。
こんな状況だったので、計画の6割の成果でも、自分で自分をほめてあげよう(お金くれた人はたぶん、怒ってるってゆーか、がっかりしてると思うけど)。
DDBJ はまだ調子悪いみたいで、runが終わっているのに、結果のファイルができていなかったりします。・・・特定のソフトウエア(?)だけかもしれないんですが。てか、こういうシステムこそ、国家予算でちゃんとメンテしてしてほしいです。実情を聞き及ぶに、 まじか・・・と思います。人もお金もちゃんとつけてメンテしてほしい。現場はシーケンサー代でぎりぎりだし、シーケンス自体は委託するので解析くらいは自分で気軽にやりたいとも思っています。webで解析できるなら、じゃ、次世代シーケンスやってみようって、普及していくと思うんです。入り口としては必須です。。
「こんな感じで研究できました。お金くれてありがとう」という報告書をなんとか書きあげました。計画の6割くらいしかできなかったのを、ものは言いようで書きました。20行くらいに凝縮した「結果報告」ですが、ここ半年の、るまんどの涙と鼻水(風邪と花粉症)と睡眠時間短縮(ふきでもの出ました)のたまものです・・・。
4月に入ってから、DDBJが止まってしまい、解析がrunしない上にデータも受け付けなくなってってゆーか、解析のページにアクセスすらできなくなって、Galaxyもメンテとかでなかなか解析が進まなくなって、もう逃げるしかないのかと思いました。
締め切りが足音をたててそこまでやってきているのに、DDBJとGalaxy両方が使えない状況になるなんて想像もしてなくて、web解析頼みの恐ろしさを痛感しました。
こんな状況だったので、計画の6割の成果でも、自分で自分をほめてあげよう(お金くれた人はたぶん、怒ってるってゆーか、がっかりしてると思うけど)。
DDBJ はまだ調子悪いみたいで、runが終わっているのに、結果のファイルができていなかったりします。・・・特定のソフトウエア(?)だけかもしれないんですが。てか、こういうシステムこそ、国家予算でちゃんとメンテしてしてほしいです。実情を聞き及ぶに、 まじか・・・と思います。人もお金もちゃんとつけてメンテしてほしい。現場はシーケンサー代でぎりぎりだし、シーケンス自体は委託するので解析くらいは自分で気軽にやりたいとも思っています。webで解析できるなら、じゃ、次世代シーケンスやってみようって、普及していくと思うんです。入り口としては必須です。。
日曜日, 4月 15
そこからですか?のバイオインフォ:リファレンスファイルの問題
あ、どうも。るまんどです。
webのGalaxyにRNA-seq(1ファイルあたり3.4G)データは無事アップできたんですが、ここからは、ええと何をすれば?
ええと、うちのデータは、control:n=3, treatment:n=3です。非モデル生物です。予算が「RNA-seq解析までするか、解析は自前で行い、DNAもよんでおくか」の選択だったんで、迷わず後者を選んでいます。つまり、ゲノムの生データはある。生です。既報で、近縁種(科が同じ)のTranscriotomeデータはあります。あ、pair-endデータです。インサートは150bpです。ショートリード界(ショートと言わない?でもlongではないよね)では長めです。
ええと、データをUPしたら、次に何をすればいいのかを考えてみます。
0.クオリティーチェック、トリミング
1.リファレンスファイルをどうするか。
1)Du novoのパイプラインを考える
1-1 RNA-seqのみ
1-2 ゲノムの生データでリファレンス作る
2)近縁種をリファレンスにして、assemble?正確にはmapping?・・・という流れ
3)なんか、自前のリファレンスと既報のデータをまぜまぜしてイイ(かどうかは、 やってみないとわからない)リファレンスを作るひともいるらしい・・・。
参考HP
http://shortreadbrothers.blogspot.jp/2010/10/de-novo-transcriptome.html
これまで、クオリティーチェックではRを使ったり、いろいろしたんですが・・・。
データのクオリティーについては、そもそも業務委託で出してもらったデータで、最低限のクオリティーをクリアしたデータを納品するように仕様がなっているので、トリミングの必要がないくらいのものです。・・・すくなくとも報告書を見る限りでは。むむむ。
で、るまんどの目下の問題は、リファレンスファイルをどうするかなんですね。
とりあえずの結果を出すなら、 2)が手っ取り早くていいんですが、このリファレンスが使い物になるかどうかが、わからない。
ん~。リファレンスの良さを比べればいいのか。
リファレンス比較の基準は、長いcontigができたか、N50(50%のところのcontigの長さ)、contigの数(全体のデータ量に対してcontig数が少ない方がよい。つながれたってことだから)、でもってアッセンブリの正確さ(中身)がかなり大事・・・正確さ?
正確さは、コア遺伝子みたいのに対して、それがかなり作れていたら、いいんじゃない?ってことですね。BUSCOとかCEGMAとかいう解析。ん~、解析ソフトがいるのか。Blast2GOでもいいのかな。
あっ、何これ・・・。↓そうそう、ぱっくまんさん!私がさがしていたのは、こういうやつです。
https://pacbiobrothers.blogspot.jp/2017/07/
おおお!すごいよ、この理研の中の人の開発したgVolante!
https://gvolante.riken.jp/
リファレンスファイルの比較に便利すぎるツールです。web上で使うやつ。ちゃっちゃとwebでグラフも出してくれる。いそいで報告書を書くにはちょうどいい!!!(コラコラ(`o´))
ありがたやありがたや。
こんなんで、後2週間で報告書を書かないといけないんですけど、大丈夫でしょうか。
・・・やばいって。
webのGalaxyにRNA-seq(1ファイルあたり3.4G)データは無事アップできたんですが、ここからは、ええと何をすれば?
ええと、うちのデータは、control:n=3, treatment:n=3です。非モデル生物です。予算が「RNA-seq解析までするか、解析は自前で行い、DNAもよんでおくか」の選択だったんで、迷わず後者を選んでいます。つまり、ゲノムの生データはある。生です。既報で、近縁種(科が同じ)のTranscriotomeデータはあります。あ、pair-endデータです。インサートは150bpです。ショートリード界(ショートと言わない?でもlongではないよね)では長めです。
ええと、データをUPしたら、次に何をすればいいのかを考えてみます。
0.クオリティーチェック、トリミング
1.リファレンスファイルをどうするか。
1)Du novoのパイプラインを考える
1-1 RNA-seqのみ
1-2 ゲノムの生データでリファレンス作る
2)近縁種をリファレンスにして、assemble?正確にはmapping?・・・という流れ
3)なんか、自前のリファレンスと既報のデータをまぜまぜしてイイ(かどうかは、 やってみないとわからない)リファレンスを作るひともいるらしい・・・。
参考HP
http://shortreadbrothers.blogspot.jp/2010/10/de-novo-transcriptome.html
これまで、クオリティーチェックではRを使ったり、いろいろしたんですが・・・。
データのクオリティーについては、そもそも業務委託で出してもらったデータで、最低限のクオリティーをクリアしたデータを納品するように仕様がなっているので、トリミングの必要がないくらいのものです。・・・すくなくとも報告書を見る限りでは。むむむ。
で、るまんどの目下の問題は、リファレンスファイルをどうするかなんですね。
とりあえずの結果を出すなら、 2)が手っ取り早くていいんですが、このリファレンスが使い物になるかどうかが、わからない。
ん~。リファレンスの良さを比べればいいのか。
リファレンス比較の基準は、長いcontigができたか、N50(50%のところのcontigの長さ)、contigの数(全体のデータ量に対してcontig数が少ない方がよい。つながれたってことだから)、でもってアッセンブリの正確さ(中身)がかなり大事・・・正確さ?
正確さは、コア遺伝子みたいのに対して、それがかなり作れていたら、いいんじゃない?ってことですね。BUSCOとかCEGMAとかいう解析。ん~、解析ソフトがいるのか。Blast2GOでもいいのかな。
あっ、何これ・・・。↓そうそう、ぱっくまんさん!私がさがしていたのは、こういうやつです。
https://pacbiobrothers.blogspot.jp/2017/07/
おおお!すごいよ、この理研の中の人の開発したgVolante!
https://gvolante.riken.jp/
リファレンスファイルの比較に便利すぎるツールです。web上で使うやつ。ちゃっちゃとwebでグラフも出してくれる。いそいで報告書を書くにはちょうどいい!!!(コラコラ(`o´))
ありがたやありがたや。
こんなんで、後2週間で報告書を書かないといけないんですけど、大丈夫でしょうか。
・・・やばいって。
そこからですか?のバイオインフォ:FTPとやらで、
どうも、るまんどです。
あれ?桜っていつのまに散ったんでしょうか。
咲いてたのは、ついこないだ見たんですけど・・・・。
さて、そこからですか?バイオインフォ道場ですが、UPするのに時間がかかりすぎて、まいっちんぐ状態だった問題ですが、秘密の小部屋からアクセスすると、3GMのデータが5分くらいでUPできることがわかりました。いったいなんなの?
というわけで、解析はできるだけGalaxyですませることにしました。
で、まずは、galaxyのアカウントを作成して、200Gもらったら、そこにデータをUPします。します・・・、できません。
たしか先月までは3G程度のファイルなら、ドラッグ&ドロップでUPできたと思うんですけど・・・2018年4月現在では、「2G以上のファイルはFTPしてたもれ」というエラーが出ます。はぁ。
というわけで、FTPってなんやねん、というところは、以下の HPでお勉強して、
https://www.sejuku.net/blog/9985
一言で言うと、「ファイル転送する時のプロトコル」だそうです。
るまんどはFFTP というフソトを使うことにしました。
galaxyにつなげるときのFFTPの設定は、
ホストの設定名:Galaxy
ホストの名:
あれ?桜っていつのまに散ったんでしょうか。
咲いてたのは、ついこないだ見たんですけど・・・・。
さて、そこからですか?バイオインフォ道場ですが、UPするのに時間がかかりすぎて、まいっちんぐ状態だった問題ですが、秘密の小部屋からアクセスすると、3GMのデータが5分くらいでUPできることがわかりました。いったいなんなの?
というわけで、解析はできるだけGalaxyですませることにしました。
で、まずは、galaxyのアカウントを作成して、200Gもらったら、そこにデータをUPします。します・・・、できません。
たしか先月までは3G程度のファイルなら、ドラッグ&ドロップでUPできたと思うんですけど・・・2018年4月現在では、「2G以上のファイルはFTPしてたもれ」というエラーが出ます。はぁ。
というわけで、FTPってなんやねん、というところは、以下の HPでお勉強して、
https://www.sejuku.net/blog/9985
一言で言うと、「ファイル転送する時のプロトコル」だそうです。
るまんどはFFTP というフソトを使うことにしました。
galaxyにつなげるときのFFTPの設定は、
ホストの設定名:Galaxy
ホストの名:
usegalaxy.org
ユーザー名 :galaxyにログインするときのログイン名
PW:
galaxyにログインするときの.
です。
これはわりと何とかなりました。
あとは念のため、Galaxy本家のヘルプを見れば、大丈夫と思います。
https://galaxyproject.org/ftp-upload/
そこからですか?のバイオインフォ:QCレポート
あ、どうも。
GalaxyとかDDBJとか、いろいろザッピングしたんですけど、どう考えてもデータをアップするだけなのに時間がかかりすぎる、というのがネックです。
そう、入り口で躓いている。入れないでいる。
この状況はあれですね、ネコがかりかり、部屋に入りたくてドアをかりかりしているのに似ている。あきらめなければ、いつかは入れちゃうわけで。
ということで、Wedツールを使うのと同時並行して、Rでできることはやってみる、ことにしました。
で、なにすればいいの?っていう・・・。そこからです。
これはあれですね、「これ、絶対おいしいから!食べてみて!」って、アーティチョークをもらったけど、アスパラガスの先っぽの大きいのみたいで・・・、煮るのか焼くのか、もしかしたら生でもいけるのか、決めかねて途方にくれる、という状況に似ている。
たとえが長いですね、すみません。
ま、まずは、データがどんななのか、見てみることにしました。
・付属のレポートを確認
・Rでもレポートを作ってみる
で、Rのコマンドについては、いつもの門田先生チームのHPにお世話になって、ファイルを立て続けに処理できるようにしてみました。
GalaxyとかDDBJとか、いろいろザッピングしたんですけど、どう考えてもデータをアップするだけなのに時間がかかりすぎる、というのがネックです。
そう、入り口で躓いている。入れないでいる。
この状況はあれですね、ネコがかりかり、部屋に入りたくてドアをかりかりしているのに似ている。あきらめなければ、いつかは入れちゃうわけで。
ということで、Wedツールを使うのと同時並行して、Rでできることはやってみる、ことにしました。
で、なにすればいいの?っていう・・・。そこからです。
これはあれですね、「これ、絶対おいしいから!食べてみて!」って、アーティチョークをもらったけど、アスパラガスの先っぽの大きいのみたいで・・・、煮るのか焼くのか、もしかしたら生でもいけるのか、決めかねて途方にくれる、という状況に似ている。
たとえが長いですね、すみません。
ま、まずは、データがどんななのか、見てみることにしました。
・付属のレポートを確認
・Rでもレポートを作ってみる
で、Rのコマンドについては、いつもの門田先生チームのHPにお世話になって、ファイルを立て続けに処理できるようにしてみました。
登録:
投稿 (Atom)
けものドラマ見てます。
ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...
-
お久しぶりです。 ご挨拶は、そこそこに、SSRのデータ解析の覚書をば(だって、ごちゃごちゃ言っている間に、忘れそうで)。 解析の流れとしては、 個体ベースでのクラスタリング(きれいな図でout put)→適切なK(集団数)の判定→集団の遺伝的距離→集団の系統樹 を示し...
-
最近、自分の話をしすぎた感があるので、解析で直面したRのお話をひとつ・・・。 上のデータは、遺伝子の発現量の値だと思って下さい。cont1-3はコントロール飼育、exp1-3は実験処理をした個体です。データは、コピペコマンド(x<-read....
-
今日の業務実績をご報告。 TCSでハプロタイプネットワークがかけました! やったね! v(^^)v とにもかくにも、原因は、phyファイルやNEXUSファイルが、Tcsの読めるように書けない、ということでした。原因と解決法の覚書は、以下。 ・塩基数が間違っていた→...