日曜日, 4月 15

そこからですか?のバイオインフォ:リファレンスファイルの問題

あ、どうも。るまんどです。

webのGalaxyにRNA-seq(1ファイルあたり3.4G)データは無事アップできたんですが、ここからは、ええと何をすれば?

ええと、うちのデータは、control:n=3, treatment:n=3です。非モデル生物です。予算が「RNA-seq解析までするか、解析は自前で行い、DNAもよんでおくか」の選択だったんで、迷わず後者を選んでいます。つまり、ゲノムの生データはある。生です。既報で、近縁種(科が同じ)のTranscriotomeデータはあります。あ、pair-endデータです。インサートは150bpです。ショートリード界(ショートと言わない?でもlongではないよね)では長めです。

ええと、データをUPしたら、次に何をすればいいのかを考えてみます。
0.クオリティーチェック、トリミング
1.リファレンスファイルをどうするか。
 1)Du novoのパイプラインを考える
  1-1 RNA-seqのみ
  1-2  ゲノムの生データでリファレンス作る
 2)近縁種をリファレンスにして、assemble?正確にはmapping?・・・という流れ
 3)なんか、自前のリファレンスと既報のデータをまぜまぜしてイイ(かどうかは、    やってみないとわからない)リファレンスを作るひともいるらしい・・・。
参考HP
http://shortreadbrothers.blogspot.jp/2010/10/de-novo-transcriptome.html


これまで、クオリティーチェックではRを使ったり、いろいろしたんですが・・・。
データのクオリティーについては、そもそも業務委託で出してもらったデータで、最低限のクオリティーをクリアしたデータを納品するように仕様がなっているので、トリミングの必要がないくらいのものです。・・・すくなくとも報告書を見る限りでは。むむむ。

で、るまんどの目下の問題は、リファレンスファイルをどうするかなんですね。
とりあえずの結果を出すなら、 2)が手っ取り早くていいんですが、このリファレンスが使い物になるかどうかが、わからない。

 ん~。リファレンスの良さを比べればいいのか。

リファレンス比較の基準は、長いcontigができたか、N50(50%のところのcontigの長さ)、contigの数(全体のデータ量に対してcontig数が少ない方がよい。つながれたってことだから)、でもってアッセンブリの正確さ(中身)がかなり大事・・・正確さ?

正確さは、コア遺伝子みたいのに対して、それがかなり作れていたら、いいんじゃない?ってことですね。BUSCOとかCEGMAとかいう解析。ん~、解析ソフトがいるのか。Blast2GOでもいいのかな。

あっ、何これ・・・。↓そうそう、ぱっくまんさん!私がさがしていたのは、こういうやつです。

https://pacbiobrothers.blogspot.jp/2017/07/

おおお!すごいよ、この理研の中の人の開発したgVolante!
https://gvolante.riken.jp/

リファレンスファイルの比較に便利すぎるツールです。web上で使うやつ。ちゃっちゃとwebでグラフも出してくれる。いそいで報告書を書くにはちょうどいい!!!(コラコラ(`o´))

ありがたやありがたや。


こんなんで、後2週間で報告書を書かないといけないんですけど、大丈夫でしょうか。

・・・やばいって。


そこからですか?のバイオインフォ:FTPとやらで、

どうも、るまんどです。
あれ?桜っていつのまに散ったんでしょうか。
咲いてたのは、ついこないだ見たんですけど・・・・。

さて、そこからですか?バイオインフォ道場ですが、UPするのに時間がかかりすぎて、まいっちんぐ状態だった問題ですが、秘密の小部屋からアクセスすると、3GMのデータが5分くらいでUPできることがわかりました。いったいなんなの?

 というわけで、解析はできるだけGalaxyですませることにしました。

で、まずは、galaxyのアカウントを作成して、200Gもらったら、そこにデータをUPします。します・・・、できません。

たしか先月までは3G程度のファイルなら、ドラッグ&ドロップでUPできたと思うんですけど・・・2018年4月現在では、「2G以上のファイルはFTPしてたもれ」というエラーが出ます。はぁ。

というわけで、FTPってなんやねん、というところは、以下の HPでお勉強して、
https://www.sejuku.net/blog/9985

一言で言うと、「ファイル転送する時のプロトコル」だそうです。

るまんどはFFTP というフソトを使うことにしました。

galaxyにつなげるときのFFTPの設定は、
ホストの設定名:Galaxy
ホストの名:usegalaxy.org
ユーザー名 :galaxyにログインするときのログイン名
PW:galaxyにログインするときの.

です。 


これはわりと何とかなりました。

あとは念のため、Galaxy本家のヘルプを見れば、大丈夫と思います。

https://galaxyproject.org/ftp-upload/


そこからですか?のバイオインフォ:QCレポート

あ、どうも。

GalaxyとかDDBJとか、いろいろザッピングしたんですけど、どう考えてもデータをアップするだけなのに時間がかかりすぎる、というのがネックです。

そう、入り口で躓いている。入れないでいる。

この状況はあれですね、ネコがかりかり、部屋に入りたくてドアをかりかりしているのに似ている。あきらめなければ、いつかは入れちゃうわけで。

ということで、Wedツールを使うのと同時並行して、Rでできることはやってみる、ことにしました。

で、なにすればいいの?っていう・・・。そこからです。

これはあれですね、「これ、絶対おいしいから!食べてみて!」って、アーティチョークをもらったけど、アスパラガスの先っぽの大きいのみたいで・・・、煮るのか焼くのか、もしかしたら生でもいけるのか、決めかねて途方にくれる、という状況に似ている。

たとえが長いですね、すみません。

ま、まずは、データがどんななのか、見てみることにしました。

・付属のレポートを確認
・Rでもレポートを作ってみる

で、Rのコマンドについては、いつもの門田先生チームのHPにお世話になって、ファイルを立て続けに処理できるようにしてみました。

月曜日, 2月 12

そこからですか?バイオインフォ:データーが大きすぎて。

さて、無事、ファイルの解凍ができたので、やぁ、もう、あとは、あれですよ、君ーにも、見え~る~、ウルトラの星~♪

Galaxyを使うんです。うふ💗💗💗💗

https://usegalaxy.org/

インストールしなくても、Wedで使える素敵なツール。「そこからですか??バイオインフォ」の強い味方。使い方もあちこちで紹介されているし。
ちゃーんと、ユーザー登録もすませたし、データをあげるだけなんです。

あ・・・。

データをあげる??

Σ(゚д゚lll)ガーン


だめじゃん!

10GのデータをDLするのにとっても時間かかったのに、それ、またwebにあげるの無理じゃん!!!分解したって、1ファイル800Mbあるよ?ペアエンドで倍だよ。

あたしのバカ!!!

・・・うううう。Linax構築とか、自分でできる気がしません。

R?Rなの?Rが助けてくれるの?ほんとに?

というわけで、いつもの(?)こちらのHPにお世話になることになりました。

http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html#preprocessing_filter_subset

この門田先生チームのコマンドを、ディレクトリとか変えるだけで、ほぼまんま使わせてもらいました。

とりあえず、10万リードをランダム抽出して、35Mくらいにして、Galaxyにあげられるくらいにリサイズしますです。


ふぅ。

そこからですか?のバイオインフォ:ファイルのDLと解凍

どうも~。いつのまにか2018年、試薬のラベルの2018も書き慣れてきた今日この頃、みなさまいかがお過ごしでしょうか?

さて、ひょんなことから、「非モデル生物の発現量解析」のバイオインフォをやることになりました。

前から興味はあったので、チャンスがあればいつでも!と、思っていました。

しかし、自分の無知さをこんなにも思い知らされることになるとは思ってもいませんでした。

今日さらす恥は、「データのダウンロードに一晩と半日、解凍には1日かかった編」です。

データは最終的にはHDで納品なのですが、上司の希望もあり、シーケンスが終わったデータから、生(なま!ここ、あとからキます。生データから出発よ)データをダウンロードすることになりました。

データのDLなんて、ポチるだけなんですけど、朝からやって就業時間になってもダウンロード終わんなくて。圧縮で10Gくらいなんですけど・・・。

しょうがないのでほったらかして帰りました。ほろよいで。
んで、翌日みたら、ダウンロードが「キャンセル」になってて。

え?( ゚д゚ )なんで?

理由はよくわからないんで、「再読み込み」して・・・。なんとか終わりました。

ふぅ。(´Д`)

10Gのファイル形式はtarでした。…って、この形式初めてみました。そうです。「そこから?!」なんです。あは。

で、いつも使ってる、Lhaplasで解凍しようと・・・・、できない。

え?( ゚д゚ )

というか、いつまでたっても何もしてくれない。エラーすら出ません。スルー。完璧なまでの。スルー。

ヒドイ。(>_<)。エラーくらい出しなさいよ。

後から知ったんですが、Lhaplasはファイルサイズ大きいのは解凍できないんですって。

じゃぁってことで、上司お勧めの +Lhaca つかったんですけど…。

「ファイルが壊れている可能性があります」とか言われてしまいました。

う~ん、再読み込みのファイルだから?でも、もうDLには時間かけたくない。

そういえば、委託先の営業さんは、7-zip使うとか言ってたなーと思いだしてダメもとでやってみたら・・・、できました。とりあえず、.fq.gz までは解凍。まだ、gzの圧縮だけど(たぶん)、この形式なら、読み込んでくれるはず。

あ~。よかったな。(´∀`)。

今日の教訓:大きいファイルの解凍は7-zipでね。

これくらいではめげません。ふふふ。旅(恥?)はまだ始まったばかりです。


日曜日, 4月 9

きてません。

あ、どうも。

科研の内定ですか?

きてません。

不採択の通知もないですが、内定がない、ということはそういうことですよね?

ふふん。

雨でもちらない桜を見ながら。

土曜日, 4月 1

カルテット見てました。

あ、どうも。一回書いとかないと、ずっと考えてしまうので。

TBSのドラマ「カルテット」見てました。
リアルタイムの時間にはほとんど間に合わなかったので、録画で。

身につまされました。いろいろ。

夢追い人の三流が、4人集まって・・・という話ですが(←公式にはたぶん違う)、


業界の”煙”が、続けることに何の意味があるのか。

食べられないパセリは、結局ゴミ箱行きではないのか。


サンキューパセリ。

家森君の言葉は、きっと多くの人には励ましに聞こえるのだろうけれど、

今のるまんどには冷たい水が体の中に入り込んで、胃の中にたまるようでした。

重くて、冷たい。体は温いのに、胃の中だけ、冷たくて重い。


ドラマの4人は、アレコレ乗り越えた仲間なので、きっとそれで、続けていけるのだと思います。

研究する人生は孤独。
学会発表は、ひとりでのろしをあげてるようなもの。

この先、私はどうしたいのだろう。


ドラマでは、20代の女の子が「人生ちょろかったアハハハハハ」と言って指輪を見せるのですが、

ああ。10年後も、彼女はこうして笑っているのだろう。でも、彼女の中の黒いものは、笑顔で隠しきれなくなっているだろう。


煙に続ける価値はあるのか?

そんなの分かりません。

だけど、

どうしてやめないんですか?

という問いには、答えられる。

あの瞬間を知っているから。

けものドラマ見てます。

ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...