月曜日, 2月 12

そこからですか?バイオインフォ:データーが大きすぎて。

さて、無事、ファイルの解凍ができたので、やぁ、もう、あとは、あれですよ、君ーにも、見え~る~、ウルトラの星~♪

Galaxyを使うんです。うふ💗💗💗💗

https://usegalaxy.org/

インストールしなくても、Wedで使える素敵なツール。「そこからですか??バイオインフォ」の強い味方。使い方もあちこちで紹介されているし。
ちゃーんと、ユーザー登録もすませたし、データをあげるだけなんです。

あ・・・。

データをあげる??

Σ(゚д゚lll)ガーン


だめじゃん!

10GのデータをDLするのにとっても時間かかったのに、それ、またwebにあげるの無理じゃん!!!分解したって、1ファイル800Mbあるよ?ペアエンドで倍だよ。

あたしのバカ!!!

・・・うううう。Linax構築とか、自分でできる気がしません。

R?Rなの?Rが助けてくれるの?ほんとに?

というわけで、いつもの(?)こちらのHPにお世話になることになりました。

http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html#preprocessing_filter_subset

この門田先生チームのコマンドを、ディレクトリとか変えるだけで、ほぼまんま使わせてもらいました。

とりあえず、10万リードをランダム抽出して、35Mくらいにして、Galaxyにあげられるくらいにリサイズしますです。


ふぅ。

そこからですか?のバイオインフォ:ファイルのDLと解凍

どうも~。いつのまにか2018年、試薬のラベルの2018も書き慣れてきた今日この頃、みなさまいかがお過ごしでしょうか?

さて、ひょんなことから、「非モデル生物の発現量解析」のバイオインフォをやることになりました。

前から興味はあったので、チャンスがあればいつでも!と、思っていました。

しかし、自分の無知さをこんなにも思い知らされることになるとは思ってもいませんでした。

今日さらす恥は、「データのダウンロードに一晩と半日、解凍には1日かかった編」です。

データは最終的にはHDで納品なのですが、上司の希望もあり、シーケンスが終わったデータから、生(なま!ここ、あとからキます。生データから出発よ)データをダウンロードすることになりました。

データのDLなんて、ポチるだけなんですけど、朝からやって就業時間になってもダウンロード終わんなくて。圧縮で10Gくらいなんですけど・・・。

しょうがないのでほったらかして帰りました。ほろよいで。
んで、翌日みたら、ダウンロードが「キャンセル」になってて。

え?( ゚д゚ )なんで?

理由はよくわからないんで、「再読み込み」して・・・。なんとか終わりました。

ふぅ。(´Д`)

10Gのファイル形式はtarでした。…って、この形式初めてみました。そうです。「そこから?!」なんです。あは。

で、いつも使ってる、Lhaplasで解凍しようと・・・・、できない。

え?( ゚д゚ )

というか、いつまでたっても何もしてくれない。エラーすら出ません。スルー。完璧なまでの。スルー。

ヒドイ。(>_<)。エラーくらい出しなさいよ。

後から知ったんですが、Lhaplasはファイルサイズ大きいのは解凍できないんですって。

じゃぁってことで、上司お勧めの +Lhaca つかったんですけど…。

「ファイルが壊れている可能性があります」とか言われてしまいました。

う~ん、再読み込みのファイルだから?でも、もうDLには時間かけたくない。

そういえば、委託先の営業さんは、7-zip使うとか言ってたなーと思いだしてダメもとでやってみたら・・・、できました。とりあえず、.fq.gz までは解凍。まだ、gzの圧縮だけど(たぶん)、この形式なら、読み込んでくれるはず。

あ~。よかったな。(´∀`)。

今日の教訓:大きいファイルの解凍は7-zipでね。

これくらいではめげません。ふふふ。旅(恥?)はまだ始まったばかりです。


けものドラマ見てます。

ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...