さて、無事、ファイルの解凍ができたので、やぁ、もう、あとは、あれですよ、君ーにも、見え~る~、ウルトラの星~♪
Galaxyを使うんです。うふ💗💗💗💗
https://usegalaxy.org/
インストールしなくても、Wedで使える素敵なツール。「そこからですか??バイオインフォ」の強い味方。使い方もあちこちで紹介されているし。
ちゃーんと、ユーザー登録もすませたし、データをあげるだけなんです。
あ・・・。
データをあげる??
Σ(゚д゚lll)ガーン
だめじゃん!
10GのデータをDLするのにとっても時間かかったのに、それ、またwebにあげるの無理じゃん!!!分解したって、1ファイル800Mbあるよ?ペアエンドで倍だよ。
あたしのバカ!!!
・・・うううう。Linax構築とか、自分でできる気がしません。
R?Rなの?Rが助けてくれるの?ほんとに?
というわけで、いつもの(?)こちらのHPにお世話になることになりました。
http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html#preprocessing_filter_subset
この門田先生チームのコマンドを、ディレクトリとか変えるだけで、ほぼまんま使わせてもらいました。
とりあえず、10万リードをランダム抽出して、35Mくらいにして、Galaxyにあげられるくらいにリサイズしますです。
ふぅ。
月曜日, 2月 12
そこからですか?のバイオインフォ:ファイルのDLと解凍
どうも~。いつのまにか2018年、試薬のラベルの2018も書き慣れてきた今日この頃、みなさまいかがお過ごしでしょうか?
さて、ひょんなことから、「非モデル生物の発現量解析」のバイオインフォをやることになりました。
前から興味はあったので、チャンスがあればいつでも!と、思っていました。
しかし、自分の無知さをこんなにも思い知らされることになるとは思ってもいませんでした。
今日さらす恥は、「データのダウンロードに一晩と半日、解凍には1日かかった編」です。
データは最終的にはHDで納品なのですが、上司の希望もあり、シーケンスが終わったデータから、生(なま!ここ、あとからキます。生データから出発よ)データをダウンロードすることになりました。
データのDLなんて、ポチるだけなんですけど、朝からやって就業時間になってもダウンロード終わんなくて。圧縮で10Gくらいなんですけど・・・。
しょうがないのでほったらかして帰りました。ほろよいで。
んで、翌日みたら、ダウンロードが「キャンセル」になってて。
え?( ゚д゚ )なんで?
理由はよくわからないんで、「再読み込み」して・・・。なんとか終わりました。
ふぅ。(´Д`)
10Gのファイル形式はtarでした。…って、この形式初めてみました。そうです。「そこから?!」なんです。あは。
で、いつも使ってる、Lhaplasで解凍しようと・・・・、できない。
え?( ゚д゚ )
というか、いつまでたっても何もしてくれない。エラーすら出ません。スルー。完璧なまでの。スルー。
ヒドイ。(>_<)。エラーくらい出しなさいよ。
後から知ったんですが、Lhaplasはファイルサイズ大きいのは解凍できないんですって。
じゃぁってことで、上司お勧めの +Lhaca つかったんですけど…。
「ファイルが壊れている可能性があります」とか言われてしまいました。
う~ん、再読み込みのファイルだから?でも、もうDLには時間かけたくない。
そういえば、委託先の営業さんは、7-zip使うとか言ってたなーと思いだしてダメもとでやってみたら・・・、できました。とりあえず、.fq.gz までは解凍。まだ、gzの圧縮だけど(たぶん)、この形式なら、読み込んでくれるはず。
あ~。よかったな。(´∀`)。
今日の教訓:大きいファイルの解凍は7-zipでね。
これくらいではめげません。ふふふ。旅(恥?)はまだ始まったばかりです。
さて、ひょんなことから、「非モデル生物の発現量解析」のバイオインフォをやることになりました。
前から興味はあったので、チャンスがあればいつでも!と、思っていました。
しかし、自分の無知さをこんなにも思い知らされることになるとは思ってもいませんでした。
今日さらす恥は、「データのダウンロードに一晩と半日、解凍には1日かかった編」です。
データは最終的にはHDで納品なのですが、上司の希望もあり、シーケンスが終わったデータから、生(なま!ここ、あとからキます。生データから出発よ)データをダウンロードすることになりました。
データのDLなんて、ポチるだけなんですけど、朝からやって就業時間になってもダウンロード終わんなくて。圧縮で10Gくらいなんですけど・・・。
しょうがないのでほったらかして帰りました。ほろよいで。
んで、翌日みたら、ダウンロードが「キャンセル」になってて。
え?( ゚д゚ )なんで?
理由はよくわからないんで、「再読み込み」して・・・。なんとか終わりました。
ふぅ。(´Д`)
10Gのファイル形式はtarでした。…って、この形式初めてみました。そうです。「そこから?!」なんです。あは。
で、いつも使ってる、Lhaplasで解凍しようと・・・・、できない。
え?( ゚д゚ )
というか、いつまでたっても何もしてくれない。エラーすら出ません。スルー。完璧なまでの。スルー。
ヒドイ。(>_<)。エラーくらい出しなさいよ。
後から知ったんですが、Lhaplasはファイルサイズ大きいのは解凍できないんですって。
じゃぁってことで、上司お勧めの +Lhaca つかったんですけど…。
「ファイルが壊れている可能性があります」とか言われてしまいました。
う~ん、再読み込みのファイルだから?でも、もうDLには時間かけたくない。
そういえば、委託先の営業さんは、7-zip使うとか言ってたなーと思いだしてダメもとでやってみたら・・・、できました。とりあえず、.fq.gz までは解凍。まだ、gzの圧縮だけど(たぶん)、この形式なら、読み込んでくれるはず。
あ~。よかったな。(´∀`)。
今日の教訓:大きいファイルの解凍は7-zipでね。
これくらいではめげません。ふふふ。旅(恥?)はまだ始まったばかりです。
登録:
投稿 (Atom)
けものドラマ見てます。
ええと、研究と関係のない話です。 ドラマを見ています。 2018年12月現在。 獣になれない私たち。 もう、好きだ!というしかない。 松田龍平も新垣結衣も。好きな役者さんで。田中圭も黒木華も! 全然、スパッと行かない展開も、ものすごいリアルで鳥肌が立ちます。...
-
お久しぶりです。 ご挨拶は、そこそこに、SSRのデータ解析の覚書をば(だって、ごちゃごちゃ言っている間に、忘れそうで)。 解析の流れとしては、 個体ベースでのクラスタリング(きれいな図でout put)→適切なK(集団数)の判定→集団の遺伝的距離→集団の系統樹 を示し...
-
最近、自分の話をしすぎた感があるので、解析で直面したRのお話をひとつ・・・。 上のデータは、遺伝子の発現量の値だと思って下さい。cont1-3はコントロール飼育、exp1-3は実験処理をした個体です。データは、コピペコマンド(x<-read....
-
今日の業務実績をご報告。 TCSでハプロタイプネットワークがかけました! やったね! v(^^)v とにもかくにも、原因は、phyファイルやNEXUSファイルが、Tcsの読めるように書けない、ということでした。原因と解決法の覚書は、以下。 ・塩基数が間違っていた→...