logo       

[ruby-list:42440] Re: 空白行を除くための行数の数え方: msg#00094

lang.ruby.japanese

Subject: [ruby-list:42440] Re: 空白行を除くための行数の数え方

片山です。

06/06/21 に Norihito Shinzan (Jun
Kabbalah)<kabbalah-dQ7LRJR+8C81vfuBshnKrCGn5s73+xxf@xxxxxxxxxxxxxxxx> さんは書きました:
最初の質問時に「BioRubyを使ってGenBankデータを処理しようとしています」
と対象データ・使用ライブラリを断っておけば皆さんも混乱しなかったと思いま
す(^^;

そうですね。
BioRuby をお使いの場合は少し方法が違っていたのですが
たどり着かれたようなのでそれは良いとして、 ^^;


#ていうか、GenBank のフォーマットにとって空行に何の意味もないなら
#BioRuby 側で読み飛ばしてくれればいいんじゃないかと思ってみたり。

GenBank は遺伝子やゲノムの DNA シーケンスと付随する情報を
自然言語で記述する際に使われる代表的なフォーマットの一つなのですが、
小さな遺伝子から巨大なゲノムまで使い回されているおかげで、
以下のような状況になっています:

* BioRuby では1行ごとではなく // で区切られた複数行(エントリ)ごとに読み込んでいる
* エントリのサイズは数KBのものから数百MBのものまで混在し得る
* GenBank フォーマットの規格として空行は存在しないことになっている

読み込んだエントリに空行が無いかチェックするのは、
エントリが巨大だった場合に少しパフォーマンスが悪くなりそうです。
(そうでもないのかな、、)

ちなみに、エントリの前後についている white spaces は strip していますので、
今回のケースはエントリの中に空行があるのかなと想像していますが、

* どうすればそんなデータが得られたのか(わりと一般的に起こりうる事かどうか)
* 実際のデータ
* エラーメッセージ
* やろうとしていたこと(とうまくいかなかったこと)

などを BioRuby のメーリングリストか個人宛にメールして頂ければ改良できるかもしれません。
(場合によってはデータの取り方を変える方が早いかもしれません^^;)

ではでは。




<Prev in Thread] Current Thread [Next in Thread>
Google Custom Search

News | FAQ | advertise