|
[ruby-list:42454] 多量の正規表現との効率的なマッチのアイデアを、、: msg#00108lang.ruby.japanese
出沢です 100位の正規表現と10000位レコードのマッチを効率的に行なう方法を考えています。 400Byte/行 10000行位のデータがあります。 このなかに、ある項目の値とその分類番号があります。 分類番号(ともうひとつ別の項目との二次元の組み合わせ)毎の集計を行ないます。 ただし、その「ある項目の値」が複数ある正規表現のどれかとマッチする場合は 分類番号をその正規表現に対応した値に変更して集計します。 当初は正規表現は3個ぐらいで始まりますが、たぶん100位にまで増殖するでしょう。 どれかにマッチする可能性は、10%程度です。 仕事の性格上、後方参照はしないですから、正規表現中に ( ) は無いとして よいかと思います。 単純に考えると、 正規表現を値にする配列を作り、レコードを読むたびに配列の中を順に マッチさせて行けば良いのでしょうが、なんかおもしろくないな、、 ということで、 効率的に行なう方法 か rubyらしい、きれいな方法か か がないものか悩んでいるところです。 ブロックなどの高度な使いかたがまだわかっていないこともあり 御知恵をお借りしたく思います。
|
|
| <Prev in Thread] | Current Thread | [Next in Thread> |
|---|---|---|
| Previous by Date: | [ruby-list:42453] Re: rubyで多次元配列の作り方, cuzic |
|---|---|
| Next by Date: | [ruby-list:42455] Re: 多量の正規表現との効率的なマッチのアイデアを、、, rubikitch |
| Previous by Thread: | [ruby-list:42452] ReFeデータベース構築失敗, MIYAJIMA Mitsuharu |
| Next by Thread: | [ruby-list:42455] Re: 多量の正規表現との効率的なマッチのアイデアを、、, rubikitch |
| Indexes: | [Date] [Thread] [Top] [All Lists] |
| News | FAQ | advertise |