|
[Namazu-devel-ja 1464] msofficexml.pl におけるタグ間のスペース問題: msg#00047search.namazu.devel.japanese
寺西です。 これは何とかなるのでしょうか? powerpoint2007.ppsx の検索結果は次のようになります。 19. Namazu のテスト (スコア: 22) 著者: test@xxxxxxxxxx 日付: Fri, 26 Jan 2007 20:20:51 +0900 Namazu のテスト test@xxxxxxxxxx Copyright (C) 2000 - 200 7 Namazu Project. All rights reserved. トピック 1 Namazu は手軽に使えること を第一に目指した日本語全文検索システムです。このファイルはテスト用 /backup/work/development-2-1/namazu/tests/tmp-data/powerpoint2007.ppsx (58,097 bytes) ここの "2007" が "200 7" に分かれてしまっています。 その理由は、元々 200x だった x を 7 に編集して保存したためで、 ファイルの中身は次のようにタグで分けられているためでしょう。 <a:r><a:rPr lang="ja-JP" altLang="ja-JP" dirty="0" smtClean="0"> <a:latin typeface="+mn-ea"/></a:rPr><a:t>200</a:t></a:r> <a:r><a:rPr lang="en-US" altLang="ja-JP" dirty="0" smtClean="0"> <a:latin typeface="+mn-ea"/></a:rPr><a:t>7</a:t></a:r> Office がきちんと連結してくれれば良いのですが、そう都合よくはありま せん。 HTML の時のように $NON_SEPARATION_ELEMENTS のようにタグの種類で判別 するなどして、余計なスペースが入らないようにできればなぁと思います。 -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E |
|
| <Prev in Thread] | Current Thread | [Next in Thread> |
|---|---|---|
| Previous by Date: | [Namazu-devel-ja 1463] Re: visio2007.vdx ファイル問題: 00047, Tadamasa Teranishi |
|---|---|
| Next by Date: | [Namazu-devel-ja 1465] Re: msofficexml.pl におけるタグ間のスペース問題: 00047, Yukio USUDA |
| Previous by Thread: | [Namazu-devel-ja 1462] visio2007.vdx ファイル問題i: 00047, Tadamasa Teranishi |
| Next by Thread: | [Namazu-devel-ja 1465] Re: msofficexml.pl におけるタグ間のスペース問題: 00047, Yukio USUDA |
| Indexes: | [Date] [Thread] [Top] [All Lists] |
| News | FAQ | advertise |