2009年02月02日

これが決定版じゃね?とってもお手軽DesktopHE

全文検索には以前は主に、ビレッジセンターのサーチクロスを使っていました。

しかし、ビレッジセンターが解散してしまい今後はサポートが受けられません。

また、サーチクロスはインデックスのサイズが一定の容量を超えると分割する必要があります。増え続けるドキュメントに対してフォルダを分けるなどして分割をして対応してきました。しかし、そうした対症療法的な対応も限界になりつつあります。

それと、検索漏れもサーチクロスは気になるようになってきました。なぜかヒットしないファイルがあったりします。

コンセプトサーチも使っています。でも検索の精度がイマイチ。自然文検索を歌っているのですが、どうも意図しないファイルが引っかかったり、意図したファイルが見つからなかったり。。。しかもオープンオフィスには対応していない。

そういうわけで、候補としては・・・・・
続きを読む
posted by のら at 21:23| Comment(0) | TrackBack(0) | 検索 | このブログの読者になる | 更新情報をチェックする

2007年06月24日

DesktopHEと探三郎

どうも、わたしはグーグルデスクトップとかWindows Desktop Searchのように検索対象が明確に絞れない検索ソフトは好きではありません。というか、導入する機体を選ぶようにしています。

あれは、あれで楽ちんです。でも、非力なパソコンにはちょっと辛い。とくに、ノートパソコンなんかだとバッテリの消耗を抑えたいときにもバックグランドで勝手に動かれるのはちょっと遠慮して欲しい。。。

というわけで、全文検索ソフトはサーチクロスとコンセプトサーチを中心に使っていました。

しかし、ここでフリーのDesktopHEと探三郎というのを試してみました。

どちらも、かなり良いです。

探三郎はGDSやWDSに近い感じでおまかせの検索ソフト。でも、インデックスの作成時間などは指示できます。

DesktopHEは特にスゴいです。

というか、サーチクロスの立場って大丈夫?サーチクロスで今までやっていたことってほとんどDesktopHEで代替ができちゃうんですよ。

しかも、設定もサーチクロスよりも楽。インターフェースは大差ない。というか、サーチクロスのインターフェースをさらにブラッシュアップした感じです。デフォルトでオープンオフィスフォーマットの検索ができるのが嬉しいです。

最近サーチクロスってアップデートがないんです。このまま、DesktopHEに乗り換えちゃおうかなぁ、と思っています。

DesktopHE
http://freemind.s57.xrea.com/desktophe/index.html

DesktopHEによるfutasukeのインデックス構築
http://blog.goo.ne.jp/heika_love/e/03a5f4e0edb60c04c6af6c34addf762e

DesktopHEレビュー
http://www.moongift.jp/2006/08/2163/
http://www.moongift.jp/2006/08/2171/

探三郎
http://www.geocities.jp/koutarou_y1926/

追記:
ちなみに、うちの環境でDesktopHEでインデックスファイルを再構築する際は、一度古いインデックスファイル(フォルダ名「index」)を削除しないと再構築が出来ませんでした。

そういう仕様なのか、たまたまうちの環境で起きたことか分かりませんが、今後利用を検討している方は注意してください。
posted by のら at 19:00| Comment(0) | TrackBack(0) | 検索 | このブログの読者になる | 更新情報をチェックする

2007年04月17日

文章フォーマットと全文検索

のらはオフィスソフトはOpen Office.orgを主に使っています。それと補助的に、MS Office2000も使っています。

で、問題になるのは文章のフォーマット。全文検索で検索に引っかかって、MS OfficeでもOpen Office.orgでも編集や閲覧が出来るファイルフォーマットが理想です。

しかし、なかなか適当なファイルフォーマットがない。現状ではやむなくOpen Office.orgで編集、保存はMS Office形式で行っています。

Open Office.orgのOpen Document形式は、仕様が公開されていてMS Officeのような閉鎖的なフォーマットではありません。将来性はそれなりにありそうです。

でも、全文検索ソフトだと依然対応していないソフトが多数あります。

たとえば、ジャストシステムのコンセプトサーチは対応していません。ビレッジセンターのSearchXは外部プラグイン(xdoc2txt)を利用すれば検索できそうですが、標準では対応していません。

Google デスクトップサーチやWindows デスクトップサーチもデフォルトの状態では使えません。プラグインとかアドインの導入が必要。

Namazuは対応しているけど、敷居が高い。。。

というわけで、全文検索ソフトを使うことを考えると、Open Office.orgのファイル形式(Open Document形式)は最適の選択と言えるかどうか微妙。。。。

デファクトスタンダードのMS Officeのファイル形式への対応を各社とも最優先させているのでしょう。オープンなOpen DocumentよりもクローズドなMS Office形式のほうが全文検索ソフトでは有利、というのはなんとも皮肉な話です。

のらは複雑な文章の修飾などは行わないません。ほかのファイル形式で、MS OfficeでもOpen Office.orgでも、ブラウザなどでも柔軟に扱えるものを探してみました。

Open Office.orgのPDFは透明テキストに対応していて検索は楽。でも、編集が出来ない。
MHTML形式はIEでは開けるのですが、Open Office.orgでは扱えない。

XHTML形式はFirefoxやOpen Office.orgでは開けるが、IEやMS Officeではうまく扱えない。
結局、MS Office形式に落ち着いてしまいます。

全文検索などはある程度スキルのある方が、労を惜しまなければ対応できる状況まで来ているようです

願わくば、Open Document形式がもう少し普及してくれると、いいのですが。そうすれば、全文検索のための環境構築ももっと楽になると思うんですけどね。

まぁ、もっとも汎用性が高いテキストファイルを用いて力押しでやる、という方法もあります。

マイドキュメントの文書ファイルを定期的にxdoc2txtでテキストファイルに変換して全文検索で引っかかるようにします。xdoc2txtに流し込めば、ファイル名は同じで拡張子だけtxtに変えたファイルが作成されます。(詳しくはリンク参照)

xdoc2txt
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html

Office文書やPDF/HTMLファイルのテキスト部分を抽出できる「xdoc2txt」が公開
http://www.forest.impress.co.jp/article/2003/11/19/xdoc2txt.html
posted by のら at 07:20| Comment(3) | TrackBack(0) | 検索 | このブログの読者になる | 更新情報をチェックする
※ご注意 当ブログ及びリンク先、広告の記載内容等に当方は一切責任を負いません。ご自身の責任においてご利用、ご確認ください。

※個別のご質問にはお答えできない場合があります

※リンクはご自由にどうぞ。コメント、トラックバックは内容やリンク先を確認させていただいております。掲載できない場合もありますがご了承ください
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。